Elosztott számítástechnika • Big Data: a ma alkalmazott stratégia COTS elosztott rendszerek alkalmazása • Kivételek vannak; lásd IBM Netezza • 8 db nyolcmagos gép jóval olcsóbb, mint egy 64 magos • Modern hálózati technológiák: • Memóriánál lassabb • Helyi diszk áteresztőképességénél/válaszidejénél nem feltétlenül! • A tárolás és a feldolgozás is elosztott Felhő számítástechnika A "számítási felhők" egy modell, amely lehetővé teszi a hálózaton keresztül való, kényelmes és széles körű hozzáférést konfigurálható számítási erőforrások egy megosztott halmazához. Amazon Web Services Alapvető kérdések • Elosztott platformon párhuzamosítás szükséges • Hatékony feldolgozáshoz továbbra is referenciális lokalitás kell • Bár a feldolgozás "közel vihető az adathoz", az adatterítés logikája befolyásolja a teljesítményt • Pl. csak egy csomópont dolgozik Big Data == Hadoop?
Big Data elemzési módszerek A képzés során megszerezhető kompetencia Elemzési és statisztikai alapfogalmak, Vizualizációs technikák. "Algorithm as a service" megközelítések, tipikus elemzési szolgáltatások. Kiemelt elemzési algoritmusok és alkalmazásaik Big Data problémákban. Stream processing módszerek és algoritmusok. Kapcsolat (név, telefon, fax, e-mail) Méréstechnika és Információs Rendszerek Tanszék A kurzus indításának legközelebbi időpontja 0000-00-00 00:00:00 Képzéshez tartozó dokumentumok Képzési tájékoztató, Felnőttképzési szerződés minta, Jelentkezési lap nyomtatvány
Adatbányászat lap - Megbízható válaszok profiktól Calculator PPT - 'Big Data' elemzési módszerek PowerPoint Presentation, free download - ID:6507036 A tantárgy követelményeit eredményesen teljesítő hallgatók: 1. Ismerik az elemzésre szolgáló alkalmas legfontosabb dedikált hardver/szoftver eszközöket, valamint a kinyert tudás integrációját a tipikus informatikai kulcsterületeken. Ezen belül jártasak az elterjedten használt, nyílt forráskódú R nyelvű eszközök és azok Big Data irányú kiterjesztéseinek használatában. 2. Képesek az informatika széles területén az ismeretszerzési folyamatok tervezésére, végrehajtására és eredményük szabatos reprezentációjára. Ismerik a kísérlettervezés, adatminőség-biztosítás, adattisztítás, adatelemzés, értelmezés, döntéstámogatás és modellalkotás fázisait. 3. Ismerik a klasszikus statisztikai döntéselméleti alapokat, különös tekintettel az optimalizálási és mintavételi technikákra. Megismernek néhány, a 'Big Data' informatika területén kulcsszerepet játszó területet (pl.
Twitter 'spam' RDBMS? § 'Big Data' problémáknál általában létezik természetes (részleges) rendezési szempont o Természetes: a nemtriviális analízisek ebben a sorrendben működnek o Pl. idő (idősor-analízisek) § Relációs modell: sorok sorrendje anatéma § Következmény: véletlenszerű hozzáférés diszkről § Az "optimális" hozzáférési mintához képest lassú Normalizált séma: lassú lehet! [3] Nagyvállalati adattárházak? § Jellemzően igen komoly ETL § "Válaszidő"-követelmények o Régi adatok aggregálása/törlése/archiválása § Strukturálatlan adatok nem jellemzőek § Drágák… § Nem lehet későbbi analízisre "leborítani" az adatokat Analízis eszközök? § Példa: R o De lehetne SPSS, SAS, h. d. Excel is § Kulcsrakész függvények mediántól a neurális hálókig § De: csak memóriában tárolt adattípusok, nem hatékony memóriakezelés Vizualizáció? § A klasszikus megoldások erősen támaszkodnak létező tárolási és analízis-megoldásokra § Jellemzően statisztikai leképezések o Önmagában Big Data problémára vezethető vissza § Feltáró adatanalízis (EDA): GPU támogatás?
Két gyakorlatias specit és egy hallgatói önképző labort indítunk a téma iránt érdeklődőknek: Big Data Architektúrák (IP-15BDA): A tárgy célja olyan architektúrák és rendszerek megismertetése a hallgatókkal, amelyeket nagy adattömegek (ún. Big Data) tárolására és elemzésére alkalmaznak. A modern Big Data architektúrák tipikusan egy fizikai vagy virtuális (pl. felhő) számítógép klaszterre épülnek. A kurzus során a hallgatók megismerkednek a Yarn klasztermenedzsment eszközzel, amely több keretrendszert is képes kiszolgálni. Ilyenek például a Hadoop, Spark, Storm és Flink, továbbá ezek különböző kiegészítései. Tárgy keretén belül a hallgatók betekintést nyerhetnek az elosztott fájlrendszerek működésébe, használatába és konfigurálásába. Megismerkedhetnek a job alapú adatelemzéssel, ezenbelül a MapReduce technikával, a BSP (Bulk synchronous parrallel) alapú elosztott gráf elemzési rendszerekkel és a stream alapú megoldásokkal.