Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. február 5., kedd

Big Data csak hype lenne?


Ezt a posztot az Andego blog alábbi nagyszerű poszt-sorozata indukálta.

Mém neve - Big Data I.rész
Mém neve - Big Data II.rész
Mém neve - Big Data III.rész

Sajnálom, hogy lemaradtam a szerző gyors körkérdéseiről, így amit most leírok, arról nem tudható, hogy mennyire jött volna csípőből, egyáltalán mennyire visszás egy blogposztban előhozni, így felmelegítve, másodkézből. Viszont érdekes a topik, nekem szívügyem is, úgyhogy félre a kétségekkel. :o)

I.
1. kérdés: Szerinted mit jelent a “Big Data” kifejezés? (ha fogalmad sincs, akkor azt írd ide!)

Nekem erre három definicióm van, egyiket a szerző is említette, de úttörő-becsszó, hogy nekem is eszembejutott. :o) Fontossági sorrendben:

(A) Az a méretű és/vagy komplexitású dataset, ahol a ráépülő alkalmazás-tervezés elmozdul a párhuzamos adatfeldolgozás irányába. Azt gondolom, ez egyszerre komoly és éles vízválasztó: "párhuzamos"-an gondolkodni egészen másképp kell. Ez a "párhuzamosság" mára mondhatni paradigma(-váltás), ahogy a big data is az - a kvázi nulla másodperces, null költséget igénylő eredmény-elérési követelményekkel.

(B) Komoly - értsd például IBM SPSS Modelerben triviálisan nem abszolválható - előfeldolgozást igényel a dataset, a további érdemi feldolgozáshoz. Értelmezésemben ilyen például a multmédiás adatbányászat kis és nagy léptékben egyaránt.

(C) Az IBM SPSS Modeler nem bír megbírkózni mondjuk 24 órán belül a datasettel. Ez képlékeny dolog, mert az eszköz is, a hardver is, az algoritmusok is fejlődhetnek. Ami ma nem fut le, holnap lefuthat. (Ezt a megközelítést említette a szerző a poszt-sorozatában)


2. kérdés: Hány MB/GB/TB felett beszélünk Big Data-ról?

Erre a kérdésre nem szívesen válaszolok, ugyanis nem minden a méret. ;)

Nem mindegy ugyanis, hogy sok milliárd rekordunk van pár mezővel, mezők mindegyike kitöltve.
Avagy van 15.000 mezőnk, asszimmetrikusan tele null-okkal, adott esetben lényegesen kevesebb rekord mellett (és persze ugyanakkora tárigénnyel) - lásd Orange-versenyt. Ezt a feladatot ugyanis például Oracle alatt nem igazán lehet praktikusan kezelni. ;)

Van egy másik érdekes aspektus is. Magyarországi adatbányászként más dataset-méretekkel szembesülök, mint egy Google vagy eBay.A Cloud és Big Data iránti érdeklődés-lankadást én szeretem ilyesmi okokra visszavezetni.

Én azt szeretem hangsúlyozni,hogy ha a méret és a komplexitás szorzata egy küszöbérték felett van, akkor beszélhetünk Big Data-ról. És akkor itt utalnék vissza az 1.kérdéshez illetve szempontjaihoz.


3. kérdés: Mennyire vagy biztos a 2.-es kérdésre adott válaszod helyességében? (0% ->100%-ig bármit írhatsz)

100%-ig biztos vagyok. ;) Ebben a kései pillanatban. Azonban akár már holnap is el lehet bizonytalanítani ;)


4. kérdés: Ha látsz egy Big Data cikket, akkor erre hogyan reagálsz? (“biztosan elolvasom” -> … -> “undorodva elfordulok”, de bármit írhatsz, akár azt is, hogy még nem találkoztál ilyen cikkel!)

Nagyon jó kérdés!  Ami kevés cikkel találkoztam az borzasztó volt; mindennel foglalkoztak csak érdemi problémákkal nem. A jó cikket azonnal felhabzsolnám, persze a habzsolásig kell némi munka/energia-befektetés is a dologhoz.


II.
A poszt-sorozat 3.része rendkívül inspiráló volt.

A. Kompetencia

Például egy adatbányász-projekt aspektusai
- közgazdász
- informatikus
- statisztikus/matematikus
- CRM szakértő (én ide "businessman"-t írnék, a CRM túl specifikusnak tűnik)
- projektvezető

Én azonnal megemlíteném az aspektusok közötti kommunikáció problémáját.

- Miképpen döntsön egy projektvezető, hogy érdemes-e újabb iterációt tenni, vagy egy újabb algoritmust kipróbálni? Belefér-e? Miképpen tudja a kérdés megválaszolását a matematikus korrekt alapokon megtámogatni? Netán még akkor is probléma ez, ha az aspektusok egy emberen belül ütköznek? ;)

- Hogy viselkedjen az üzleti ember? Pláne, ha mondjuk a másik odalon van (megrendelőként)? Mi alapján mit mondjon?

Én egyébként idevágóan nem kompetenciahiányt írnék, hanem  "kompetencia-krízist". Egyszerre kell egyre több mindenhez érteni egyre mélyebben, egyre rövidebb idő alatt, egyre olcsóbban.


B. Frusztráció

"A Big Data egyik nagy ígérete, hogy a rengeteg adaton szükségszerűen jobb modellek készíthetők. Ez látszólag így is van.  Ha megkérdezünk egy adatbányászt, hogy még plusz adatokat kér vagy egy jobb modellező algoritmust, akkor 10-ből 9 biztosan több adatot fog kérni."
Na ezt bizony én másképp látom, még ha egyedül is maradok vele világban.

1.ellenvetésem: szerintem szó nincs arról, hogy a több adat jobb eredményt hoz. Van amikor igen és van amikor nem. Bizonyítani is lehet, hogy egyes dimenzióredukciós eszközök (még akár a PCA is) adott eseetben úgy csökkentik a méretet, hogy jobb eredményt indukálnak: lásd waveletek, idősorok, szövegbányászat stb.

2.ellenvetésem. nem elég adott pillanatban a legjobbat produkálni. Ugyanilyen, ha nem sokkal fontosabb, az időben való állandó minőség, vagy ha nem állandó, akkor legalább - folyamatvezérelten - menedzselhető minőség szállítása. És akkor arról a trivilitásról már nem is beszélve, hogy a KPI-ok (specificity, recall, accuracy, precision) perdöntően egymás rovására javíthatók csak sokszor.

3.ellenvetésem: szó se róla volt olyan mellrák-diagnosztikai-verseny, ahol egy-két rekord volt csak a (true) tanítóminta, ott tényleg vágyott az ember egy kicsivel több adatra, de nem gondolnám, hogy a napi gyakorlatunkban ez lenne a fő probléma. Engem bizony a jobb modellező algoritmus sokszor jobban felvillanyoz. ;)

Ettől még a szerzőnek maximálisan igaza van. A frusztráció napi gyakorlat ebben a vonatkozásban is. Főleg Magyarországon... ;)


III.
Végül, hogy a poszt címének kérdésére is válaszoljak. Ahogy zajlanak a témában a történések, az bizony sokszor kelti az emberben a rosszízű hype érzését. Azonban lássuk be valós exponenciálisan robbanó problémáról van szó. egyre többől kell egyre kevesebb erőforrással egyre jobb minőséget kicsiholni. És ezt még a válság sem tudja átírni.

Nincsenek megjegyzések:

Megjegyzés küldése