2013. február 5., kedd

Big Data csak hype lenne?


Ezt a posztot az Andego blog alábbi nagyszerű poszt-sorozata indukálta.

Mém neve - Big Data I.rész
Mém neve - Big Data II.rész
Mém neve - Big Data III.rész

Sajnálom, hogy lemaradtam a szerző gyors körkérdéseiről, így amit most leírok, arról nem tudható, hogy mennyire jött volna csípőből, egyáltalán mennyire visszás egy blogposztban előhozni, így felmelegítve, másodkézből. Viszont érdekes a topik, nekem szívügyem is, úgyhogy félre a kétségekkel. :o)

I.
1. kérdés: Szerinted mit jelent a “Big Data” kifejezés? (ha fogalmad sincs, akkor azt írd ide!)

Nekem erre három definicióm van, egyiket a szerző is említette, de úttörő-becsszó, hogy nekem is eszembejutott. :o) Fontossági sorrendben:

(A) Az a méretű és/vagy komplexitású dataset, ahol a ráépülő alkalmazás-tervezés elmozdul a párhuzamos adatfeldolgozás irányába. Azt gondolom, ez egyszerre komoly és éles vízválasztó: "párhuzamos"-an gondolkodni egészen másképp kell. Ez a "párhuzamosság" mára mondhatni paradigma(-váltás), ahogy a big data is az - a kvázi nulla másodperces, null költséget igénylő eredmény-elérési követelményekkel.

(B) Komoly - értsd például IBM SPSS Modelerben triviálisan nem abszolválható - előfeldolgozást igényel a dataset, a további érdemi feldolgozáshoz. Értelmezésemben ilyen például a multmédiás adatbányászat kis és nagy léptékben egyaránt.

(C) Az IBM SPSS Modeler nem bír megbírkózni mondjuk 24 órán belül a datasettel. Ez képlékeny dolog, mert az eszköz is, a hardver is, az algoritmusok is fejlődhetnek. Ami ma nem fut le, holnap lefuthat. (Ezt a megközelítést említette a szerző a poszt-sorozatában)


2. kérdés: Hány MB/GB/TB felett beszélünk Big Data-ról?

Erre a kérdésre nem szívesen válaszolok, ugyanis nem minden a méret. ;)

Nem mindegy ugyanis, hogy sok milliárd rekordunk van pár mezővel, mezők mindegyike kitöltve.
Avagy van 15.000 mezőnk, asszimmetrikusan tele null-okkal, adott esetben lényegesen kevesebb rekord mellett (és persze ugyanakkora tárigénnyel) - lásd Orange-versenyt. Ezt a feladatot ugyanis például Oracle alatt nem igazán lehet praktikusan kezelni. ;)

Van egy másik érdekes aspektus is. Magyarországi adatbányászként más dataset-méretekkel szembesülök, mint egy Google vagy eBay.A Cloud és Big Data iránti érdeklődés-lankadást én szeretem ilyesmi okokra visszavezetni.

Én azt szeretem hangsúlyozni,hogy ha a méret és a komplexitás szorzata egy küszöbérték felett van, akkor beszélhetünk Big Data-ról. És akkor itt utalnék vissza az 1.kérdéshez illetve szempontjaihoz.


3. kérdés: Mennyire vagy biztos a 2.-es kérdésre adott válaszod helyességében? (0% ->100%-ig bármit írhatsz)

100%-ig biztos vagyok. ;) Ebben a kései pillanatban. Azonban akár már holnap is el lehet bizonytalanítani ;)


4. kérdés: Ha látsz egy Big Data cikket, akkor erre hogyan reagálsz? (“biztosan elolvasom” -> … -> “undorodva elfordulok”, de bármit írhatsz, akár azt is, hogy még nem találkoztál ilyen cikkel!)

Nagyon jó kérdés!  Ami kevés cikkel találkoztam az borzasztó volt; mindennel foglalkoztak csak érdemi problémákkal nem. A jó cikket azonnal felhabzsolnám, persze a habzsolásig kell némi munka/energia-befektetés is a dologhoz.


II.
A poszt-sorozat 3.része rendkívül inspiráló volt.

A. Kompetencia

Például egy adatbányász-projekt aspektusai
- közgazdász
- informatikus
- statisztikus/matematikus
- CRM szakértő (én ide "businessman"-t írnék, a CRM túl specifikusnak tűnik)
- projektvezető

Én azonnal megemlíteném az aspektusok közötti kommunikáció problémáját.

- Miképpen döntsön egy projektvezető, hogy érdemes-e újabb iterációt tenni, vagy egy újabb algoritmust kipróbálni? Belefér-e? Miképpen tudja a kérdés megválaszolását a matematikus korrekt alapokon megtámogatni? Netán még akkor is probléma ez, ha az aspektusok egy emberen belül ütköznek? ;)

- Hogy viselkedjen az üzleti ember? Pláne, ha mondjuk a másik odalon van (megrendelőként)? Mi alapján mit mondjon?

Én egyébként idevágóan nem kompetenciahiányt írnék, hanem  "kompetencia-krízist". Egyszerre kell egyre több mindenhez érteni egyre mélyebben, egyre rövidebb idő alatt, egyre olcsóbban.


B. Frusztráció

"A Big Data egyik nagy ígérete, hogy a rengeteg adaton szükségszerűen jobb modellek készíthetők. Ez látszólag így is van.  Ha megkérdezünk egy adatbányászt, hogy még plusz adatokat kér vagy egy jobb modellező algoritmust, akkor 10-ből 9 biztosan több adatot fog kérni."
Na ezt bizony én másképp látom, még ha egyedül is maradok vele világban.

1.ellenvetésem: szerintem szó nincs arról, hogy a több adat jobb eredményt hoz. Van amikor igen és van amikor nem. Bizonyítani is lehet, hogy egyes dimenzióredukciós eszközök (még akár a PCA is) adott eseetben úgy csökkentik a méretet, hogy jobb eredményt indukálnak: lásd waveletek, idősorok, szövegbányászat stb.

2.ellenvetésem. nem elég adott pillanatban a legjobbat produkálni. Ugyanilyen, ha nem sokkal fontosabb, az időben való állandó minőség, vagy ha nem állandó, akkor legalább - folyamatvezérelten - menedzselhető minőség szállítása. És akkor arról a trivilitásról már nem is beszélve, hogy a KPI-ok (specificity, recall, accuracy, precision) perdöntően egymás rovására javíthatók csak sokszor.

3.ellenvetésem: szó se róla volt olyan mellrák-diagnosztikai-verseny, ahol egy-két rekord volt csak a (true) tanítóminta, ott tényleg vágyott az ember egy kicsivel több adatra, de nem gondolnám, hogy a napi gyakorlatunkban ez lenne a fő probléma. Engem bizony a jobb modellező algoritmus sokszor jobban felvillanyoz. ;)

Ettől még a szerzőnek maximálisan igaza van. A frusztráció napi gyakorlat ebben a vonatkozásban is. Főleg Magyarországon... ;)


III.
Végül, hogy a poszt címének kérdésére is válaszoljak. Ahogy zajlanak a témában a történések, az bizony sokszor kelti az emberben a rosszízű hype érzését. Azonban lássuk be valós exponenciálisan robbanó problémáról van szó. egyre többől kell egyre kevesebb erőforrással egyre jobb minőséget kicsiholni. És ezt még a válság sem tudja átírni.

Nincsenek megjegyzések:

Megjegyzés küldése