Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. február 18., hétfő

Big Data csak hype lenne? II.


Nem hittem volna, hogy ilyen hamar sor kerül a második menetre. Az apropót az alábbi cikksorozat adta:

Big Data: Az adatok ébredése, avagy a társadalom újragondolása az adatsokaság nyomán
Big data sorozat (0. rész) – Mit jelent és mire jó a ’Big Data’?
Big data sorozat (1. rész) – Hype és valóság
Big data sorozat (2. rész) – Újratöltve
Big data sorozat (3. rész) – Szkepticizmus
Big data sorozat (4. rész) – Forradalmak
Big data sorozat (5. rész) – Szép remények
Big data sorozat (6. rész) – Pillanatkép

Előljáróban, roppant szélsőséges a véleményem a cikksorozattal kapcsolatban. Vannak totálisan érdektelen fejezetek, van amitől sírni tudnék, annyira kiábrándító, és van amivel nagyon egyetértek, meg sem tudtam volna ilyen frappánsan fogalmazni.

Lássuk a témákat, részleteket:

-1.RÉSZ

Sajnos nagyon szerkesztetlen a minusz egyedik rész. Körkörösen vissza-visszatér egy-egy aspektushoz, ismétlés jelleggel. Én próbáltam tömöríteni és szerkeszteni, de túl nagy sikert nem tudtam aratni evvel.

A mínusz egyedik rész rögtön in medias res etikai aspektussal nyit. Ha eddig csak etikai megfontolások megválaszolásával küzdöttek az adatbányászok, akkor a Big Datával ezeket az idevágó problémákat nyugodtan négyzetre emelhetik.

Ugyan a felvezető bekezdés 50-50%-os arányt sugall, hogy lehet jó és rossz célra egyaránt használni a Big Datát, de amikor a Big Data benyomul az egyes ember privát szférájába, aszerint, ahogy a cikk nyit, hozzágondolva, hogy az "egyes ember" érdemi kontrollja nélkül, azt nehéz védeni bármilyen nemes cél érdekében. Bár van a mondás, hogy "cél szentesíti az eszközt", azért ennek ilyetén látványos előretörése szerintem nem sok jóval kecsegtet, már rövid távon sem. Ha valaki ilyen aggályok felöl közelít a Big Datához, azt teljes szívvel meg tudom érteni.

Apropó költői kérdés: tud-e valaki akár csak egyetlen jó célt mondani abban a vonatkozásban, hogy mint dr.House úgy tekintünk az emberre, mint aki biztosan és mindig hazudik? Mert én nem tudtam ilyet konstruálni. Cikkben előkerül a cukorbetegség (detektálása), mint felhasználási terület. Ha egy pillanatra el is fogadjuk, hogy a cukorbetegség-detektálásnak a Big Data egy zseniális alternatívája (én erősen szkeptikus vagyok már ezzel a "zsenialitással" szemben is), azért ennek egy korábbi blogposztban vesézett active learning-es verziója sokkal barátibb és elfogadhatóbb. Minden konstruktivitásom meg pozitív életszemléletem mellett is, hányan vagyunk, akik engednénk, hogy például gyógyszergyárak gyűjtsék idevágó Big Data adatainkat?

Meg aztán az is felvetődik az emberben, cukorbetegségen túllépve, hogy mi van, ha viselkedés-analízis során a Big Data által gyártott prekoncepció a hibás, adott ember vonatkozásban? A szoftveres analízis "hazudhat", még akár tömeges léptékben is, csak az egyes ember nem? Én nem dobom sutba a Big Datát mindezek miatt, csak az ilyetén felhasználási megközelítéseket. Azt gondolom, a Big Data sokkal általánosabb ennél. A kést is lehet rossz célra is használni, meg a konyhában jó célra is.
A lényeg pedig abban rejlik, hogyan kapcsolódnak egymáshoz az emberek
Nem kérdés, a kapcsolatok, a kapcsolatokon futó interakciók óriási adatmennyiséget generálnak, és valóságos információs kincsesbánya. A hálózatkutatás már régóta fókuszál az ebben rejlő potenciálra. Mondjuk jó és rossz oldal világosan el tud válni itt is. Csermely Péter kutatásaiban jobban megbízom a magam részéről, mint egy-két kereskedelmi alkalmazásban, lásd pl.: Facebook.
A jövő sikeres társadalmi rendszereinek titka ennek megértésében rejlik. Túl kell lépni a komplexitás, az adatelemzés vagy a webes elemzés fogalomkörén, és az embereket is bele kell vonni a megfigyelésekbe. Az óriási adathalmazok ezt ígérik számunkra, betekintést kínálnak a mai technológiai társadalom rendszerébe. Ha az ember sikeresen megérti az összefüggéseket, akkor nekiláthat a hibák kiküszöbölésének, és erősebb rendszerek kiépítésének. Talán sikerülhet olyan pénzügyi rendszert létrehozni, amely nem dől össze, olyan kormányt választani, amely működőképes, vagy olyan egészségügyi rendszert, amely tényleg végzi a dolgát.
Na ezt a hagymázas képzelődést a társadalmi reformról valami iszonyú szörnyű volt olvasni - a hozzáilleszkedő további bekezdésekkel együtt. :o( Ez még akkor is felelmetesen hangzik, ha nem lenne semmi korrupció a világban. Mondjuk én a magam részéről nem is hiszek abban, hogy lenne az egésznek bármilyen reális alapja: szerencsére. Bár biztos fognak beleölni egy csomó pénzt, nincs kétségem felőle.

Mondjuk a cikk maga is, azért sorolja magától is a Big Data-problémákat:
(1) A fals összefüggések megállapítása persze nem kerülhető el
(2) Maguk az adatelemzők sem rendelkeznek túl sok intuícióval
(3) Új módszer elfogadtatása az emberekkel (itt a döntéshozókkal)
(4) Támadási felületet is jelent, egyfajta 'Nagy Testvér mindent lát' pozíciót. George Orwell sem volt ilyen kreatív, amikor az 1984-et írta....Ebben az új világban George Orwell egy fantáziátlan kívülálló.
Az én gondom az idevágó bármily jóindulatú szabályozási kísérletekkel, hogy nem látom számonkérhetőknek. Márpedig minden szabályozás annyit ér, amennyit sikerül belőle betartani.
Az internet generáció szülöttei lehetnek a legnagyobb ellenzők, hiszen (nem megbántva őket) olyan világban szocializálódtak, ahol a Facebook vagy a Google teljesen szabályozatlan és szabad. Azt képzelik, hogy rendelkeznek az adatokkal, amiket megosztanak, de lassan, nagyon lassan rá kell döbbenniük, hogy ebben a kérdésben kompromisszumokra lesz szükségük.
 Én azt gondolom analógiaként, hogy előbb volt atombomba, mint atomerőmű. Az egész témát nem valamiféle "jó cél"-nak megfelelés "drive-olja". A pénz sem, a motiváció sem onnan jön.


0.RÉSZ: Mire jó és mit jelent a Big Data?


Mi a Big Data és mi nem.?
  • A Big Data nem a Facebook bejegyzéseket vagy Google-keresésekre vonatkozó információkat tartalmazó adathalmaz, hanem az emberek tényleges viselkedéséről szóló információkat tartalmazza.
  • Az adathalmaz az emberi viselkedés nyomait követi figyelemmel. Az vagy, amit csinálsz, és nem az, amit állítasz magadról.
  • Az adathalmaz elemzése segíti előre jelezni a várható viselkedést – ha látunk egy adott viselkedési mintát, akkor következtethetünk a többire is annak alapján, mely társadalmi csoportról van szó.
  • Az adathalmaz a kapcsolatrendszerekre épül, főleg az emberi kapcsolatokra (szemben korábbi módszerekkel, melyek kihagyták az emberi tényezőt).
  • Igazán nagy mennyiségű adathalmaz esetében a statisztika jelentősége elveszik, hiszen szinte minden adat relevánsnak minősíthető.
  • Az ember ösztöneire, ítélőképességére szükség van ahhoz, hogy a fals összefüggéseket kiszűrjük.
  • Az adathalmaz társadalomkutatásra is felhasználható – összesített fogalmak helyett az egyének kapcsolatrendszereit helyezi előtérbe – a megszemélyesítés is egyszerűbb így.
  • A szakma prominensei közül sokaknak új még ez a módszer.
Na rögtön az első ponttól azonnal dobtam is egy hátast - a másodiktól már korábban is ugye. ;). Nem akartam hinni a szememnek, amikor olvastam. És ezt sikerült összhoznia annak az embernek (Sandy Pentland), akit a világ 7 legjobb adatbányásza közé sorolnak (Mi alapján is?). Vagy én vagyok nagyon eltévedve, vagy az komplett baromság, hogy a Big Datát a "viselkedés"-topikra redukáljuk. Már csak azért is, mert akkor Behavioral Big Datának kéne hívni. Ha már a definiciónál elkezdődne a sumákolás, akkor később ki fog hinni a szakmának?

A harmadik pont elfogadható állítás tud lenni (negyedikkel együtt). No nem abban a kontextusban, hogy a több adat definitive sikeresebb következtetéshez vezet (mert nem). Hanem, mert minőségi ujdonságot rejt magában potenciálisan a Big Data: az erősebb magyarázó erő tudhat jobb - például - prediktálást.

Szerintem az ötödik pont így ebben a formában nem állja meg a helyét (intuició alapján, azaz tévedhetek). Nyilván a statisztika önmagában nem elég a Big Data kezeléséhez. Azért én mégsem kukáznám az eszköztárból.

Hatodik pont maximálisan elfogadható. Csak gép itt is mindig kevesebb lesz, mint a gép+ember kombó. Amióta csak adatbányászat van, ez mindig így volt. És jelenleg én nem látok reális alapot olyatén spekuációkra, hogy ez meg tudna változni.

A hetedik-nyolcadik pont számomra űrtöltő felesleg: nem foglalkozom velük.

Mire jó a ’Big Data’?
  • Az adathalmazok elemzése során személyi adatokat használunk fel, így az adatvédelem kulcskérdés.
  • Óriási lehetőségek rejlenek új társadalmi rendszerek megteremtésében annak alapján, ahogy az emberi kapcsolatok szerveződnek, ez pedig segíthet egy igazságosabb és stabilabb világ megteremtésében.
  • Szintén nagy segítség lehet az olyan problémák kezelésében, mint a vírusok terjedésének megállítása vagy a globális felmelegedés mérséklése.
  • Az adat annál többet ér, minél szélesebb körben lesz megosztva, tartózkodni kell azok raktározásától.
  • A kormányok és a legtöbb cég üdvözölné az embereknek saját személyes adataik felett gyakorolt tulajdonjogát - a Google és a Facebook egyelőre kitartanak.
  • Az adatok megosztott formában sokkal erősebbek, megvédik az egyéneket az adataik központosításától.
Ezek pontok számomra alapvetően hamisak, egy rossz cél, rossz alkalmazására redukálva. :o(

Kezdve ott, hogy az lenne jó a Big Datában, hogy veszélyben az ember privát szférája, amivel külön kell foglalkozni (1. és 5.pontok)? Ez a legnagyobb előny? Akkor mi lehet a hátrány? ;)

A vírusterjedéssel, már a hálózatkutatás is régóta foglalkozik. Ehhez szerintem nem kell Big Data. Ez így ebben a formában számomra csak rosszízű marketing-bullshit, kedvcsinálónak és disznóságok elfedésére.

Nem hiszek a négyes pont realitásában. A gazdagabb és erősebb több adatot fog birtokolni, és tojni fog arra, hogy továbbossza. A történelem tanusága szerint legalábbis.

Egyedül a 6.pont az elfogadható és támogatható. Analógia: egy Facebookkal szemben szívesebben támogatja az ember mondjuk a Diaspora-kezdeményezést. Azt gondolom egyébként, hogy a Facebook jó előtanulmány lesz az egész Big Datához. Ha a Facebook topon marad és/vagy erősődik, akkor a Big Data félelmeknek is egyre reálisabb alapja lesz.


1.RÉSZ: Hype és valóság
...a Netflix saját algoritmusának hibája 0.95 volt (négyzetes hiba, RMSE) ami azt jelentette, hogy előrejelzési képességei meglehetősen gyengék voltak. 
Na ettől a bekezdéstől  megint dobtam egy hátast. A szakmai részeletekbe nem belemenve, csak annyit kérdeznék MIHEZ képest gyenge? És valószínűleg azért tarolnak az ajánlórendszerek (csak itthon Magyarországon is), mert gyengék. Ilyen szakmai alapokon akarunk "új társadalmat építeni"? ;) [Most arról nem beszélve, hogy ha már ilyen részletesen belement a cikk a Netflix-versenybe, illett volna magyar vonatkozást is mellétenni (hajszállal is kevesebbel maradt le a második helyezett magyar csapat)]
...az arra vonatkozó átlagos előrejelzési mutatót, miszerint hogyan fognak a nézők egy filmet értékelni, kevesebb, mint 0.1 csillaggal sikerült javítani, pontosítani.
Szakmailag ez még felháborítóbb bekezdés az én olvasatomban. Igen 0.1 csillaggal. De könyörgöm mihez képest?
Az elemzők oly módon állapítják meg ezeknek az elpártoló fogyasztóknak a számát, hogy az ún. ’lift’ módszert alkalmazzák (lift=speciális adatbányász módszer). 
És amikor az ember azt hinné már nem lehet fokozni a fokozhatatlan, akkor belefut ebbe a bekezdésbe.Nézzük:
(1) A LIFT nem módszer ebben a kontextusban tárgyalva, hanem (hatékonysági)mutató
(2) Az elpártoló fogyasztók számának előrejelzéséhez nem kell adatbányászat. Az elpártoló fogyasztók azonosításához kell az adatbányászat, ami azonosítás mellé aztán akciótervet kell tenni.
Ha valakit érdekel a LIFT, önreklámként itt egy korábbi posztom (ha már ennek a blognak is a nevében benne van a dolog. ;)
A bank és a telekommunikációs szektor harmic különféle elpártolási módját vizsgálták meg és meglepő módon – bár különböző adathalmazokat és algoritmusokat használtak – hasonló eredmények születtek. A top 1% elpártolóinak 9-11-es liftje volt
Először is ez így semmit nem ér: hiányzik az infó, hogy meddig élt a modell. Nem mindegy, hogy 1 hónapig, vagy 5 évig  produkált a modell ilyen LIFT-et. ;)
Másodszor, nekem nagyon nagy szerencsém lehetett, ráadásul itthon Magyarországon, amikor termékspecifikusan, Clementine-kalkulálta (szigorúbb) 40-szeres LIFT-et ostromoltam, de általánosan és hónapokon átívelően is konstans 20-szorosat tudtam felmutatni (objektív visszaméréssel). [Azt már nem is említve, hogy az erőszakosan mohó és telhetetlen megrendelő még ennek sem tudott örülni, hogy kenyértörésig vitte a recall-mutató adott pénzügyi konstellációban indokolatlan és inkorrekt minden határon túli javítását.]
Mindez azt jelzi, hogy az előrejelzés meglehetősen pontatlan módszer az elpártolás megfigyelése esetében.
Erre én már csak azt tudom mondani, parafrazálva Weöres Sándor költőt, hogy "az egész világ hülye, nekem a seggemben is fejem van". Féligazság persze van ebben is. Ha sikerül erősebb magyarázó változót találni, vagy van lehetőség call-centeres ügyfélhívásokat elemezni, akkor lehet jobb churn-modellt építeni, azaz lehet különbség churn-modell és churn-modell között, adott vállalaton belül is. Csak hát ezt le kellene írni, ugye.

Az aktuális részből hátralévő sorokkal már szerencsére nem kell foglalkoznom. Éppen elég tortúra volt az eddigiekkel. ;) A második részt is ignorálom (immáron kompletten), ugyanilyen alapokon. nagy szerencse, hogy van lehetőség felpörgetni az eseményeket, hiszen már így iszonyú hosszú ez a blogposzt.


3.RÉSZ: Szkepticizmus

Itt is elsősorban két dolog érdekes:
Volt egy forrás, amit referenciaként sokan megjelöltek előadásukban, ez pedig az IBM 4V elmélete: Volume, Velocity, Variety, Veracity (terjedelem, gyorsaság, sokszínűség, valódiság). A terjedelem adott, hiszen big data-ról beszélünk. A második V azt jelzi, az emberek milyen gyorsan akarnak hozzájutni az adott információhoz. A sokszínűség arra emlékeztet minket, hogy a big data egy szervezetlen adattenger, tele fotókkal, videókkal, nyílt végű válaszokkal. A valódiság pedig azt jelzi, hogy az adott információ korrekt és megbízható-e.
Egyszerű és nagyszerű. Mondjuk nem nehéz hasonlót megfogalmaznia az embernek. A pár nappal korábbi posztom vége felé hasonlót én is ígyekeztem elkövetni, kicsit más kontextusban, és saját kútfőből.
Ray Poynter szerint számos kulcstényező van, ami befolyásolja a big data-ban rejlő potenciált:
  1. A big data csak azt méri, ami meghatározott körülmények között történt. A matematikusok gyakran használják az interpoláció módszerét annak érdekében, hogy megbízható eredményt kapjanak (az értelmezési tartományon belüli értékek becslése). Ezzel szemben az extrapoláció (kikövetkeztetés) vagyis valaminek az előre jelzése mindig nehéz és problematikus. (Ilyenkor a a már valamennyire ismert értelmezési tartományon kívül eső szakaszokra adunk közelítést.)
  2. Ha egy inputhoz random vagy nem releváns adatokat kötünk, akkor az kevésbé egyértelművé válik. A megfelelő működéshez el kell távolítani ezeket a spontán, irreleváns adatokat. Ha például vásárlási adatokat gyűjtünk, és ennek során minden lehetséges adatot összeszedünk, akkor azt csak úgy értelmezhetjük, ha az irreleváns dolgoktól megszabadulunk – a nagyobb tehát nem feltétlenül jobb.
  3. Ha az összegyűjtött adatok egymással mind korrelációban vannak (multikollineárisak), akkor a legtöbb matematikai elemző módszer nem lesz sikeres – instabil előrejelzések születnek így.
  4. Néhány viselkedésmotívum meglehetősen kaotikus. Ha változtatunk az inputon, akkor változni fog az output – azonban előre nem jelezhető módon.
Nekem és első olvasatra az 1. pont roppant zavaros így ebben a formában.
Kérdéseim:
- A Big Datát nem akarjuk használni extrapolációra? Ez így nekem megmosolyogtatóan hangzik.
- Mi az hogy értelmezési tartomány ebben a kontextusban?  (Gondolom az időre gondolnak, például előrejelzésnél)
- Az előrejelzés, mint spéci osztályozás, rendelkezik avval a nagyszerű lehetőséggel, hogy visszamérhető múltbéli adatokon. Az egész extrapoláció-lány fekvése így kicsit másképpen néz ki nem? Plusz ezt talán meg lehetett volna említeni, nem?
- Az én olvasatomban az ignorálandó extrapoláció az, amikor a klímahisztizők, 100 év 0.75 fokos hőmérsékletemelkedéséből vízionálnak 8 fokos hőmérsékletemelkedést az elkövetkező pár tíz évben, méréses - Big Data - alapján..

 A 2-3-4 pontok így első ránézésre hellyel közzel rendbevannak, sőt érdemes szem elött tartani Big Datától függetlenül is.


4.RÉSZ: Forradalmak

A rész eleje megint ismétléssel indul azt ugrom.

Ami viszont utána jön, azt végre nagy örömmel olvastam. Csak ezért érdemes volt belevágnom ebbe a blogposztba. Kár hogy nullához konvergál azok száma, akik idáig eljutnak az olvasásban.

Azt godolom nagyon érdemes megfontolni. Különösen, hogy milyen hátrányban vagyunk itthon Magyarországon e téren.

A menedzsment öt kihívása

A cégek csak akkor lesznek képesek learatni a big data mozgalom babérjait, ha kellően alkalmazkodnak a változásokhoz. Van öt terület, ami különösen fontos ebben a kérdésben.
VEZETÉS. ...mert olyan vezetői gárdával bírnak, amely egyértelmű célokat jelöl ki, definiálja a sikert, és a megfelelő kérdéseket teszi fel. A big data nem teszi feleslegessé a víziókat, az insightok fontosságát. Épp ellenkezőleg, ma is szükségünk van olyan vezetőkre, akik meglátnak egy nagyszerű üzleti lehetőséget, értik a piaci fejlődés menetét, kreatívak és céltudatosak, sajátos meglátásokkal rendelkeznek, van meggyőzőerejük, képesek a kemény munkára.
TEHETSÉGEK MENEDZSELÉSE. A legfontosabbak talán azok a képességek, amellyel megtisztítjuk és rendszerezzük az adatokat; hiszen az adatok manapság ritkán lelhetőek fel rendszerezett, strukturált formában. Az adatok megjelenítésének eszközei hasonlóan értékesek lesznek. ...áthidalni a korreláció és az ok-okozati összefüggések között lévő szakadékot. A legjobb adathalász szakemberek képesek az üzlet nyelvén beszélni, és segíteni a vezetői réteget abban, hogy olyan új megoldásokat találjanak... Nem meglepő, hogy pokoli nehéz ilyen szakembereket találni, mert óriási igény van rájuk a piacon. 
TECHNOLÓGIA. A big data terjedelmét, sebességét és sokszínűségét kezelni tudó technikák rendkívüli mértékű fejlődésnek indultak az utóbbi években. Ezek a technológiák nem vészesen drágák, a legtöbb használt szoftver nyílt forráskódú. Az egyik leggyakrabban használt keretrendszer, a Hadoop a beérkező adatokat olcsó lemezeken tárolja, emellett azok elemzésére is kínál eszközöket. Persze ezek az szoftverek olyan képességeket is igényelnek, melyek ma még hiányoznak a legtöbb IT-részleg fegyvertáraiból, melyeknek azon kell dolgozniuk, hogy a releváns belső és külső adatforrásokat eggyé integrálják. A technológiákra túlzott figyelmet fordítani nem szerencsés, de fontos összetevői a big data stratégiának.
DÖNTÉSHOZATAL. Egy hatékony szervezet működésének titka, hogy az információt és a döntéshozatal jogát a megfelelő személynek, személyeknek a kezébe adja. A big data korszakában, ahol az információ folyamatosan keletkezik és átalakul, a szakértői vélemény pedig sokszor nem azt jelenti, amit jelentenie kellene. Egy ügyes, szemfüles vezető olyan rugalmas szervezetet fog kialakítani, amelyben a „nem itt találták ki” szindrómát minimalizálja, a funkcionális együttműködést pedig maximalizálja. A problémát jól értő szakembereket össze kell hozni a megfelelő adattartalommal, de olyan szakemberekkel is, akik a megfelelő problémamegoldó technikákkal bírnak.
VÁLLALATI KULTÚRA. Az első kérdés, amit egy adatközpontú vállalatnak fel kell tennie: „Mit tudunk?” és nem az, hogy „Mit gondolunk?” Mindez paradigmaváltást igényel, el kell szakadni az ösztönös megérzések világától. Arra is szükség van, hogy egy sok helyütt tapasztalt rossz szokásnak véget vessünk: sok vállalat aposztrofálja magát adatközpontúnak, akik nem is vagy csak kevéssé azok. Túl gyakran látjuk azt, hogy a vezetők adatok sokaságával kozmetikázzák ki jelentéseiket, hogy úgy tűnjön, döntéseiket szigorúan adatokra alapozva hozták, pedig azok a szokásos HiPPO-módszerrel születtek. Aztán persze megkérték az alkalmazottakat, hogy számokkal, adatokkal is igazolják a döntés helyességét.

5.RÉSZ:Szép remények
  • Először is, a megkérdezettek nagy várakozásokkal tekintenek a módszer és annak potenciálja elé.
  • Másodszor, sokan még nagyon kezdők a témában. Nem rendelkeznek még azokkal a képességekkel, melyek a big datában rejlő lehetőségek kiaknázásához kellenek.
  • Harmadszor, a kérdőív eredményei gyakran széthúzóak – azt sejteti, hogy egyazon szervezet szakemberei sem mindig értenek egyet kulcskérdésekben, nem egyformán vélekednek azokról.
Tanulságos. Az ember intuitive is hasonlókat fogalmaz meg a környezetét látva.

 A hatodik részt ignorálom, az eddigiekhez képest jóval alacsonyabb infótartama miatt. A 7.részt még nem volt módom látni. De meglehet nem is túl nagy veszteség, a 4.rész minden pozitívuma ellenére sem. ;)

Nincsenek megjegyzések:

Megjegyzés küldése