Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2012. december 13., csütörtök

DW-, DM-, BI-Open évbúcsúztató, 2012.12.12


I.
Nagyszerűen sikerült, felejthetetlen alkalom lett számomra a tárgybeli rendezvény(sorozat) tegnapi alkalma. Annyira jól éreztem magamat, hogy még blogposztot is szánok rá, az alábbi pár sorral. :o)

Már a hatalmas mennyiségű regisztráció, a Zsilip utcához képest új helyszín valamint a két részre bontott prezentáció -"hegyek" is előrevetítették, hogy remek alkalom kibontakozása ígérkezik, az este folyamán.

Rengeteg poén meg információ volt az est során, még lajstromozni sincs semmi esélyem, párat említek csak meg közülük, "csak az ízéért" ;)

(1) Arató Bence nem állta meg, hogy ne tegye szóvá teljes plénum előtt, rögtön az első mondatával, hogy mennyire szíven ütötte Kovács Gyula: "Miért utálom a BI-t?" című blogposztja - zárójelben: aminek minden szavával én is egyetértettem amúgy ;) -. Gyula erre kikérte magának, merthogy a blogposzt címe az volt "Miért nem szeretem a BI"-t. A tévesen említett cím az a munkacím volt. :o)
Arató Bencének egyébként is nagy hálával tartozom, a tegnapi este apropóján, türelmesen állta kérdésrohamaimat (meetup alatt és után) és egy sor értékes információval halmozott el.

(2) Kovács Gyula egész este felszabadultan sziporkázott, ilyennek én még sosem láttam őt, pedig töltöttünk már el együtt pár munkaórát az elmúlt évek során. Már a szűk körű vacsoránál voltunk, amikor a fenti téma megint előjött valahogyan és sikerült a legsötétebb szemüvegen keresztül nézve az idei év - mindenképpen egyik legnagyobb - dobására (Cloudera Impala), azt érzékeltetnie - persze poénból, ? ;) -, hogy valahogy nem hozta lázba, hogy évtizedek után ugyanaz az SQL-parancs ugyazt a resultsetet képes kihozni. :o)

(3) Földi Tamás is felszabadult volt, szórta rendesen a humor bonbon-okat, én mégis arra emlékszem vissza most leginkább, amikor a Cloudera kapcsán sikerült egy olyan összetett meg szak- és idegen szavakkal megspékelt - amúgy teljességgel korrekt illetve lényegbe hasító - kérdést feltennie, nyílt színen,  Prekopcsák Zoltán utolsó(elötti) előadónak, 20:00 óra fele, hogy Arató Bence megkérdezte a közel 100 fős közönséget, hogy volt-e, aki értette a kérdést. :o) Mondjuk Zoli - szerencsénkre értette -, sőt hasonlóan tartalmas válaszra is futotta tőle.

(4) Végül, de nem utolsó sorban, megemlíteném Gáspár-Papanek Csabát, akinek csak néhány  mondattal is sikerült, fejfájást okozó minőségű, mélységű és komplexitású információt zúdítania, szegény fejemre, nem kevés (tovább)gondolkodnivalót is biztosítva mellé.


II.
A poszt második felében, Bence ez alkalomra szóló meglepetéséről (utolsó előadásáról) szeretnék írni pár mondatot. Úgy indult a sztori, hogy Bence körmailben megkérdezte a tárgybeli rendezvényre regisztráltakat, hogy ki mit tart - BI-t illetően - a 2012-es év legnagyobb durranásának és legnagyobb bukásának. A következőkben leírnám (némi számvetés jelleggel), hogy én hogyan látom a kérdést, sőt még meg is fejelném további kategóriákkal.

Előre szólok,  csak erős idegzetűek olvassák tovább, mert megbotránkoztató stílusban mondok szakmával sokszor szembemenő dolgokat. ;) Elnézést is kérek érte, meg kérem is mindenki türelmes bocsánatát is, hivatkozva a közelgő "szeretet ünnepére". ;)

2012-ben a legjobb BI-dolog (szvsz):

Data Science a jövő tudománya, az "adat a XXI.század olaja", illetve beleértve a Big Data-t is. Idevágóan óriási eredménynek tartom az open source data mining (pl.: Rapid Miner) erőre kapását, "kritikus tömeget" elérését, szélesedését és mélyülését.

Úgy nőnek az adatok exponenciálisan, hogy nulla felé rohamosan konvergáló válaszidőket igényelnek a felhasználók. Azt gondolom bőven van potenciál a fejlődésben, úgy hogy nem csillagrombolós költségvetésben kell hozzá gondolkodni, sőt. Más kérdés, hogy ebből Magyarországon mi fog érződni (kisebb méretek no meg a válság apropóján). Azt gondolom nem véletlen, hogy toronymagasan sok szavazatot kapott a topik a felmérésben résztvevőktől.

Második helyre tenném a Hadoop-t, minden rossz felhang vagy alhang ellenére is. Helye van a palettán, komoly eredmények mellett óriási potenciált látok benne, van hová fejlődnie, és mindez nem irreális álom, szerintem.

2012-ben a legrosszabb történés (szvsz):

Önkiszolgáló BI, ez az egyik legellentmondásosabb cucc a BI iparágon belül (felmérésben is ő volt az egyik amit egyaránt legpozitívabbnek is meg legnegatívabbnek is látták a résztvevők). Azt gondolom elsősorban azért, merthogy "igény az lenne rá" (mint a klasszikus vicc is mondja), viszont amit az asztalra letéve látunk, az harmatos lepkefingnek is nagyon kevés. A csilivili demók nem képesek átmenni a gyakorlati életbe összezuhanás nélkül (termékfüggetlenül!), illuziókergetésével téves képzetekre ad lehetőséget, problémákat fed el, levegőt és értékes anyagi erőforrásokat vonhat el értékesebb/fontosabb/égetőbb tevékenységek elöl, rossz költségstruktúrában. Én nem igazán tudok pozítívumot jelenlegi állapotban felhozni: ami legpozitívabbat tudok mondani: talán majd egyszer lesz valami a cserebogárból.... ;)

Második helyre a grafikus ETL-toolokat tenném.
Gyenge kezdés után erős visszaesés. ;)
Nem hinném, hogy kis hazánkban van a témának nagyobb ellensége, mint én. ;) Úgy hogy most csavarok egyet a posztbeli események folyásán és pozitíven kezdek beszélni a témáról, miért is lenne jó, ha lenne jó GUI-s ETL?!
- Milyen jó lenne, ha egy jó adatmodellezőből tudna adatmodellt fogadni, horribile dictu MDM-mel is tudna integrálódni.
- Milyen jó lenne, ha egy jó workflow motorhoz kapcsolódva jó üzemeltetési platformot tudna nyújtani
- Milyen jó, ha elfedi a különféle egzotikusan heterogén adatforrásokat,
- Milyen jó lenne, ha értelmesen meglehet csinálni lehet vele SCD-zni, ha már az SQL még mindig nem képes egyetlen paranccsal, hatékonyan abszolválni a dolgot, mindezt a XXI.században!
- Milyen jó lenne, ha korrekten lehetne programozni
- Milyen jó, ha korrekt pluginezési lehetőség van.
- Ha lehetne kérni, mindezt minimális overheaddel (költség és performancia, azaz szintén költség oldalon).
Mindezen jóságokhoz a legközelebb talán az OWB állt (mondjuk, lássuk be, hogy olyan hulladék-kategóriába sorolható, extra ócska konkurencia mellett mint Business Objects Data Services vagy IBM Datastage), azért ez nem volt túl nagy kihívás, túl nehéz mutatvány).
De ami OWB-t felháborító kezdés illetve Oracle menedzselés mellett maga a nagy Oracle nyír ki (2012-től kezdve).
Azért ezen események hűen tükrözik vissza, miért is vannak komoly averziói az embernek, miért képes kinyílni az ember zsebében a bicska.

2012-ben ami a legjobban hiányzik (szvsz):

- Egy korrekt, open source, többféle módszertant támogató, OLTP+adattárház adatmodellező. Hiú ábránd, és nem igazán értem, hogy miért tartozik a téma a szürreális álmok kategóriájába .Ha tippelnem kellett volna bukmékereknél az open source data mining térnyerését későbbre vártam volna mint ezt: de az élet rámcáfolt rendesen.

- Egy korrektül konfigurálható SQL-Beautifier. nem véletlen, hogy annyi ocsmányul kinéző SQL-kódot látni szerte a világban. ;)

- Egy korrektül megtervezett, teammunkát értelmesen támogató verziókezelő (konzisztens forráskód+ddl kezeléssel).

- Egy használhatóan jó, wing-to-wing MDM-eszköz.

2012-ben ami a legnagyobb ígéret (szvsz):

A Google-lel is szembemenve én vállalom és leírom ;), szerintem a Hadoop a legnagyobb ígéret, ott várom a legnagyobb robbanást. Tulajdonképpen, horribile dictu, még itthon Magyarországon is.

Egyik kedvenc vesszőparipámtól, az MDM-től továbbra is sokat várok.

2012-ben ami még mindig csak inkább ígéret, áttörés nélkül (szvsz):

- Hálózatelemzés. Óriási hype mellett óriási energiákat mozgósított a téma itthon és külföldön, adott esetben szakmai onanizálásba torkolló módon is. Vajudtak a hegyek és jellemző módon inkább egérkék születtek (eredményességet illetően).;)

- "Felhő". Brutálisan szkeptikus vagyok vele kapcsolatban, és még csak nem is a leggyakrabban felmerülő security aggályok miatt. Hanem annak apropóján, hogy képes lesz-e áttörni a kritikus tömeget, mivelhogy nem látom az (üzleti) igényt. Mivelhogy számomra nem igazán tűnik mozgósító tényezőnek, hogy valami nagy költséghez képest képest kevesebbe kerül. Illetve ha el is éri majd mégis a kritikus tömeget a téma, annak lesz-e értelme, vagy csak a hype és marketing vív általa győztes csatákat. ;)

- Mobil BI. Na én, mint, aki egyébként  tök jól elvan okostelefon - na pláne iPhone - nélkül ;),  ebben látnék fantáziát, persze nem úgy, ahogy a történésekből érzékelem. A külcsínt illetően több történt, mint a belbecset jelentő érdemi tartalmi kérdések frontján, szerintem. Ezért is maradt számomra továbbra is ígéret a téma.

2012-ben, amit legkevésbé értek a BI-ban

Az adatvizualizáció körüli ekkora hype-ot. Én már a grafikus ETL-tooloknál sem értettem, hogy többezer attribútum esetén miért jobb a cuccot grafikusan nézni, mint programozáson keresztül pisztergálni, de hogy adott esetben több millió pont grafikus renderelése, meg szemrongálóan izgő-mozgó grafikus elemek miért tudnak tömeges orgazmust kiváltani, az számomra rejtély. ;)

2012-ben, amit leginkább lejtőn látok a BI-ban

Az bizony az OLAP. Mindig is korlátos volt a kihasználhatósága, sosem volt olcsó, az open source világ is nagyot küzd(ött) vele (mindig is). Pénzt jóízűen kivenni belőle/általa, sosem tartozott az egyszerű tornamutatványok közé.

2012. december 3., hétfő

Adatbányász-felelősség egyes aspektusai....


...egy Andengo blog-on megjelent poszt végiggondolása kapcsán.


I.TÉMA

Ne szólj szám, nem fáj fejem?

Hát én bizony vitatkoznék a blogposzt szerzőjével ;) És sajnos muszáj itt, és nem a posztnál, mert ott nem tudok kommentet írni.

Azóta, hogy hír lett a torinói földrengés-szerencsétlenség előrejelzés bírósági perbe való torkollása, igyekszem követni az eseményeket. Még az index.hu is igyekezett folyamatosan tudósítani a történésekről. Aztán amikor megszületett az elmarasztaló ítélet, akkor összegeztem is a témával kapcsolatos gondolataimat, itt.

A biztonság kedvéért itt is megismételve, kicsit átfogalmazva, meg kicsit kiegészítve/aktualizálva:

Időrendileg csökkenő sorrendbe rakva, az alábbi indexes cikkek jelentek meg a témában (magyar nyelven érdeklődök számára)
http://index.hu/tudomany/2012/10/24/tenyleg_hibaztak_az_olasz_tudosok/
http://index.hu/kulfold/2012/10/22/hat_evet_kaptak_a_tevedo_olasz_tudosok/
http://index.hu/tudomany/2009/05/09/idoben_nem_josolhatok_a_foldrengesek/

Nekem két állításom van a témában:

I. Perirat ismerete nélkül nem lehet korrekten mérlegelni, hogy felelősségre vonhatók-e az előrejelző tudósok avagy nem és mennyiben. Nagy véleménnyel ugyan nem vagyok a jogászokról ;), de azért egy EU-államban csak nincs boszorkányüldözés a XXI.században, csak volt valamilyen jogi megalapozottsága a pernek.

II. Szerintem a dolog minimum kettéágazik:
(1)  Vészhelyzet-protokoll topik
(2)  Földrengés-előrejelzés topik

(1) Vészhelyzet-protokoll topik

A Nature szerint emiatt hibáztak a tudósok.
"A tudósok a tudományos részt rendesen el is végezték, azonban a kommunikációt a polgári védelem egy tisztviselőjére hagyták, akinek nem voltak megfelelő tudományos ismeretei"

(a) Nem tudni még azt sem, hogy mennyiben játszottak börtönnel a tudosók, amikor ezt a pályát választották.
(b) Nehéz elképzelni, hogy kockáztattak és/vagy játszottak emberéletekkel. Persze kizárni sem tudjuk jelenleg, hiszen nem ismerjük a periratot.
(c) Óriási rés látszik az indexes tudosításban: mintha hiányozna a részletes egyzakt Nature-indoklás, mi volt a börtönnel büntetendő hiba, amit a tudósok elkövettek.

Nekem erről eszembejut a pár évvel ezelötti itthoni - halálos balesetekkel járó - aug 20-i tüzijáték. Akkor is az előrejelző meteorológusra akarták ráhúzni a vizes lepedőt, egyébként alapvetően politikusok. És akkor is "el volt végezve az előrejelző munka", ahogy én emlékszem. Csak az a fránya kommunikáció, ugye.

Én azt gondolom - nem kell velem egyetérteni -,hogy az előrejelzés és a polgárvédelmi protokoll (mikor riasszanak) az két különböző dolog. Ezt a protokollt szerintem az előrejelző-csapat és a polgári védelem közösen kell kialakítsa. És szerintem ez a kialakított protokoll nem működött vagy jól vagy sehogyse. Ahogy egyébként kis hazánkban sem az említett esetben.

Én felelőtlenséget érzek ennél a földrengés-előrejelzéses topiknál a mindenkori tervezésben, felelősségvállalásban, illetve az utólagos maszatolásban.
Illetve kiváncsi lennék, hogy legalább a sztori kapcsán eszébe jut-e az illetékeseknek szerte a világon,hogy rendezzék az adósságaikat a témában a jövőre nézvést (nemcsak földrengéseknél).


(2) Földrengés-előrejelzés topik

Sajnos kevés vagyok a földrengés-témához, meg kevés az infó is ebben az olasz történetben.

Ami nekem eszembejut idevágóan: nem nagyon tudok olyan hírről, hogy 1-2 napon belül itt és itt nagy erejű foldrengés LESZ. Azaz nem tűnik túl egzaktnak a földrengés-előrejelzés. De persze ettől még lehet (valamennyire) az.  Ennek eldöntéséhez ismerni kéne a földrengés-, illetve a lokális (itt olasz) specifikumokat, a rendelkezésre álló adatokat.


Az én konklúzióm: tudomásul kell venni, nem mindegy, hogy 

(a) az adatbányász szimplán projekt-beszállító, aki a projekt végén felveszi a megállapodott tiszteletdíjat, pláne úgy, hogy mivel általában értelemszerűen nincs predikciós SLA, az előzőleg megkötött szerződésben, így garanciális kötelezettségei sincsenek előrejelzéseinek időbeli stabilitását illetően.

(b) avagy az adatbányász az üzleti folyamat permanens részét képezi, folyamatosan kapva a fizetését. Ilyenkor az adatbányász minimum azért felelős, hogy a korábbi tapasztalatok helyesen legyenek aggregálva, "korrektesedjenek" az előrejelzései.


És akkor következzék a "vitatkozás", vagyis hogy mit látok másképpen:

(1) Nem értek egyet a KD-Nuggets cikk felvetésével: szerintem nem jó kérdésről történt a szavazás. A kérdés számomra az, hogy az ilyen-olyan pontatlanságú előrejelzések ismeretében ki vállalja az adott esetben téves riasztás ódiumát, költségét (netán akkor történt haláleset felelősségét), milyen információ(k) alapján, milyen teher alatt. A döntéshozónak kell-e "adatbányászul" tudnia: tévedés esetén mentség-e, hogy ő nem adatbányász, "csak" döntéshozó.

(2) Megfordítva: nem lehet az adatbányászatot leválasztva leválasztva a teljes egészről, laboratoriumi körülmények közé véve vizsgálni, mert tévútra vezethet. Nem látom, hogy lehetne particionálni ("modularizálni") a problémát, a teljes folyamatot kell górcső alá venni, adott esetben más fókusszal. Mondhatja-e az adatbányász, hogy az ő munkája pusztán csak a predikció elkészítéséig terjed.


A helyzet szakmai szemmel nagyon rossz/nehéz (az én értékelésemben). 

Adott az "üzlet" (polgárvédelem) és adott az előrejelző adatbányász/tudós. Tökéletes harmoniában, 100%-os biztonsággal (első és másodfajú hiba nélkül) kéne együttműködniük, úgy, hogy előzetesen nem tudnak, mert nem tudhatnak szerződésben, minden látható és potenciálisan bekövetkező aspektusra kiterjedően megállapodni. (Én erre szoktam azt mondani, hogy egy adatpiac-építés egzakt tudomány - persze nem Magyarországon ;) -, míg az adatbányászat definitive ritkán lehet az: max.: egy Netflix-verseny)


És ha ezt még lehet tovább fokozni, akkor Magyarországon még a fentinél is rosszabb/nehezebb a helyzet. 

Ugyanis attól még, hogy nem lehet felkészülni mindenre előzetesen egy szerződés(tervezet)ben, attól még a felek viselkedhetnek korrekten. Na Magyarországon még ez sem bír összejönni az én újabbkori tapasztalatom szerint.

Az én álláspontom, hogy adatbányász-projektet csak olyan feleknek lenne szabad vállalni, akik feltétlen megbíznak egymásban - kvázi mint egy házasságban ;), ahol szintén nem tudni előre mi minden fog történni a felekkel -, kellően intellingesek, felelősségvállalók, határokat pontosan látók, és korrektek, ahhoz, hogy ne egymás rovására érvényesüljenek, hanem közösen valami minőségit alkossanak.




II.TÉMA, szintén egy Andego-blogposzt nyomán, de most már csak röviden.
 
Miért nem szeretem a BI-t?

De jó volt olvasni ezt a fenti linkelt blogposztot! :o))

Abszolút egybevág az én véleményemmel is. Mondjuk nekem kicsit más (friss), hogy ne mondjam "ortogonális" ellenérzésem van a témában.

Konferenciákon már kétszer is hallottam, hogy a Microsoft PowerPivotja milyen baromi jó eszköz. Nemrég egy (adatbányász-)projektben kellett kétmillió rekordos táblázatot tesztelni (nekem is, meg az SQL-ül nem tudó üzletnek is). Mivel adatbányász.-projektről beszélünk nem elég kiválasztani az első mondjuk 1000 rekordot, sajnos teljes egészében szükség van a táblázatra, a megfelelő következtetések, számok megadásához.

Na PowerPivot. A kétmillió rekord bemegy az Excel-be (v2010) 1-2 perc után. A PowerPivot viszont úgy áll fejre tőle, úgy belereccsen, hogy csak les az ember. Na ennyit az (önkiszolgáló) BI-ról ;) De nehogy bárki ebből Microsoft-ellenességet olvasson ki. Az új csoda Cognos-eszköz is ugyanúgy hanyattvágja magát. Egy Clementine-nal persze nem lenne gond (bár nagyon lassú, de legalább elvégezhető a feladat, leszámítva a csúnya elszállásait), csak nála meg cost-benefit problémák vannak, ugye.

Ilyenkor azért örülök annak, hogy az SQL-tudásom nem egyik pillanatról a másikra lesz ad acta. ;)