Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. június 5., szerda

Adattárház Fórum 2013 - Első (DW-)nap


v2.0 update (2013.06.11 10:00)

Adattárház Fórum egy fizetős konferencia, és mint ilyenen, hosszú évek után először volt alkalmam résztvenni a mai napon (még ha a holnapin már nem is leszek ott). Idén már kétnaposra szervezte a rendezvény házigazdája Arató Bence Bi Consultingja, aki gazdája a nagyszerű BI.hu szakmai blognak is.

Így "vezetői összefoglalóként" :) azt kell mondjam, hogy meglehetősen ambivalens érzéseim voltak a mai nap végére.

Egyfelöl bozasztóan sajnáltam, hogy reggel 9:00-kor a nap első, kvázi legfontosabb, plenáris, "keynote" előadásán, amikor a legjobban tud még koncentrálni a hallgatóság, a legnagyobb számban, akkor olyanokról kellett hallgatnom, hogy "column store" (ma már "hibryd store"-ra is lehet ráizgulni), meg "in memoy database" meg "hybrid data storage", amik már évekkel ezelött is a könyökömön jöttek ki, ráadásul mindezt egy órán keresztül. Sokat elárul egyébként szerintem, hogy senki nem kérdezett az előadótól az előadás után, ami azért szokatlan, szvsz.

Másfelöl olyan kincsvadászok legmerészebb álmát is felülmúló kincset érő előadások, mint Földi Tamás Pivotal One vagy dr.Bodon Ferenc Q/Kdb+  nap végi előadásokra alig maradt ember, meg nézőtéri figyelési energia. Arról már nem is beszélve, hogy én két-két órás terjedelemben is tudtam volna őket hallgatni, meg arról, hogy vagy hat kérdést kellett magamba fojtani - mások is kérdeztek volna persze, ha lett volna lehetőség. Miután párat azért feltettem nekik, némileg meglepetést is okozóan. ;)

És akkor picit részletesebben, részben az események hatása alatt, frissiben. ;) Sajnos nem várhat senki igazán érdemi infókat ettől a beszámolótól/blogposzttól. Az előadás-prezentációk nincsenek a kezemben, hangfelvétel sem áll rendelkezésemre. Gyér és lyukas memóriám az egyetlen forrásom a felelevenítéshez. No meg persze a saját véleményem, amire általában és mindig jobban emlékszem :DDDDDDDDDD

Érdekes módon állnak "inverz/komplementer" kapcsolatban egymással a fizetős és Open konferenciák, amelyek mindegyike Bence égisze alatt kerülnek megrendezésre.
- Azon túl is, hogy az egyiknél kell fizetni, a másiknál meg nem. :)
- Például az Open konferenciáknál 200+ emberből volt, hogy csak párat nem ismertem legalább látásból, a mai nap ez pont fordítva volt, mindössze pár embert ismertem csak.
- De említhetném azt is, hogy ma úgy éreztem a közönséget teljesen más hozza lázba, mint engem, míg az Open konferenciáknál ez mindig korrelálni szokott egymással :) Ez a Pivotal One kapcsán élesen szembeütközött, számomra.
- Vagy említhetném, hogy  a fizetősön sokkal több az angol nyelvű előadó, míg az Open konferenciákon ez eddig pont fordítva volt..

Itt jegyezném meg zárójelben (amely véleményemmel lehet, hogy egyedül vagyok a világban), hogy bár értem a motivációt az angol nyelvre, meg örömteli, hogy így is angolozik az emberfia, sok szempontból védhető is a dolog. Mégis azt mondom, hogy egyfelöl rengeteg angol nyelvű értékes anyag érhető el - sokszor ingyen is - a minket körülvevő globalizált világban, másfelöl a magyar piac lokális problémákkal szokott küzdeni, amire egy angol vagy amerikai szakértő sokszor ab ovo nem tudhat autentikusan reagálni. Azt is nehéz elképzelni, hogy magyarhonban dolgozó angolos külföldieket érdemes ilyen úton is kiszolgálni.

Különösen igaz mindez, ha sales/marketing vs. szakma áll szemben egymással. A nemzet- és vendor-független szakmát külföldi gazdagabb országbeli angolul előadó szakértők a tudásukat jobban tudhatják elhozni Magyarországra, míg sales esetében több lehet a lokális specifikum.
Órákat lehetne erről vitatkozni, de ennek a blogposztnak most nem célja ennek a kérdésnek a további boncolgatása.


Előadások:

Innovations in Data Warehousing Technology
Stephen Brobst, CTO of Teradata

Rokonszenves volt az előadó, aki szeret Magyarországra jönni igét hirdetni :) Bencének talán első komoly "zsákmánya", még évekkel ezelöttről, ami ma már egészen odáig ment, ahogy említettem is, hogy egyre több az angol nyelvű előadó a konferenciákon. Az előadó gyönyörűen, szépen, érthetően beszélt angolul élmény volt hallgatni, ráadásul át meg átszőtte mondandóját humorral, ami kifejezetten jót tett az egésznek.

A már említett "könyökön jön ki" meg "ezen már rég túlvagyunk" effektuson felül (klasszikus vicc az egyszer Pista bácsival, aki a kuplerájban kéri a sarokból a vöröskét, mire a madam megjegyzi, hogy "Pista bácsi; maga már rég túl van ezen". Mire Pista bácsi. "Igen?! Akkor mennyivel tartozom?"...
Szóval ezen felül ami még kifogásom, hogy mélyen hallgatott arról, hogy a Teradata cég az egyik leghorrorisztikusabb árszabást alkalmazó vendor, nem véletlen, hogy nem éppen elterjedt a Teradata-platform Magyarországon.
Én elvárom egy előadótól, hogy ne csak szépeket mondjon a cég képviseletében (még ha az sok technikai részletet is érint a szakmából, oktató célzattal), hanem az árnyoldalt is mutassa meg, jelen esetben, hogy mit fog tartalmazni a számla. Az egész Teradata (az én tapasztalatom szerint) inkorrekten és titkokkal övezetten kezeli a "piszkos" anyagiakat.
Az én szintemen egész egyszerűen úgy néz ki a perspektíva, hogy hiába van egy csilivili csoda technikai megoldás, ha minden várható profitomat előre felemészti az, hogy előre kell kifizetnem ezeket az eszközöket.

Mémek:
- Érdekes volt látni, hogy az IMDB itteni kontextusban: "in memory database management", és nem filmes adatbázis :)
- "Want more data, want it faster" -> Több adat gyorsabban, ahogy egy telhetetlen habzsoló világban ez már csak természetes, teszem hozzá ;)
- "Data temperature" -> adathőmérséklet, aszerint, hogy mennyire azonnal kell elérni adatot, CPU-RAM-SDD-HDD kontextusban. Természetes folyománya a Mutitemperature Data Management.
- "R" mindenütt. Hihetetlen a programozási nyelv és runtime environment népszerűsége. Mindenki, aki él és mozog támogatja. Még a nap végi Q nyelv is, amitől nem számítana ilyesmire az ember, legmerészebb álmában sem. A végén előbb-utóbb a Prolog nyelv is fogja támogatni. :)


Adattárházak Magyarországon
Arató Bence ügyvezető, BI Consulting

- 55 ember részvételével zajlot a DW-Trek kutatás, "adattárházak Magyarországon" jeligével. Figyelembevéve, hogy egy-egy vélemény több vélemény aggregálása is lehet, hogy nem is olyan kicsi ez a szám, pláne magyar viszonylatban.
-Pentaho érzékelhetően előrébb tart ismertségben, mint a Talend, ETL-eszközök témában.
- Jellemzően a Kimball-féle önálló vagy összehangolt adatpiacos DW-architektúra a támogatottabb itthon Magyarországon, mint az Immon-.féle 1-2 rétegű normalizált adatpiac. De megjelent már a Data Vault módszertan alkalmazása is.
- Kedvenc DW-feature-k sorrendben: preaggregáció, particionálás, molap, compression, in memory, column store. Bence szerint az utóbbi kettő azért marad csak le, mert a két legnépszerűbb vendor (Oracle és Microsoft) elég későn kezdte el támogatni őket.
- Kedvenc adatforrásbiztosítás: file-transzfer, közvetlen dblink, middleware, replikáció. Itteni sorrend alakulására az ár/költség is jelentősen hathat.
- Van már 100+ TB adattárház is, csak a CIB bankké 30 TB.
- Jó hír, hogy jelentős fejlesztéseket terveznek a cégek. Elsősorban DQM fókusszal (=Data Quality Management), utolsósorban felhasználószám növelési vagy addiginál még sokkal sűrűbb adattöltés fókuszokkal.
- 2011-es felméréshez képest nem volt jellemző változás, talán 5 év múlva érdemes ezt először firtatni?
- Ami változik: (A) a méret nő folyamatosan, (B) szemléletben történt változás: DW-t és ETL-t nem feltétlen kell egy vendortól vásárolni..


The Evolving Data Warehouse
Dirk DeRoos, Big Data Specialist, IBM

- Nagyszerű angol nyelvű előadás volt.Az előző angol előadáshoz képest ráadásul sokkal jobban felépített, remek diákat tartalmazó előadás volt, ahol a diák egymással sokkal szervesebb kapcsolati láncot alkottak.
- Sokak szerint nagyon pörgősen beszélt a srác, de szerintem így is nagyon érthető volt, pedig én a süketebb emberek közül való vagyok, az angolomat már nem is vesézve külön.
- Fiatal kora ellenére már két könyvet is publikált:
Harness the Power of Big Data (2012, McGraw-Hill Press)
Understanding Big Data (2011, McGraw-Hill Press)
- Én az első slide-jánál szívembe zártam az előadót. A folyamatos vesszőparipámat rakta rá, három dimenziós koordinátarendszerben: "budagetary constraints", "technical change", "regulatory press" határozódik meg a gondolkodásunk a fejlesztéseket illetően.
-Structured+repeatable-linear vs. unstructured+exploratory+iterative
-Analógia: alaszkai aranyásó kontra arany-kitermelés.
- SPARQL
- "Szent grál":  Natíve SQL -> NoSQL-re. :) Ez már leírva is szép, még laikusnak is talán.
- Data Governence, amire elhangzott egy nemkicsit meglepő magyar fordítás is: "adatvagyon-biztosítás"
(A) Policy, (B) Value creation, (C) Risk management, (D) Architecture, (E) DQM, (F) Metadata / Business glossary, (G) Lifecycle, (H) Audit / reporting



Adattárház menedzsment és metaadat kezelés
Gollnhofer Gábor, Jet-Sol Kft.

- Gábor régi kedves ismerős, az ebédet is társaságában volt lehetőségem elfogyasztani. Nagyon szeretem az előadásait, akár ismétlés jelleggel is. Például mert igyekszik mindig feltenni azokat a kérdéseket, amik fontosak (nekem és szerintem is).
- Build or Buy klasszikus kérdése DW-re.
- Csak egy adattárházunk legyen?
* Ha igen, akkor mi legyen a többivel?
* Ha nem, miért nem?
- DW akkor teremt értéket, ha (A) folyamatosan épül, (B) megbízható minőségű, (C) adhoc igényeket is kielégít, (D) extra nem tervezett de kiaknázódó értéket is rejt magában.
- Metadata van technikai és üzleti


Metavezérelt banki adattárház bevezetése és működtetése
Rekenei Zoltán, CIB Bank Zrt.

- Rokonszenves előadó, őszintén/hitelesen, ráadásul érdekesen beszélt. Tudtam volna továbbhallgatni őt is.
- Sajnos mondandójának középpontjával maximálisan nem tudtam azonosulni. Ha nekem lenne cégem, a legutolsó utáni gondolatom lenne aranyárban mért amerika adatmodell vásárlása, valamint SAS technológia stack (DW, ETL Studió és társai) vásárlása. Képtelen vagyok elhinni, hogy ez rentábilis, jó performanciájú,  rugalmas és kellően konszolidált megoldás legyen. De legalább az informatikának még mindig van kenyérkereseti forrása. ;)
- Nem hiszek a diagram ("krumpli") vezérelt egymásba ágyazott vizuális drag'n'drop huzigálásban sem. Sosem hittem. Az a vicc jut rá mindig eszembe, amikor egy pucér mexikói férfi az első emeletről a kaktuszosba ugrott. Kérdezték tőle miért tette: "elsőre jó ötletnek tűnt". ;)
- Nem a CIB-banknak címzem, csak itt jut eszembe, ami minap is felmerült már itt a blogon: számomra riasztó az az ellentét,hogy egyfelöl két kézzel, számolatlanul képesek egyes vállalatok pénzt kidobálni technológiákra/alaptermékekre, másfelöl a sokszor fillérekért dolgozó és/vagy kizsigerelt magyar vállalkozók teljesítéseit képesek nem kifizetni.
- Azzal a dologgal viszont nagyon egyetértek, hogy metaadat(-vezéreltség) az nagyon fontos (ezt "irigylem" is a SAS-tól ;), sőt nekem régről vesszőparipám az egész topik. Mondjuk én jobban el tudom ezt képzelni a Halassy-féle eredeti DBA analógiájára (nem a lebutított Oracle-DBA cuccról beszélek), semmint a disztributív "adatgazdák" vonatkozásában. Én amit az utóbbiból láttam szervezeti működést, az vagy nem működött, vagy hajmeresztően borzasztó volt.


Metavizualizáció – a metaadatok kiaknázásának kulcsa
Kósa Dávid, Metvizins Kft.

- Rokonszenves előadó, fontos problémát feszgetett, de nekem túl távolinak tűnt a mondandója, számomra sem kézzelfogható nem volt, sem témát illető szkepszist legyőző. De ez lehet ám az én hibám is. ;)
- Én már ott meglőve érzem magam, ha valaki vizualizálni akar egy ilyen durván nagy cuccot.


Data Warehouse ETL offloading with MapR
Zeljko Dodlek, MapR

- Rokonszenves  angol nyelvű előadás.
- Ha valaki, akkor én mellette vagyok a MapReduce-nak és Hadoopnak, de, hogy ETL-re mennyire jó ötlet, az minimum kérdéses. Maradjunk annyiban, hogy meglátjuk mit hoz a jövő!
- Az mindenesetre mellette szóló pozitívum, hogy nem pilinckázik, mint egy aranyárú Informatica GUI (amit én sose tudtam becsülni igazán nem értékarányos árszabása és felhasználóbarátságtalansága okán), hanem mert egyenesen paradigmaszerű gondolkodásváltást tűz ki célul :)


Pivotal One – Az agilis nagyvállalati platform
Földi Tamás, Starschema

- Távolálljon tőlem, hogy hazabeszéljek,de páratlanul nagyszerű volt hallgatni Földi Tamás lényegretörő és Greenplum-viszonteladóként is kendőzetlenül őszinte előadását.
- Pivotal cég Pivotal One termékéről van szó, a Hawk - Hadoop-os SQL-t leszámítva - már most kész, bevezethető vállalatoknak. Magyarországon most készül az első referencia-megvalósítás.
- A GE(=General Electric), iparágban szokatlan módon,10%-ban, 105 millió dollár értékben azonnal bevásárolta magát a projektbe.
- Van a klasszikus Waterfall (=vízesés) fejlesztési modell, ahol a cél kőbevésett. És van az Agile (=agilis) fejlesztés, ahol a cél is változhat menetközben, a revizíók során lehet felmérni, hogy a változás hol tart, milyen hatása van a célra, úgy általában az egészre. Ez a változás a "pivotal" az agilis fejlesztési módszertanban. Világéletemben vesszőparipám volt a változás-management fontossága, illetve mikéntje és hogyanja. Öröm volt nekem ezért ezt a levezetést hallanom.
- Célkitűzés: a már létező IaaS (=Infrastructure as a Service) után Paas(=Platform as a Service) megteremtése. Olcsón - még akár home-célra is? - értékesített wing-to-wing skálázott sandbox, amibe adott esetben Data Scientist embernap is bele tud majd tartozni.Nézzük meg X nap alatt mire jut a Pivotalos data scientist a datasetünkkel, hogyan tudja "megköpködni", ha valami rossz benne.
- Pivotal szereti támogatni a halados fejlesztői eszközöket: Ruby on Rails, GRails, Scala, etc.
- Tamás szerint az Oracle parallel query ma már szépen monitorozható szintén. Az én érzésem az, hogy a MapReduce-szal, eddig sosem látott korrektségű progressbar húzható majd lekérdezéseknél (de persze tévedhetek ennek megítélésében). ;)
- MPP-knél 40 gép felett nem lineáris a skálázás, hanem degresszív. Hadoopnál ilyen gond elvben nincs.
- Hadoop gyengeségei: (A) file-on belüli változás nehézsége, (B) adhoc lekérdezés: nem erre van kitalálva (C) elemzői interface-ek problématikusságai,  (D) adatbiztonság (autentikáció,autorizáció) hiánya.
- Döbbenetes adat: 60% Spring-használat a teljes Java-container technológiából.
- Egy másik 60%: Apache Tomcat fejlesztők 60%-a Pivotal-alkalmazott lett. Bennem ez felvet olyan kérdéseket egyébként, hogy nem lesz olyan, mint a (Sun) OpenOffice-nál, amikor az Oracle megvette: az eredeti csapat kilépett és folytatta a régi vonalat.
 - Poén: fabrik az kulcsszó, buzzword, érdemes vele barátkozni.
- Poén: Amerikában mindenki ismer data scientistet, de senki nem látott még egyet sem (olyan ritka állatfaj néha)
- Poén: Social Media/Twitter strukturálatlan állományai kicsit túl vannak hypeolva Tamás szerint. :) Azért lássuk be robbanásszerűen szaporodnak a srtukturálatlan adatok is.

Én kiegészítései a Pivotal (One)-hoz.
- Én nem rajongok a Pivotal One tulajdonos EMC-ért, pedig szellemes nevük van (Einstein képletéből származik).Világéletemben szabályszerűen rühelltem a SAN-okat, csak a szívás volt velük, viszont cserébe értékükön felül jóval túlárazva; rohadt drágák voltak mindig is (horrosztukus extraporofitos árképzéssel). Az üzleti szféra rugalmatlanságára jellemző, hogy az EMC-nek a bőre alatt is pénz van. Vásároltak is belőle vagy tizeniksz technológiát és/vagy céget a nagy előadáscímbeli vízió érdekében.
- Viszont tárgyilagosan kell ítélni. Úgy tűnik nagyon erősen komolyan gondolják a víziójukat (nem viccelnek) és körültekintően,  redundanciát kerülve (nem úgy mint az Oracle akvizicióknál volt sokszor látható), vásárolták egymás mellé a komponenseket, meg dolgoztatnak hozzá 1400 fejlesztőt. Az Oracle analógia Tamás elmondása alapján ott is érdekes, mert konkurens lesz várhatóan a témában, eddigi lépéseiből leszűrhetően.
- A Pivotal spin-off jellege érdekes: a Greenplum önmagában is fejlődőképes, de így egy nagy egész része lesz. Azért ez pestiesen szólva nem semmi.
- Vita tárgya, hogy Hadoop/MapReduce avagy a Greenplum MPP-je(=Massive Parallel Processing) adja-e majd a Hawq ("elírt" sólyóm) erényét.Tamás szerint csak termékátnevezésről van szó, mert Hadoop hívószó nélkül már nincs is élet :)
- Bottom up agilitás
- Cél: egyszerre rendkívüli performancia, magasfokú kompatibilitás, rendlkezésreállás, operatiív interakítv valamint batch SQL.

És akkor ez egy 30 perces előadás nyomán képződött, napvégére leharcolt szellemi állapotom párlata. Mi lett volna, ha lett volna rendesen idő a témára (előadás + kérdések) ???? ;)


Q/Kdb+ alapú adattárház fejlesztés a Morgan Stanley-nél
Dr. Bodon Ferenc, Morgan Stanley

- Az előadót eddig csak referenciaértékű, linkelt, szenzációsan nagyszerű "Adatbányászati algoritmusok" könyve révén ismertem.Alig vártam ezt az előadását egész nap, hogy végre erről az oldaláról is megismerhessem. Nem is csalódtam. Nagyszerű, élvezetes, egyúttal precíz előadást tartott.
- A Q nyelvet nagyon könnyű megszeretni az ő bevezetése alapján, noha a "http szervert indít" engem elsőre egy kicsit megijesztett, bevallom.
- A Q nyelv ráerősít arra, amit Földi Tamás mindig is mondott,hogy a funkcionális programnyelvekben komoly fantázia van.
- Feri idézett egy érdekeset is: azt a (programozási) nyelvet, ami nem szabja át a gondolkodásodat, lehet, hogy nem is volt érdemes létrehozni. :)
- Napi 850 milliárd dolláros kötvénypiac mögötti adattárházról beszélünk. Álljunk meg kicsit és izlelgessük a számot. ;)
- Nem szabad hibázni. Egyik, éves szinten 100 millió dolláros profitú kereskedőcég egy picit hibázott 1-2 éve, vezetőhír lett belőle: 400 millió dollárt bukott, 15 év építkezése ment a levesbe.
- Cserébe sokszor másodpercek törtrésze alatt kell dönteni, iszonyatos méretű - idősoros-összefüggésű - adathalmazok alapján.

Update

Ma munkábajövet gondolkoztam el azon, hogy milyen célja/funkciója van/lehet egy ilyen adattárházfórumnak (ahol technológia köré gyűlnek megrendelők és beszállítók).

Az én olvasatomban/értelmezésemben:

(1) Legyen egy technológiai ujdonságok vonulat: ennek tökéletesen megfelelt ezúttal is, a MapR, PivotalOne, Q/Kdb+. Lássuk be nem mindegy Google-n keresztül találkozni egy újdonsággal. A www.bi.hu-n, már jobb ;) De az igazi, ha valaki átéli és megosztja a tapasztalatait. Ez mind előadókat, mind hallgatókat vonzó vonulat.

(2) Legyenek "best practice"-k: rendszervázolással, költséghatékonyság-elemzéssel, hátrányok nem elhallgatásával..Ennek nem tudom a formáját, az viszont tény, hogy én egyszerre éreztem/érzem a dolog fontosságát és jelentős hiányát is.
Az egyedi esettanulmányok sokszor gyengék, megvitatni sincs rá keret.
Másfelöl akadémiai szférából is nagyon nehéz kompatibilis hiteles embert elképzelni idevágóan, és zavaró hátrány, hogy a szakmai egészre kevés embernek van megfelelő rálátása, az ilyet nehéz is kiemelni a tömegből.
Az látszik azért, hogy a best practice-ért meg kell küzdeni, és nem igazán várható "felülről".

(3) Elősegíteni a kommunikációt megrendelők és beszálíltók között. Ahogy én tapasztalatom, elképesztő tévképzetek, arányok vannak folyamatosan a fejekben. Ez is inkább hiányérzetként manifesztálódik bennem, semmint konkrét javaslatként.

Egyben vagyok csak biztos, hogy a leghangsúlyosabb Brobst-os előadás felelt meg ennek a szempontrendszernek a legkevésbé.


Nincsenek megjegyzések:

Megjegyzés küldése