Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. november 6., szerda

Budapest BI Fórum - első nap ("Open Analytics")

.
Lement a tárgybeli gigantikusra összevont három napos konferencia középső napja.

Ez már vegyesebb felvágott volt a tegnapi - számomra egyértelműen sikeres - nap után. 2x2 mátrix mentén voltak előadások, úgy mint magyar és angol nyelvűek illetve marketing és technikai prezentációk.

Érdekes, hogy az ember már előadáscím alapján is perdöntően az angol prezentációkat választotta, mégis az egész nap (holtversenyes) legjobb előadása magyar nyelvű volt (Sidló Csaba longneck prezije). Azaz én biztosan nem foglalok állást, hogy több magyar vagy több angol nyelvű előadás kellene. :) Azt azért megjegyezném, hogy nem mind arany, ami külföldről jön.

Technikai emberként én ab ovo ódzkódom minden marketing előadástól. Már említésre is fel szokott állni a szőr a hátamon. De azt kell mondjam, ezt is lehet kultúráltan csinálni, lásd a legelső német eredeztetésű RapidMineres prezentációt.


1.
Ralf Klinkenberg
Open Source Analytics Trends World-Wide and at Hungarian Enterprises 
Nagyon tetszett az előadás, egy erős 4-est megajánlok neki. Műfaján belül tökéletes volt, de nem adhatok jobb érdemjegyet, mert voltak jobbak :)

Információ: RapidMiner: Data Mining Use Cases and Business Analytics Applications (friss könyv)
Információ: Nemsokára várományosak vagyunk v5.3-tól v6-ra váltásra. Meg is újult hozzá a honlap. Lesznek újabb tutoriálok, meg template-k (pl.: Churn-re), amely vonalat egyébként a SAS is régóta követi (horribilis pénzekért, persze)
Információ: United Consulting:
- Magyaroszágon képviseli a RapidMinert.
- 10 éve léteznek,
- Kétszámjegyű az éves növekedésük
- 130 konzulens dolgozik
- Certificated Rapid-I Masters és  ~Analysts
- Az általam tegnap itt a blogon konstruált "enterprise ready" szóösszetételt hallottam tőlük. :)
- Alapvetően nyitottak az Open Source technológiákra. A RapidMiner viszont annyira beégetődött náluk, hogy ezt deklarálják is (tevékenységükkel is).
Információ: érdekesebb alkalmazott technológiák:
- ZIMBRA - Collaboration Server
- DCMTK - Collection of Library
- Mantis - Web-Based Bug-Tracking
- Testlink - Test Management
- Savanne - Project Web Hosting
- Selenium - Web Browser Automation


2.
Sander Kieft
Building a data analytics platform with Hadoop, Python and R
Információ: OReilly-Agile Data Science Building Data Analytics Applications with Hadoop (friss könyv)
Nekem nagyon nem tetszett az előadás, nálam egy erős kettes. És azért ilyen jó, mert egyébként kedélyes, jókedvű előadás volt.
- Nálam ez az előadás még a második nem plenáris részbe sem fért volna be, pláne nem ilyen időtartamban.
- Se marketingnek, se technikainak nem tűnt nekem elég használhatónak.
- Voltak elvarratlan szálak (data quality, etc.)
- Egzotikus szoftverek használatához ilyenkor elvárt sziklaszilárd egzakt indoklás hiánya:
* Jython - Azért az sok mindent elárul, hogy a hallgatók közül egyetlen ember ismerte fel a Jython-kódot.
* Jenkins Scheduling - Ez nem annyira egzotikus, de szinte egy szó sem hangzott el róla mélyebben.
* Mercurial Source Control - Ez egy szimpi cucc, csak egy indoklás itt is elfért volna.
* Qlikview - Én például nem kicsit örültem volna egy Tableau-val való összevetésnek, pláne, hogy legkevésbé sem Open Source. :) 
* Kafka, Open Source  Publish Subscribe System - Ezt legalább öröm volt hallani, kifejtés nélkül is.
* Storm, Open Source Distributed and Fault-Tolerant Realtime Computation - Ezt is legalább öröm volt hallani, kifejtés nélkül is.
* Solr, fast open source enterprise search platform - Ezt is legalább öröm volt hallani, kifejtés nélkül is.
- Egyedül a fenti könyv említésért jár piros pont tőlem :)


3.
Matthias Krämer
Technical drivers to support the growing business data demand for Performance Management solutions and BI Analytics
A másik olyan előadás, ami nagyon nem tetszett nekem, nálam egy halvány kettes alá.
- Hozzáadott érték a Jedox köztudatba dobása, amiről én eddig nem is hallottam. Ráadásul kőkeményen pénzes cucc (ezen a néven).
- Az open source alternatíva: PALO Business Intelligence, immáron OLAP szerverrel is. Régen csak a (Pentaho) Mondrian volt és a PALO-nak csak kliense volt hozzá. Az OLAP-hoz nagyon tudathasadásos a hozzáállásom. Biztosan szívesen csinálnám, bár a lekérdezési elágazások hűtik a témábavágó kedélyemet. Viszont sosem tudtam igazán érzékelni, mi a fantázia az OLAP-ban, pláne a milliós pénzekbe kerülő drága kereskedelmi csomagoknál. Én csak az üzleti userek megfejését tudtam csak igazándiból érzékelni.
- Az tetszett: hogy az Excel az nem BI-tool. Ezt jó lenne világgá kürtölni. Volt is belőle némi polémia... :)
- Az a mondat is tetszett, hogy ha lassú a rendszer, akkor az egységsugarú user azonnal Excelbe importál és csinálja a maga kis zárt szigetecskéjét. Hogy én ezt a mentalitást, hogy utáltam világ életemben, azt elmodnani nem tudom.
- Nagyon nem tetszett az előadásban vázolt ajánlott módszer, miközben szó sem esett arról, hogy:
- Hogyan aggregálódjon vállalaton belül a dolgozók tudása
- Agilitás
- Hogyan maximalizálódjon a vállalati dolgozói kreativitás a nyűgök felöl
- Szigetrendszerek feloldása
- Master Data Management
- High Availability
- Backup-stratégia
- Szinkron-aszinkron munkavégzés (lásd felesleges és kevéssé hatékony ám pazarló meetingek)
- Jedox GPU (gyors in-memory adatbázis) jól hangzik, csak épp nem derült ki, hogy a konkurrensekhez képest miért ajánlott :)- Árakról szó sem volt (horribilitás nagyságrendje)
- stb.


4.
Paul Lam, 2
Customer Behaviour Analytics: Billions of Events to one Customer-Product Graph
Szenzációs bevezető előadás volt a gráf-adatbázisok témájában.
Információ: Már az előadó sem akárki volt: Cascalog, Incanter(Clojure-based R-like platform) fejlesztője.
Információ: Nem sokára megjelenik egy könyve: "Web-scale Data Mining"
Információ: Customer Graph
* A veleje az előadásnak, hogy jól megtervezett gráf-adatbázison, magasszintű - üzleti user által is használható - nyelven lehet (Netflix-szerű) ajánlórendszeres kérdéseket feltenni:
- "Kiknek ajánlható valami"
- "Valakinek mi ajánlható"
- Stb.
* A közvetlen ajánlórendszerekkel szemben az lehet a finom benne, hogy segít megérteni azt is, miért legyen az ajánlat az ami.
* A munkafolyamat nehezebb lépéseit nem teljesen tudtam megérteni részleteiben, de egy ilyen előadástól ezt nem is várom el.
* Nagyon tetszett az RDBMS és GRAPHDB összevetése
- Attribute vs Entityrelation
- Record-Base vs Associative
- Reporting vs Reasoning
- stb (amiket nem tudtam lejegyzetelni)
* Első lépés: időbélyeges useraction rekordok Apache HDFS-en.
* Nagyon nehéz (80%-os időigényű) "reshape" révén lesz belőle gráf-adatbázis, kvázi ETL-ként, Neo4J interface-eléssel, node-extractokkal: szóval nemkicsit durva a cucc. :)
* Említődött: Apache Spark (Lightning-Fast Cluster Computing)
* 145 sorban elfért egy production teljes Cascalog program. Azaz iszonyúan tömör és nagy kifejező erejű.
* Kérdésre válaszolva: Ha ötöt klikkel egy felhasználó (és ebből akarunk következtetni, az bizony öt különböző él a gráf-adatbázisban.
* Kérdésre válaszolva: Nincs értelmezve a SCD(=Slowly Changing Dimension). Időbélyegek miatt minden nap diszjunkt új betöltés van.
* Kérdésre válaszolva: Metaadat-struktúrákhoz is hozzá lehet férni a magasszintű lekérdezéssel.


5.
Olivier Grisel
Predictive modelling in the cloud with scikit-learn and IPython
- Szenzációs előadást tartott, ahogy azt a tegnapiak alapján el is vártam.
- Eltért az előadás-abstracttól.
- Jó sokat beszélt a - struktúrált adatokon szerintem legnehezebb - adatbányász algoritmusról: "learning to rank". Jópáran nézhettek rendesen az előadóteremben :). Ha gyengébb értékelést kapna Olivier, az tuti ennek lesz betudható. Én maximálisan élveztem, mindenesetre.
- Arról van szó úgye, hogy amikor egy Google kiad egy találati listát, nem mindegy a találatok sorrendje, meg a találatok felhasználófüggő relevanciája.
- Mindez persze óriási méretekben.
- Együtt kell kezelni egy klasszifikációs("szavazás") és egy regressziós("átlag-előrejelzés") problémát.
- Címszavakban:
* NDCG ranking metric
* CTR(=Click-Through Rate)
* BM25
* Pyrallel
* Yandex Web Search Challange
Információ: Sample IPython 0.12+ notebooks for machine learning stuff


6.
Szücs Imre
BigData analitika a nagyvállalatok számára open source alapokon
Korrekt kis lendületes előadás volt.
Az nagyszerű gondolat volt benne, hogy innovációval nem ajtostúl kell berontani a vállalatokhoz, hanem kicsi, jól illeszkedő, kockázatmentes, szeparált projekttel, ami ha nem sikerül bátran mehet a kukába is akár. Sosem értettem miért kell csillagrombolót építeni, amiről pl.: egy év meg sok millió pénz kidobása után derül ki, hogy használhatatlan.


7.

Yves J. Hilpisch
Python for Next Generation Data Analytics
- Szenzációs előadás volt a Continuum Analytics házatájáról, ritka jól használható PPT-vel.
- Én imádom az Anaconda Python-disztribúciót, így nagyon sokat vártam tőle, és nem is csalatkoztam.
- Egyet hiányoltam nagyon: a (közel-)jövőről való elmélkedést.


8.
Dr. Benjamin Kreck, TIBCO Spotfire
Professional Statistics in R with TERR
- Korrekt, nem túl izgalmas előadás volt.
- Külön bája volt, hogy R-ről beszélt annak a cégnek a képviseletében (Tibco), aki megvette az R commercial alternatíváját (S+)
- Látványos volt a TERR(=TIBCO Enterprise Runtime for R) és a hagyományos Open Source R összevetése (performanciában).
- Mivel a TIBCO nem az olcsóságáról közismert, kérdés számomra, hogy ezt milyen ügyfeleket fog meghatni, így új fejlesztésként.
- Dobtam egy hátast, amikor szóbakerült a Matlab R integrációja.


9.
Sidló Csaba
Longneck, egy open source data quality tool: miértek és hogyanok
- Egész nap holtversenyes első helyezett előadása, magyar nyelven.
- Oly jó volt hallani, hogy milyen rosszak a drága kereskedelmi ETL-eszközök.
- Hogy az SQL kivált felesleges layereket az ETL-ben.
- Hogy Open Source
- Hogy nemcsak a framework Open Source, és az Open Source-ba kerülő alkatrészek köre egyre csak bővül.
- Hogy a fejlesztési elvek nagyszerűek benne.
- Hogy van Magyarországon egy éles Storm-alkalmazás benne.
- Hogy dokumentált
Longneck, még a márkanév is remek :)

4 megjegyzés:

  1. Szerinted jó volt a Sidló előadása a Sztakiból? Persze, rosszak a kereskedelmi ETL tool-ok, majd ők megmutatják.. Több év alatt írtak egy egygépes(!), "jól skálázódó" eszközt, (többek között a mi adóforintjainkból). 2013-mat írunk, nem baj. Open source-á tették, mert manapság az a trendi..csak minek...

    VálaszTörlés
    Válaszok
    1. Külön blogposztba emeltem ki a témát, horderejénél fogva:
      http://liftinstinct.blogspot.hu/2013/11/egy-etl-es-komment-margojara-budapest.html

      Törlés
    2. Reagálok a külön posztra is, de röviden: az adóforintokra vaktában hivatkozás elég erős, ez az eszköz ipari projektek mentén fejlődött ki, és nehéz ugyan határvonalat húzni egy kutatócsoportnál, de alapvetően nem akadémiai vagy állami támogatásból (ha úgy tetszik a mi adóforintjaink az én adóforintjaim is, de azok nem itt kötöttek ki, sajnos); nem egygépes, hanem teríthető osztott környezetre (mutattam erről mérést is). Azt, hogy a kereskedelmi eszközök általában véve rosszak, én nem állítom, ahhoz nem látom át eléggé a piacot (persze rossz tapasztalataim nekem is vannak és persze sokat hallok is); csak annyit, hogy alapvető szoftverminőségi elvárásokat ezeknek is teljesítenie kellene.

      Törlés
    3. WoW! Köszönöm a szerzői kiegészítést és izgatottan várom, ha összejönne a külön posztra való reagálásod.

      Nyilván egyikünk sem mondja, hogy minden kereskedelmi termék teljesen rossz. Az a kérdés, szvsz, azonosítható-e olyan problematika ami mindegyiket hátráltatja-e, (ab ovo-e), én amellett érvelek, hogy igen

      Illetve ez fennáll-e és mennyiben open source esetben (én amellett érvelek, hogy a kereskedelmi terméknek volt idejük, de lényegében nem éltek vele), míg az open source vonal több ígéretes kezdeményt fel tudott mutatni jóval rövidebb idő alatt is (nyilván ők is küzdenek - másmilyen - problémákkal).

      Törlés