Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2012. június 12., kedd

DW OPEN beszámoló

.
DW OPEN meetup

Nagyszerű szakmai meetup-rendezvény volt tegnap, 2012. június 11-én, 17:00-től, nagyon jó környezetben, nagyon baráti megszervezésben, ami külön domaint és honlapot is kapott (lásd fenti link).

Számomra sokkal jobb volt mint a múltkori prezi.com-os meetup-összezsúfolódás egy levegőtlen teremben

BTW ez a vegyes angol-magyar nyelviség jobb formulának bizonyult ismét, szemben a prezi.com eröltetett „angolosságával”.

Bár tudtam a rendezvényről, de a sok teendő közben majdnem elfeledkeztem, róla. De hála egy kollégámnak, aki hétfőn szólt, így utolsó elötti regisztrálóként ott tudtam lenni. :o)

Nagy köszönet érte a Bencének az ötletért és kivitelezésért, és még sok ilyet kívánok magunknak.


18:00-1810 Megnyitó
Arató Bence, BI Consulting

Rövid megnyitójában Bence élt egy kedves bejelentéssel:
DW OPEN mintájára lesz BI OPEN, és DM OPEN is.
Sőt ha lehet rajtuk prezentálni is....
:o)


18:10-18:40 Social Network Analysis: Practical Uses and Implementation
Stephen Brobst, CTO, Teradata
This presentation will illustrate useful techniques for successful implementation of social network analysis using data both from transactional sources and social media applications such as Facebook, Linkedin or Google+.

Az előadónak 30+ perc jutott, többieknek sajnos csak 15-20 perc, pedig az utóbbiakat szívesebben hallgattam volna még tovább, a magam részéről (például kérdezz-felelekkel dúsítva).

Mindenki dícsérte nekem a szünetben, szerintem trivialitásokon alapuló előadás volt, engem abszolút nem fogott meg, de annyira, hogy nem is akarok idézni belőle.Eszembejut erről a preziról egy másik negatív prezi-emlék, amikor Lovász Lászlót hallgattam egyszer egy akadémiai hálózat-elemzés előadáson, és a Königsbergi hidakkal nyitott (jó hosszan). Én értem, hogy ez fontos meg érdekes, de az ember mohóságában frissebb infókra vágyik már. ;)

Így aztán előadások utáni asszociációkról beszélek még pár mondat erejéig. :o)

Érdekes lett volna a rendezvény kapcsolati hálóját felvázolni. Csak én 15-20 embert ismertem a 150-ből, pedig én abszolút perifériális fickó vagyok.

Az előadások utáni kötetlen társasági beszélgetésben előkerült egy közös élményünk, hogy annak idején az egyik mukahelyemen, egy elképesztő szervezti változtatás után (a részletek most érdektelenek), én voltam az első, aki legyorsabban kvázi „postafordultával” felmondtam, majd csomóan követtek felmondásban. Semmi „összejátszás” nem volt a történetben, nem én voltam az „eseménygeneráló”.
A társaságban erre hozta fel egy srác, hogy mire nem lett volna jó egy „társas hálózat elemzése”, mert nem biztos, hogy nem volt szerepem az elvándorlási hullámban. ;)
Amire én azt találtam mondani, hogy vannak explicit és implicit hatások, én legjobb esetben is maximum  implicit hatások része voltam. :o)
Na például ezekről a látens, implicit hatásokról sokkal szívesebben hallgattam volna infókat az előadásban.


18:40-19:00 Adattárház fillérekért?
Földi Tamás, fejlesztési igazgató, Starschema
Ismertető az EMC Greenplum adattárházmotor ingyenes, de teljes funkcionalitással rendelkező közösségi verziójáról

Tamás szellemesen elágaztatottan kezdte mondandóját, hogy a Greenplum esetében mi lenne a nyitó slide különböző országokban:

Például: Angliában
  • Big data Analytics
  • Massive Parallel Processing (MPP)
  • Hadoop-integráció
  • Petybyte-ok 

Magyarországon (karikírozva az árérzékenységet):
  • Ingyen van
  • Tud mindent amit a többiek
  • Nincs licence költség
  • Nem kell érte fizetni

Az ingyenesség úgy néz ki, hogy egy gépen ("single node"), hogy maximum 12 CPU-core, 8 virtuális core, 2 socket esetében áll fenn.

Plusz infó ami nem hangzott el: EMC megvette a Greenplumot, aki híres jó minőségű ám aranyárban mért strorage-airól.

Tamás felvetette a kérdést, hogy mit kell tudni egy adattárházmotornak, hogy rábízzuk az adatainkat. Majd áttekintette, hogy a Greenplum ezeket hogy elégíti ki, tapasztalatuk szerint.

(1) Modern
  • Modernnek modern a Greenplum.
  • Nincs kompatibilitás okok miatti legacy nyűg
  • Shared nothing erőforráskiosztó.
  • Erős analitikus SQL.
  • Map-Reduce algoritmus.
  • Tárolt eljárások a legkülönfélébb nyelveken:  plsql (Oracle kompatibilitási opcióval), pljava, plperl, plruby, plpython és társai....
  • OLAP.
  • +1 érv, amit már én találtam ma: In Database Mining (szerver-oldalon, selectekkel elérhető adatbányász funkcionalitás). Ilyet csak az Oracle-nél tudok erős implementációban, de az nem MPP és nem ingyen.  

 (2) Gyors
  • Párhuzamosított SQLvégrehajtás.
  • Párhuzamosított adattöltés.
  • Korlátlan mélységű táblaparticiók (interval, range, hash).
  • Bitmap-indexek. Igaz jelen fázisállapotban, töltés után sajnos el kell dobni és újra létre kell hozni, mert nem lesz hatékony az elérés. Ez volt az egyetlen hiba, amit Tamás említett a prezije alatt.
  • Táblatömörítés. IO a nagyon kritikus, mióta a processzorok és a memória „elszabadulhatnak” a szerverekben.
  • Sor- és oszlopalapú adattárolás.
  • SSD és egyéb speciális szközök támogatása.
  • Temporális táblák.

 (3) Könnyen integrálható
  • gpload, ami egy Oracle sql*loader-szerűség.
  • External táblák, amik nemcsak olvashatók, hanem írhatók is(!!!!).
  • Web external táblák.
  • PostgreSQL kompatibilitás.
  • Natív ODBC, JDBC driverek.
  • Minden főbb ETL támogatja. 

 (4) Megbízhatóság, hibatűrés
  • Kényelmes párhuzamos mentés.
  • Hibatűrés az ingyenes verzióban – annak korlátja miatt: „single node” - csak workarounddal megy, vmware-rel például.
  • Fizetősben: single point of failure.
  • Saját felügyeleti rendszere van.
  • Simple Network Management Protocol(=SNMP) integrációja.

 (5) Jó eszközök, user-friendly interface
  • Parancssori psql-interface, kényelmesebb, mint az Oracle sql*plus
  • pgadmin révén GUI is van. 

 (6) Legyen hozzá helyi tudás, szakértők
  • PlSql olyan jellegű, mint az Oracle, olyannyira, hogy kompatibilitási opció is van.
  • PostgreSQL alapok miatt van magyar tapasztalat. 

 (7) Támogatás
  • Az ingyenes verzóhoz is van, doksi, fórum, tudásbázis.
  • Hivatalos support csak a fizetős verzióhoz jár értelemszerűen, de valamennyire nyilván toleránsak a potenciális vevőkkel.
  • Tamáséknak egyszer sem kellett a hivatalos supporthoz fordulni, annyira gördülékenyen ment a cuccal a munka.

 (8) Baráti licencelés
  • Sokkal barátibb a fizetős opció is, mint egy Oracle-nél. Terabyte-onként megy..
  • Könnyebben tervezhető a a pénzügyi költség.
  • Nincs semmilyen hardware-megkötés.

 Hovatovább mindenféle eszköz van ingyen (DB, ETL, OLAP, Data Mining, Reporting, Vizualizáció). De a felmérés, az ETL-folyamatok implementálása azért pénzbe kerül.

Én úgy érzékeltem, hogy Tamásék (Starschema) látnivalóan ráfeküdtek a témába, próbálnak belőle piacot csinálni. Én drukkolok neki, bár az open source cuccok még itthon is sokszor hendikeppel indulnak, ahogy egy kollégám fogalmazott, a pénzköltés sokszor „politikai”. Amúgy szerintem is az a legnehezebb a témában, hogy RDBMS-t váltanak legkevésbé szívesen/könnyen a felhasználók.

Letölthető egy 1,5 GB-os vmware image, amivel lehet kísérletezni, kezdeti installálási és adminisztrálási nyűgök nélkül.

Nagyszerű, informatív és nagyon élvezetes prezentáció volt, sok humorral.


19:00-19:20 Bevezető a Data Vault adatmodellezési módszertanba
Gollnhofer Gábor, Certifited Data Vault Modeller, Meta4Consulting Europe
A hagyományos normalizált és csillagsémás modellek mellett a Data Vault filozófia szerint készülő adattárházak is egyre gyakoribbak. Az előadás röviden bemutatja a Data Vault módszertan legfontosabb jellemzőit.

Én nagyon szeretem Gábor prezijeit, iszom a szavait. Mondjuk tegnap este kivételesen nehéz helyzetbe lavírozta magát avval, hogy hallgatóságot tesztelve, nem tudta mit mondjon és mit ne.

Data Vault adattárház adatmodellezési módszertan egy roppant érdekes ujdonság.
Immon és Kimball után ez a harmadik, az előbbi kettőnek valamiféle hibridje.
Nem tudom ki mit ismert belőle korábban, nekem új volt.

Jellemzők:
  • Részletes adatok
  • Teljeskörű historizálás
  • Több üzleti terület egyidejű támogatása
  • Normalizált táblák egyértelmű halmaza
  • „DW2.0 optimális modellezése”

Dimenzionális
(1) Dimenziós táblák
(2) SCD1,2,3
(3) Ténytábla
(4) Bridge, Helper táblák
(5) Érthető, egyszerű
(6) Bonyolult ETL
(7) Ralph Kimball

3NF
(1) Normalizált táblák
(2) Timestamp, start_date, end_date
(3) -
(4) -
(5) Teljeskörű
(6) Bonyolult lekérdezhetőség
(7) Bill Inmon

Data Vault
(1) HUB
(2) Satellite történetiség
(3) Link(-stat)
(4) Standalone
(5) Rugalmas, egyszerű módosítás, bővítés
(6) MPP ETL
(7) Dan Linstedt

Előnyök:
  • nagyon könnyen építhető fel nulláról kis lépésekben meg bővíthető (ez volt a főcél)
  • masszivan párhuzamos ETL-töltés
  • agilis fejlesztés
  • egyszerűség, KISS(=Keep It Simple, Stupid!)
  • méretezhetőség
  • sokan támogatják
  • megbízhatóság például kódgenerárás miatt biztonságos fejlesztés.

 Hátrányok:
  • kétszer annyi tábla kell mint szokásosan, nagyon sok joinnal
  • adhoc query nincs (másképp)
  • adattisztítást nem támogatja (külön megoldandó)
  • ami igazán durva: data mart modellezés sem igazán jól kitatált benne.
 Open Source Data Vault-os ETL-generálás már létezik (Quipu)

Mivel nekem új volt ez a Data Vault, ezért egy picit utánanéztem a neten:

Data Vault adatmodellezésről, magyar nyelvű 14 diás IqSys prezi

És egy angol nyelvű, 32 diás

Most tudtam meg hogy az előadónak van blogja is idéntől :o)

(1) Kiderült, hogy a Data Vaultról van egy Gábor által ajánlott jó online tanfolyam, szerintem picit drágán: 1500 USD, bár nyilván megsasolnám :o)

(2) A blogról származik egy érdekes infó:
SQL 2011-szabvány, legfontosabb ujdonsággal, az un. bitemporális időkezeléssel
"temporal extension", azaz az üzleti érvényesség és a rendszer érvényesség megkülönböztetése és automatikus kezelése

IBM a DB2-ben implementálta először a világon, 10.0-ban el is érhető már, tesztelhető

Nagyon jó 30+ oldalas olvasmány a bitemporális SQL-ezésről, az IBM háza tájáról.
DB2 best practices: Temporal data management with DB2
DB2BP Temporal Data Management (PDF)



19:20-19:40 Az SQL Server 2012 adattárházas szemmel
Kővári Attila, a BIProjekt.hu szerkesztője, Microsoft MVP
A közelmúltban megjelent Microsoft SQL Server 2012 szakmai szempontból legérdekesebb BI és adattárház újdonságai

Attila prezentációjának két része volt:

I.rész: szubjektív LEG-ek

Legfontosabb ujdonság

Jobb licenceléssel, jóval olcsóbban lehet hozzájutni a teljes infrastruktúra-vertikumhoz (DB-motor, ETL, OLAP, Reporting, Data Mining, Vizualizáció)

Sajnos nem értettem jól, mert Attila nagyon gyorsan mondta az én fülem szerint, de mint ha pár milliót említett volna, amiből el lehet indulni.

Legnagyszerűbb technika ujdonság

Columnstore index

A Microsoft 10-100-szoros sebességnövelésről beszél marketing anyagaiban, de a való életben is kijött a kétszeres szorzó (minden egyéb változatlanul hagyása mellett)

2.5 GB/s-ről 5 GB/s feldolgozási sebesség.

OLAP nagyon fontos továbbra is, jogosultság, sebesség, analitikai funkcionalitás miatt.

Legmeglepőbb fordulat

Teljes mellszélességű Hadoop-támogatás

Yahoonak van a legnagyobb OLAP-kockája, 24 TB, ott máris tudhatnak örülni.

Strukturált és nem strukturált adatok együtt lehetnek.


II.rész, PowerView

Ez volt a terjedelmesebb és az idő szorításában nagyon elhadart rész, esélyem nem volt jegyzetelni.

Ráadásul ez még nem is elérhető földi halandóknak, csak Attilának van meg, ha jól értem.

Prezi.com-os meetupon szerintem kényelmesebb tempóban, jobban áttekinthető volt a sok infó, mint tegnap

Attila elmondása szerint nagyon könnyű felparaméterezni  a cuccot

Ennek demostrálására publikus gyógyszer adatbázist használt

A nagy ujdonság az „izgő-mozgó” adatvizualizálás.

Szerintem ezt buborékmozgatást már mások is csinálják

Nincsenek megjegyzések:

Megjegyzés küldése