Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. december 8., vasárnap

Adatvizualizálási oknyomozás

.
Alcím: Adatvizualizálási hazugságok, hamisítások :)

Steve Jobs elhíresült prezentációs diája látható fenn (azóta már oktatási anyagokba is került az "adatvizualizálási hazugság faktorok" fejezetbe. :)

Mit is látunk? Egy tortadiagramot, és Steve Jobs úgy intézte, hogy az Apple 19.2%-a szemre nagyobb legyen, mint az "egyéb" 21.2%-a ;) Nyilván pénzről, profitról, expanzióról szól a történet, ennyi turpisság bele "kell" férjen a várható haszon tükrében. Steve Jobs tehát nem tudhat rosszul kijönni a sztoriból, még a konkrétumok szintjén sem. ;)

Mi áll a dolog elméleti hátterében? Az hogy az emberi szem a négyzetek/téglalapok területi arányait sokkal-sokkal gyorsabban és pontosabban érzékeli, nagyobb tömegben végzett vizsgálatnál is. Míg a körnél/körcikknél meg ugyanezt nagyon, értsd nagggggggggggyon rosszul. Ezért favorizáltabb a szakmában például az oszlopdiagramok, hiszen ott ilyen megtévesztési/befolyásolási mókákra kevesebb lehetőség nyílik. Más kérdés, hogy van ahol célkitűzés az illuzionizmus. ;)

És mi lenne a hamisítás, a hazudással szemben? Mármint az én olvasatomban. Ha kör helyett "ellipszizálnánk", akárcsak icipici mértékben is. Hiszen akkor már az ívhosszak önmagukban is hazugságfaktorok tudnak lenni.

Steve Jobs csak hazudott-e avagy hamisított is? Sajnos a fényképezés torzít, mondhatni önmagában "ellipszizálhat". Utólag meg igen nehéz rekonstruálni a történteket. Én azt valószínűsítem, hogy SJ megelégedett a finomabb hazugság-módszerrel, nem akart túl sokat markolni.Azaz az előadásában tényleg rendes tortadiagram lehetett. Evvel maximalizálta is a sztori a hasznát is. Azt meg nem feltételezem, hogy SJ nem volt tisztában az egész történet ezen finom részleteivel. ;)

Tableau Data Visualization Cookbook

.
Én értékelésemben minden idők legrosszabb szakkönyve jelent meg 2013 augusztusában (elektronikusan 20, míg papírkötésben 40 USD):

Pact Publishing: Tableau Data Visualization Cookbook

Pedig a könyvkiadót a szakkönyveivel nagyon szeretem. Nagyon frissen cuppannak rá, nagyon aktuális témákra.

Ennél a könyvnél ráadásul a kiadó inkorrektnek tűnik első ránézésre, mert a tartalomjegyzéknél nem látszanak oldalszámok. Ez a cookbook írd és mondd, az index utolsó oldalával együtt 156.oldal(!). A könyv "overview"-jánál meg egyenesen 172 oldal látszik.

Már ennyiből is látszik, hogy nehéz komolyan venni a könyvet, leginkább azért, mert nincs minősítés (kezdő-haladó).
Azt el tudom (nagy nehezen) képzelni, hogy haladó fogások egy halmazára elég legyen 156 oldal, de ilyesmiről itt nincs szó.
Azt is el tudom képzelni, hogy egy bevezető "szakácskönyv" legyen 156 oldal - hiszen egyébként pártolom a minél kevesebb betűre való törekvést, itt a blogomon is :)

Chapter 1: Connecting to Data Sources
Chapter 2: Creating Univariate Charts
Chapter 3: Creating Bivariate Charts
Chapter 4: Creating Multivariate Charts
Chapter 5: Creating Maps
Chapter 6: Calculating User-defined Fields
Chapter 7: Customizing and Saving
Chapter 8: Exporting and Sharing
Chapter 9: Exploring Advanced Features

Hogyan lehet egy ilyen tartalomjegyzékkel megúszni a témát? A legdurvább, legutolsó advanced feature a "create parameter". Ezt mégis hogyan tudja komolyan gondolni egy ember? A könyvnek egyetlen érdemi értéke van, hogy az egyes tippeknél vannak "there's more" szekciók, valós, nagyon jó linkekkel. A könyv egyedül emiatt lehet esetleg érdekes, meg ha azt vesszük annyira nem drága (szigorúan csak elektronikus verzióban).

Személyes adalék:

Jövőre, 30 éves pályám során (20 évesen kezdtem lyukkártyás R-11-es IBM360-as KGST-klónon), mindösszesen csak három téma kapcsán fordult meg bennem, hogy de jó lenne tanítani, meg milyen nagy dolog lenne.

(1) SQL. Ezt elsősorban azért, mert meggyőzödésem, hogy világszerte rosszul tanítják, rossz elvek és rossz tankönyvek alapján. Én magam mondhatni egyetlen jó SQL-tankönyvet nem láttam (referencia nem tartozik ide, hiszen az nehezen tud rossz lenni). Ezt tudom nagyon hihetetlenül/morbidan hangzik, egy alaptémánál, de akkor is így van. Az én határozott véleményem az, hogy jobb tanítási módszerekkel, sokkal többet hozhatnának ki a felhasználók az sql-ből, sokkal "funny"-bb módon.

(2) Adatbányászat. Nyilván. :) Itt persze elsősorban az izgat, hogy hogyan lehetne kedvet csinálni hozzá, hogyan kellene a hatalmas anyagból válogatni, rendszerezni, mondjuk 1 másfélórás előadásra vagy 1 féléves főiskolai kurzusra. Hogyan lehetne közelhozni az egészet, érdekes és nem triviális módon (ami a legtöbb tananyag nagy hibája olvasatomban).

(3) Tableau. Szintén nyilván :) Tableau-val egy nagy gondom van e téren, hogy az idő múlásával párhuzamosan amint belekeveredek egyre "durvább" Tableau-s projektekbe, veszem észre, hogy egyre több mindent kéne még tudnom, egyre több van hátra. ;) Pedig egy egyszerű, felhasználóbarát szoftvernek néz csak ki, amit imádnak az üzleti userek. 

Mindez pedig azért gond, mert egy oktató felé minimális elvárás, értelmezésemben, hogy legalább valamilyen szinten ontopik módon meg tudjon válaszolni minden - oktatás során - felmerülő kérdést. Na ettől én még messze érzem magamat, igazándiból csak egyetlen embert ismerek, aki megfelel ennek a kritériumnak. Azt gondolom egyébként, hogy nagyon nagy erőfeszítést igényel a 90%-ról a 99%-ra lépni.(ezért is lenne jó hivatalos Tableau oktatási anyagokat látni, amire eddig nem volt még módom).

2013. november 26., kedd

RapidMiner v6: verzió-upgrade-k negatív guinness-rekordja

.
Hát ilyen rosszul kevés verzió-upgrade esett jól nekem, pedig még csak nem is vagyok célközönsége a terméknek, nem volt még pénzes projektem a tárgybeli data mining tool-lal.

Ezért "kár" volt 5 millió dollár tőkét invesztálni a termék cégébe, beletaposva a RapidMiner közösség erre - a durva árskálázós lépésre - érzékeny részébe.

A verzió  legnagyobb ujdonsága, ugye a kommercializálódása:

Press Kit | RapidMiner
  • Starter Edition, with 1 GB of memory, access to MS Excel and Access data, and no licensing fee;
  • Personal Edition, with 4 GB of memory, access to most common data files and open source databases, 14 days of support, priced at $999;
  • Professional Edition, with 8 GB of memory, access to most common data files and databases, 14 days of support, priced at $1,999/$2.999; and
  • Enterprise Edition, with unlimited memory, access to all files and databases, (including HDFS, SAS, SPSS, and SAP), full support, with pricing available on request.
CHOOSE YOUR SUBSCRIPTION


- Kiváncsi lennék az 1 GB-os verzió célközönségére. Mondjuk egyetemeken talán lehet tanítani vele, de ismerve az eszköz memóriaéhségét ebben sem vagyok biztos. Mintha ingyen se kéne az embernek, kár bele az erőfeszítés és idő is. Ez a STARTER dolog egyébként egy rossz emlékű deja vu-t is felidéz, a Microsoft Windowsnak van ilyen használatatlannak érzett starter verziója.

- Azért az szép teljesítmény a nyugati transzparancia híveinek, hogy az Enterprise-verzió árát ki sem merték írni, ami listaáron 6-7-8.000 USD lehet minimum. Az én konteóm szerint egyébként lesz  akinek olcsóbb és lesz akinek drágább lesz, a demokrácia legnagyobb dicsőségére. Én az ilyen terméket ab ovo szeretem kerülni.

- A legnagyobb baj/szomorúság, hogy a böhöm mamutok (pl.:SAS) malmára hajtja a vizet ez a durva árskálázós lépés, szvsz. Annyira még nincs jó híre, meg nem egyenszilárd a RapidMiner, hogy például egy SPSS Modelerrel versenyezzen enterprise kategóriában, ráadásul ugye az IBM/SPSS megteszi azt a tudván-tuhatóan szintén inkorrekt lépést, hogy nagy cégeknek akár 80%-os árkedvezményt is ad termékeiből. Egy Modelet 25.000 dolláros listaára így 5.000 dollárra csökken, ami már egyenesen versenyképes a RapidMiner áraival.

- Akinek nélkülözhetetlen a visual stream, annak megmarad:
Knime
RapidMiner v5.3
Weka
Python-Orange

 - Érdemes megvizsgálni a kérdést, mennyire létkérdés a visual stream használata az adatbányászatban. Az egyik szétbontás szerint vannak céges és vannak magánzó(kutató/data scientist) adatbányászok. Egy másik felbontás szerint van a core adatbányászat és van a mindenféle pre meg post tevékenység - pl.:vizualizálás, ugye ;)

- Egy kutató/magánzó data scientist gyönyörűen elvan az SQL/Python/R/Octave négyessel (esetleg C/Java kiegészítéssel), nagyon jó eséllyel. Ha valakinek, akkor neki aztán semmi szüksége visual stream-re. Enterprise könyezetben egyelőre a visual stream-ek lehetnek a nyerők, de perdöntően inkább csak a modell-fejlesztésnél, ezért is tud szárnyalni egy SAS is. Hogy lesz-e paradigmaváltás az ügyben, azt szerintem még korai elemezni, érdemben. Kicsit analógnak érzem a Linux elterjedését server és desktop gépeken. Előbbi kategóriában egyértlműen sikerült neki, utóbbin meg nem. A visual streamek a windows-os desktop gépeknek felelnek meg, kérdés tudnak-e "linuxosodni".

- A visual stream-ek nagy hátránya, hogy elsősorban az egyéni munkát támogatja jobban (avval, hogy segíti a programozni nem tudó, de klikkelgetni szerető üzleti emberek munkáját). Kvázi mint az Excel. Egy vállalatnak viszont komplex adatbázisai, folyamatai vannak, amiknek komoly integrációs impactjai vannak. Na és ezt a visual streamek világa már rosszul támogatja (költségek, és nem technikai korlátok szempontjából). A core adatbányászat (mondjuk most így dataset-ből dataset-be transzformálás), az viszont bőven megvan visual stream nélkül.

2013. november 24., vasárnap

Kell-e adattárház ODS és DATA MART közé?

.
Egy teljesen természetes interakciós folyamat lehet az, hogy
- STAGE/ODS rétegben gyűlnek a forrásrendszerek napi snapshotjai
- STAGE/ODS rétegből képződik egy adattárház, mondjuk VAULT módszertan szerint.
- VAULT adattárházból készülnek pl.: riporting adatpiacok.
- Ki kell mutatni, hogy az ODS/STAGE minden szükséges adata 100%-ban megjelenik az adatpiacban.
- Mivel a felhasználó csak az adatpiaccal érintkezik, azonnal felmerül benne a laikus kérdés, minek adattárházat finanszírozni fejlesztési és üzemeltetési költségekkel. Neki elég az adatpiac is, úgymond.
- Korrekt STAGE/ODS, korrekt DATA MART valamint korrekt leképezés mellett minek adattárház?

KÉRDÉS: Lehet-e, szabad-e egyből DATA MART-o(ka)t építeni? Mi a hozzáadott értéke egy adattárháznak, mennyiben tekinthető szükséges rossznak?


Pro érvek lehetnek az adattárház ignorálására:

- Elképzelhető olyan scenárió,  amikor egyszerű forrásrendszerek, komoly adattárházépítési logika felmerülési igénye nélkül kvázi egymás mellé önthetők egyetlen adatpiacban. Ilyenkor valóban tűnhet felesleges overhead-nek egy közbülső adattárház.

- Sajnos még mindig sokszor csillagrombolós költségvetésű egy-egy adattárház-fejlesztése, és mellé nagyon lassú, nehézkes, költséges tud lenni az organikus fejlődése, up-to-date-n tartása.

- Felelőtlen forrásrendszer-felelősök könnyen haza tudnak vágni egy adattárházat (használhatóságilag) nem körültekintő fejlesztésekkel, ahogy általában is az OLTP forrásrendszerek könnyen jutnak nagyobb budgethez, nagyobb prioritáshoz üzleti fejlesztések keretében.

- Tipikus forgatókönyv szokott lenni ilyen fent említett adattárház-elmászásoknál, hogy az üzleti user gyorsan megneszeli a problémát, majd a gépén lévő Access/Excel-lel rácsattan a forrásrendszerre, lehúzza a gépére az adatait és kis magászigetecskéjén elemez. Ennél már a versengő adatpiacok is jobb gondolat. ;)

- Az üzleti élet pörög és egyre jobban csak pörög egyre több dolgozónak van szüksége egyre nagyobb mennyiségű adat átfésülésére a napi munkájához, a gyorsítás igénye folyamatosan napirenden szokott lenni, aminek logikus következménye az adattárház létszükségletének megkérdőjelezése.

- Miért ne lehetne "versengő" adatpiacok egymás mellett élése egy vállalatban, szabályozott redundancia és környezet mellett?


Pro érvek lehetnek az adattárház mellett:

-  Régen rossz, ha forrásrendszerek úgymond "összege" kiadja az "analitikus" igények, adatszármaztatási vonzatának 100%-át, ott valami nem kerek jó eséllyel, látatlanban is.

- Képződ(het)nek új adatok, tudni kell aktuálisan még nem is létező új forrásrendszereket integrálni.

- Talán a legfontosabb, hogy az enterprise MDM (mind a master data ~, mind a meta data management) leginkább ebben az esetben tartható valamiféle mederben. A versengő adatpiacok sokkal könnyebben csábítanak vállalaton belüli fegyelmezetlenségekre, dokumentálatlanságokra, párhuzamosságokra, inkonzisztenciákra (lásd pl.: ügyféldeduplikálási problémák => könnyebb káoszt eredményezni, mint rendbetenni).

- A VAULT módszertan már komoly hozzáadott értéket ad az adattárházépítés rugalmasságához, tulajdonképpen kevés overheaddel. Komoly érv kell tehát az ignorálására: nem tűnik triviálisnak a dolog.



Én négy dolgot állítok, konklúzióként:

- Mindkét forgatókönyv lehet életképes, komoly megalapozott tervezés eredményeként csak, persze

- Nincs hüvelykujjszabály melyik a jobb: lokális specifikumok határozzák meg döntéshozatal alapját.

- Az élet hozhatja úgy, hogy bár jó volt az eredeti választási döntés, de át kell térni a másik verzióra.

- Az a vállalat működik jól üzleti intelligencia értelemben, ahol
* jó adatokkal, jól számolnak az üzleti userek, konszenzusos válaszidőkkel
* nincs divergálás az adatok között DQM-problémákat generálva
* organikus és konszenzusosan gyors a fejlődés
* adatpiacok üzleti intelligencia produktumai össze tudnak adódni vállalati értékké.
* a maximalizált vállalati üzleti intelligencia érték optimális további növelése csak nagy befektetéssel növelhető (magyarán nem éri meg).

Breaking News: Haskel Financial Data Modeling and Predictive Analytics

.
Haskel Financial Data Modeling and Predictive Analytics

Friss meleg nyomdaszagú könyv:) Csak 165 oldal és így is annyira kemény a témája, hogy csak hírt vagyok képes adni róla, kutyafuttában, egyéb teendők miatt.

Mennyi, de mennyi rossz érzésem volt a funkcionális nyelvek irányába, minden erényük elismerése mellet, mit vitatkoztam az ügyben, árral szembemenve :)

Az ellenérzéseim perdöntően abból fakadtak, hogy
* Ki fogja ezeket megtanulni (na és melyiket: Scala, Clojure, Erlang etc.)?
* Na pláne ki fog módosítani, egy korábbi fejlesztést?
* Mennyire átjárhatók egy C/PASCAL analógiában?
* Mennyire zavar be az OO-paradigma támogatása?
* Mennyire elég, ami belőlük a Pythonban van implementálva, limitáltan?
* Mennyi hozzáadott érték van, effektíve pros-cons alapon számbavehető módon?
* Mennyiben intellektuális onanizálás az egész?
* Mennyiben l'art pour l'art -> valami mesterséges absztrakt szépség ideálért?
* Mennyiben hype?

Ami a véleményemmel szemben zavart_
* A párhuzamos feldolgozás látványos támogatása kezdettől fogval nyugtalanító volt számomra :)
* Tömörség,
* Lambda-kalkulus tömör ám kifejező ereje 
* A hírek szerint, jobban működő programok írhatók, értsd valószínűbben csinálják azt, amire írták
* Ehhez jött a MapReduce paradigmában betöltött életerős szerepük.* És most már a prediktív analitika ajtaján is dörömbölnek a funkcionális nyelvek.
* Alkalmazás is van már láttam Clojure-wrappert java-s data mining libraryhez.
* Könyv is jelenik meg még ha első körben csak 165 oldalban

Érdekesség: a 165 oldalba még install-folyamat, nyelvi bevezető és text-feldolgozás is belefért.

Az első "igazi" topik,  a Grubb's test outlier analízishez.

Igazándiból a Kálmán-filter-t lett volna érdekes kiemelni, mert az jóval közismertebb, de kedvezzünk az egyszerűségi elvnek. :)

Bemásolom ide alább a vontkozó kódot, elmékedésre, és én elhallgatok. ;)


module Grubbs (
      grubbs
    ) where

import qualified Data.Vector.Unboxed as U
import Statistics.Sample

grubbs :: [Double] -> Maybe Double
grubbs xs           
    | numOfOutliers > 0 = Just $ fst $ U.maximumBy cmpByG outliers
    | otherwise         = Nothing
    where   n                       = fromIntegral $ length xs
            gCritical               = (n-1)/(sqrt n)
            v                       = U.fromList xs
            (m,s)                   = meanVarianceUnb v
            stddev                  = sqrt s
            getGtuple   x           = (x, (abs (x - m))/stddev)
            isOutlier (_, g)        = g > gCritical
            outliers                = U.filter isOutlier $ U.map getGtuple v
            numOfOutliers           = U.length outliers
            cmpByG (_, a) (_, b)    = compare a b

2013. november 23., szombat

Blackbox adatbázis kifehérítése üzleti felhasználóknak

.
FELADAT:  Adva van egy üzleti felhasználók számára totálisan black box Oracle adatbázis. Nem scope annak fejtegetése, hogy ez hogyan eshetett meg a XXI.századra. ;) Természetesen az üzleti felhasználók, szeretnék tudni mi van benne, sőt módosítási igényeik is vannak, sőt ráadásul - horribile dictu - gyorsan szeretnének módosulási eredményeket látni. Azaz dokuemntálni kéne visszamenőleg és minél használhatóbb módon előrefele. Van pénzük a projektre, mi legyen a javasolt technológia?

1.
Erre az egyik kézenfekvő megoldás gyári szoftver vásárlása, horribilis pénzekért végtelenül limitált funkcionalitással. Ilyen például Busines Objects Universum Designere. Aki ezirányban akarna továbbolvasni, annak más site javasolt, nem ez a blogposzt. ;) Magam részéről ezt a megoldást teljességgel elutasítom.

2.
Marad tehát valamiféle "custom" megoldás. Ami nekem hirtelenjében eszembejut az két lehetőség: egy minimális ám gyorsan implementálható brute force  megoldás és egy maximális hiperintelligens. Mindkét megoldás ipari standardeket használna, de csak részben state-of-art termékekkel, részben egyedi fejlesztésűekkel.

Alapelv: elsőrendű prioritás, hogy minél inkább gombnyomásra automatikusan up-to-date legyen a dokumentáció.

(1) A minimális ám gyorsan implementálható brute force megoldás

Oracle adatszótárában megvannak a tárolt-eljárás és táblák függései. Feltehető, hogy egyéb Oracle objektumtípus nincs.

Tegyük fel, hogy elkészül egy alap kifehérítő dokumentáció valahogyan.

Bármilyen ("mérföldköves") fejlesztés elött és után csinálunk (text-alapú) snapshotot
- a struktúrákról.
- a függésekről.

Az érintett módosuló kódokat péládul SVN-be rámoljuk (programból)

SVN-diff programból való hívásának segítségével dokumentáljuk a változásokat, minden változástípusnál értelemszerűen.

Fontos látni, hogy nem-feltétlen csak az Oracle belső adatszótárára/dependenciáira lehetne csak támaszkodni: Külön (meta)sémába lehetne hozzáadott értékekkel kiegészíteni, egyedi custom-fejlesztés révén.

Fontos látni, hogy univerzális terméket nem így kell fejleszteni, viszont a megrendelői igények lokális-specifikus lefedését a legkönnyebb így támogatni.

Mindez relatíve egyszerű, gyors fejlesztésű, gombnyomásra aktualizálható, de ha én üzleti user lennék, bizony húznám a számat rá, hiszen erősen IT-alapú, nekem üzleti userként, üzleti alapú kéne nekem.

(2) A maximális hiperinteligens megoldás

Intelligens „master/meta data management”-es univerzum-építés, jó szoftver hiányában, custom-fejlesztéssel.

A fejlesztés végén, múlhatatlan üzleti igény esetén persze bevethető ilyesmi is, például ha rajzolgatni szeretne az ügyfél (aminek én sose láttam értelmét, a modern kor mennyiségi és komplexitási igényeit nézve).

Blackbox adatbázisunkban
- Vannak az alapadatok és a származtatott adatok.
- Minden adat alapadat, ami kívülről interface-n keresztül jön és nem módosul sose rendszeren belül.
- Minden más származtatott adat.
- Ha egy táblában mindkettő van, azt szét kell bombázni kétfelé (minimum logikai értelemben), az én értelmezésem szerint

El kell kezdeni üzleti objektumokat definiálni, amik egymásra épülnek (hierarchiába).

Akkor jó egy üzleti objektum, ha
- könnyű olvasni és egyértelműen értelmezni (az implementált logikát)
- a ráépülés során komoly hozzáadott érték képződik.

Az üzleti objektum tartalmaz
- Nevet (fizikai és üzleti)
- Kulcsokat, ddl-definiciókat.
- Logikát
- Szöveges leírást
- Data Profile-ingot (NULL, kategória-e, stb).
- Ki határozza meg a számosságot: csomó left join esetén nyilván a base tábla, amihez joinolunk.
- Stb. (mindez rendszerszervezési kérdés)
Ami egyedül fontos,hogy azonosítani kell, mi az ami programból tud jönni, és mi az ami manualitást igényel.

Az üzleti objektum üzleti logikája jellemzően SQL (+opcionálisan 3GL kód)

Az SQL-nek minél egyszerűbbnek kell lennie, de nem feltétlen minden határon túlmenően, csak a józan ész szerint (ez az például, amit a kereskedelmi szoftverek a belátható jövőben NEM fognak tudni univerzálisan támogatni)
- Lehet benne UNIO, de csak akkor ha garantáltan diszjunkt
- Lehet benne összetett logikai feltétel, de csak ha átlátható.
- Lehet benne több join is, de lehetőleg csak egyfélék.
- Meg kell különböztetni a törzsadatokat a tranzakciós adatoktól.
- Master-Detail join például nem lehet már (elvi alapokon se), azt szét kell szedni ketté.
- Lehet két- vagy többféleféle átlagegyenleg-típusú üzleti logika (pl.: egy termékfejlesztési és egy riskes), viszont különbséget kell tudni képezni új objektum bevezetésével (dekomponálás).
- Lehet többféle tranzakcióleválogatás, de mindegyiknek legyen értelme, neve.
- Nem baj, ha érkezik egy újabb átlagegyenleg-definició, de valami korábbira hasonlítania kell és különbséget kell tudni képezni hozzá.
- Garantálni a konszolidált állapothoz való konvergálást, szabályokkal, szabályrendszerrel

stb.

Az üzleti objektumnok jellemzően JOIN-okkal kapcsolódnak.

Ezek után egy új funkcionalitás úgy tudhat kinézni, hogy egy hierarchia közepén lévő üzleti objektumba jellemzően ÚJ attribútum képződik.
Aki eljárások ezt olvassák azokat ez nem szabad zavarja.
Tehát csak lefelé érdekes a hierarchia
Azonosítani kell az alapadatokat, miből származik
Ha új adatféleség kerül egy lentebbi üzleti objektumba lásd előbbi eljárást.
Az összes módosításos származtatást szintén azonosítani kell.

Alapelv inkább legyen több kisebb (horribile dictu diszjunkt) üzleti objektum, mint kevesebb (na pláne összefüggő/mellékhatásos) komplex

Az iteráció a konszolidált állapotig való eljutásban (top-down és bottom-up kombináltan):
- Veszünk egyetlen nagy blackbox-ot
- Daraboljuk a blackboxokat, és kölcsönhatásokat térképezünk fel (funkcionális klaszterek).
- Ha sikerül azonosítani egy kellően fontos, kellően kicsi, kellően egyszerű funkcionális klaszter, azt meg kell próbálni alulról felépíteni üzleti objektumokból (hierarchiát építve).


Előnyök:


- Igyekszik egymáshoz a lehető legközelebb hozni az egyértelműsítő IT valamint a "projekt-finanszírozó" üzleti személetet.


- Up-To-Date-ség

- Az üzleti objektumok hierarchiája mentén teszőleges lineárisan olvasható olvasmány kigenerálható, tetszőlegesen új kollégának
- Jól-kereshető tud lenni a dokumentum.
- A változásmenedzsmentjének dokumentálása könnyedén megoldható.

A feladat legnehezebb, legrázósabb része - nemkicsit megdöbbentő módon - az üzleti objetumok fizikai és üzleti elnevezése (de ez kereskedelmi szoftver használatánál is így lenne).
Szerintem..........

SQL-forgatás

.

FELADAT: Adva van egy forrásrendszer, amire töménytelen mennyiségű, különböző komplexitású (pl.: inline view-s) lekérdezéseket írtak eddig üzleti felhasználók. Menetközben elkészült egy adattárház és hozzá egy riporting adatpiac (aminek ez a forrásrendszer csak az egyik forrása) úgy, hogy a forrásrendszer és az adatpiac között VAN egyértelmű leképezés (séma, tábla és mező-szinten, de nyilván más nevekkel). Hogyan könnyítsük meg az üzleti felhasználók életét a riporting adatpiacra való átállásban?

LEHETŐSÉGEK (amik nekem eszembe jutnak):


I. LEHETŐSÉG: CÉLIRÁNYOS SQL-PARSE LIBRARY
(A) ANTLR
http://www.antlr.org/download.html
http://www.antlr3.org/grammar/list.html

Előnye:
- open source (free)
- van oracle nyelvtan hozzá (több is)

Hátránya:
- Kérdés mennyire követődnek le az Oracle SQL-verziók, mennyire megbízhatóan. Éles enterprise könyezetben én szívesebben alapoznék támogatott, aktuálisan követett megoldást.

(B) http://www.sqlparser.com/
Ez ugyan pénzes, de az enterprise verzió is csak 90.000 forint. Nem éppen kibírhatatlan, ha egy Oracle Total Recallt könnyedén ki tudnak csengetni.
Az Oracle-verzió csak 30.000 forint (de az IBM DB2 miatt érdemes az enterprise-ban gondolkodni.
Ez supportos, karbantartott, jó cucc, csak használni kell.

(C) Oracle-specifikus:

Előnye, hogy "ingyen" van, hátránya, hogy azért küzdeni kell vele. ;)

CREATE GLOBAL TEMPORARY TABLE plans AS
SELECT * FROM TABLE(dbms_xplan.display_cursor());

DECLARE
  c NUMBER;
  i VARCHAR2(30);
  l NUMBER;
  stmt VARCHAR2(4000);
BEGIN
  DELETE FROM plans;
  stmt:='SELECT z.* FROM z, skew1 WHERE z.z=skew1.fillblocks';
  l:=LENGTH(stmt);
  c:=dbms_sql.open_cursor();
  dbms_sql.parse (c, stmt,dbms_sql.native);

  SELECT DISTINCT sql_id
  INTO i
  FROM v$open_cursor
  WHERE
    sid IN
    (
      SELECT sid
      FROM v$mystat
    ) AND
    SUBSTR(sql_text,1,l)=SUBSTR(stmt,1,l)
  ;

  INSERT INTO plans
  SELECT *
  FROM TABLE(dbms_xplan.display_cursor(i));

  dbms_output.put_Line ('sql_id:'||i);
END;

(D) Egyéb idevágó okosságok, ha ennyi nem lenne elég :)
Parser for Oracle SQL


II.LEHETŐSÉG: QUERY BUILDER-ES FRONT-END

Ha nem akarunk parse-olgatni, és pláne, ha KEVÉS tábla van, akkor lehetne írni egy checkbox klikkelgető kicsi front-end alkalmazást á lá "SQL-Builder". Ez lehetne limitált vagy teljes funkcionalitású.

Kirakjuk front-endre az ÖSSZES táblát. Be lehet pipálni ki legyen a join-ban, ebből már azonnal kiesik egy működő sql. Persze a front-end alkalmazásunk az oszlop-megfeleltetésekkel is tisztában lehet könnyedén, így a szükséges érdemi felhasználói "where feltételrendszer" is bele konstruálható az output SQL-be. Order by meg könnyedén konstruálható.

Group by-having-es, uniós, hierarchikus, analitikus, etc összetett lekérdezéseket meg rakják össze a felhasználók a front-endből kinyert mozaik darabkákból (feltéve, hogy költségesebb ezt implementálni és jellemzően nem ezek fedik le a felhasználói igények perdöntő részét) .

Teljes funkcionalitás megcélzása esetén, itt is lehet külső "query builder" könyvtárat bevetni, például : Active Query Builder


Ennek a II.lehetőség komoly hátránya, hogy from scratch zöldmezősen kell az sql-eket létrehozni, nem meglévő sql-eket fordít át.

Ilyen alkalmazás szerintem helyes programozási környezete: Free Pascal/Lazarus, és nem lehet túl nagy meló.


Megjegyzés: én alapból nem szeretem a query buidereket, de ennél a topiknál muszáj volt említeni, a minél jobb teljeskörűség érdekében.

III.LEHETŐSÉG: KOPASZ STRING-CSERE, MANUÁLIS PARSE-SZAL

Limited manuális parse (pláne, ha egyszerűek az SQL-ek), stringcserével pl.: tábláknál: "SOURCE" -> "TARGET", esetleg némi case whennel megspékelve.
Tábla alias alapján select-listát módosítása, oszlop-megfeleltetés közbeiktatásával.
Kiegészítve a plusz konstans wherekkel.
Pl.: WHERE DATE '2013-09-30' BETWEEN valid_from AND valid_to

Én ezt a metódust támogatnám legkevésbé, nem véletlen, hogy a végére hagytam..Ez csak erősen limitált tudna lenni, számomra értelmetlen erőforráspocsékolás, kétes várható eredménnyel.A komolyabb hozzáadott értékű korábbi megoldások, alig kerülnek többe.



KONKLÚZIÓ (ÉN SORRENDEM)
(1) www.sqlparser.com
(2) antlr
(3) dbms sql-parse
(4) korlátozott front-end, egyszerű zöldmezős sql-konstruálásra (join-where-ig csak)
(5) teljes active query builderes megoldás
(6) limited manuális SQL-parse

Egy ETL-es komment margójára (Budapest BI Fórum)

 .
Budapest BI Fórum - első nap ("Open Analytics")

A blogoszféra ezen eldugott sarkában, mindig különleges érzés (érdemi) hozzászólással találkozni, köszönet érte. :)

A téma meg annyira nagy és fontos, hogy azt gondolom megérdemel külön blogposztot. Nehezítő körülmény számomra, hogy mostanság teljesen más témákban mozgom, így extra kihívás összeszedettnek lennem, de megpróbálom.


Szerinted jó volt a Sidló előadása a Sztakiból? Persze, rosszak a kereskedelmi ETL tool-ok, majd ők megmutatják. Több év alatt írtak egy egygépes(!), "jól skálázódó" eszközt, (többek között a mi adóforintjainkból). 2013-mat írunk, nem baj. Open source-á tették, mert manapság az a trendi..csak minek...

Jó volt-e Sidló Csaba előadása?

Mielőtt az érdemi, lényegi mondandóra térünk, álljunk meg itt is egy percre. Mitől jó egy előadás (számomra)? A Budapest BI Fórum második napjáról szóló - sötét tónusú - blogposztomban bőségesen kitértem erre is (igaz nem fókuszáltan). De ha már explicit felmerült most, akkor szedjük pontokba is:

- A legfontosabb ismérv, hogy az előadás végén szomorúan konstatálljam, hogy vége, illetve fogalmazódjék meg bennem, hogy egy szinttel mélyebbre menve, tartson mégegyszer annyi ideig. :)

- Foglalkoztassa a téma a szakmai közvéleményt, ha lehet már az előadás elött.

- Ezzel szemben az előadás konkrét mondandója meg legyen minél újszerűbb, akár csak kontextusában.

- Állítson valamit az előadás, de olyat, hogy lehessen róla vélemény - horribile dictu ellenvélemény - a közönség soraiban. Ez nekem kardinális kérdés, itt a blogon is. Óriási (parallel létező) információtömeg vesz körül minket, elolvasni, feldolgozni sincs időnk rá. Viszont élni, valamilyen ösvényen haladni azt mindannyiunknak kell. Ha új információ érkezik azt meg kell vizsgálni, azt be kell építeni vagy éppenséggel el kell vetni, azaz valamit csinálni kell vele. Ezért a vélemények számomra nem l'art pour l'art párhuzamosan léteznek bele a világba, hanem kőkemény versenyt vívnak egymással, ahol a jobb vélemény előkelőbb helyezést ér el. Ez maga után vonja, hogy a véleményt vállalni kell, még ha egy későbbi ellenvélemény felül is írja. Ha nincs vélemény, akkor nincs ugyan "bukás" se, de nézetem szerint, némi extrapolációval, kár volt a témával foglalkozni.

- Legyen nagyon nagy személyes varázsa az előadónak. Mivel kevés kiemelkedően jó előadót ismerek, hajlamos vagyok azt feltételezni, hogy ez valami istenadta - tanulhatatlan - adottságból fakadhat. A konferencián az én fogalmaim szerint Arató Bence és Földi Tamás ilyen kvalitású előadó. Vagy éppen Sidló Csaba munkatársa ifj.Benczúr András, aki sajnos nem volt itt.

- Végül legyen szellemes, humorral fűszerezett. Ez olyan mint a só a bográcsgúlyáshoz. El lehet hagyni, de érdemes? ;)

Számomra Csaba előadása:
- Fontos "hottopic" témát vesézett, fogalmazódtak meg kérdések is a közönség soraiban. ;)
- Újszerű mondandója volt az előadásnak
- Sajnáltam az előadás végén, hogy vége volt, mentem volna tovább a mélyebb részletek felé.
- Őszinte véleményt formált, meg indokolt is (amennyire ideje engedte), kevés ilyen előadó volt a konferencián.
- Emlékeim szerint némi poén is volt. :)


Rosszak a kereskedelmi tool-ok

Ez bizony az én általánosító megállapításom is. Több összetevője van ennek:

- Maga a műfaj kelt egy kvázi kivédhetetlen hátrányt, nevezetesen, hogy úgy generál komoly overheadet egy cég életében (licence, fejlesztés, üzemeltetés), hogy ezenközben a hozzáadott érték roppant kicsi.

- Sokszor rossz elvek mentén fejlesztették őket (például adatbázis repository alapokra)

- Az ETL-eszközöknek sok-sok évük volt, hogy fejlődjenek, de valamiért megrekedtek egy nagyon alacsony szinten. Tudomásom szerint szakmai konszenzus van abban, hogy minden ETL eszköznek van (védhetetlen) hülyesége.

- Az ETL-eszközökhöz órási - számomra visszataszító - marketing tartozott mindig is, ami horibilissé tette alkalmazásuk költségeit.

- Az ember nehezen tudja elképzelni, hogy ne lehessen szerethető ETL-eszközt írni. Az hogy jó adatmodellező szoftvert nagyon nehéz írni, azt el tudom fogadni a magam részéről, de egy ETL-eszköz fejlesztése azért mégse egy "rocket science".

- És akkor egy szót sem szóltam a konkrétumokról. ;)
* OWB-vel 2.1-es korában találkoztm először. A generált kódja hibás volt (le sem fordult). Milyen "élmény" volt utána kézzel ráhackelni. Arról az inkorrekt Oracle-s hozzáállásról nem beszélve, hogy a vásárlóival fizetette meg az OWB fejlesztési költségeit az Oracle. Kiadott egy használhatatlan ipari hulladékot pre alpha állapotban és a fizető vásárlók idegrendszerén zongorázva javította éveken át. Majd az ODI-akvizició után halálra is ítéli.
* ODI. Nem lenne őszinte/hiteles véleményt formálnom róla, mert éles projektben nem találkoztam vele (hiába tűnt első ránézésre szimpinek). Aki OWB-zett kollégám, az mind utálta (teljesen más logikája miatt). A horribilis árképzése miatt viszont nálam végérvényesen leírta magát.
* Business Objects Data Services, a híres nevezetes BODS. Egy komplett ipari hulladék, nullához közeli fórumos élettel, horribilis áron. Életem egyik legrettenetesebb fejezete a vele való éles projekt.
* IBM Datastage. Első ránézésre egy szimpi ezsköznek tűnik. Csak ne kelljen vele éles projektet csinálni. Zavaros, hiányos, logikátlan.
* A témában a legígéretesebbek még az open source eszközök. Igen pont az open source eszközök. pl.: Talend. Na nem mintha annak memóriaigényén, bugmentesítésén ne lenne például faragnivaló.


Majd ők megmutatják

Csaba elmondása szerint ők csak dolgozni akartak eredendően, eszükben nem volt újat írni. Meg is vizsgáltak (kimértek) néhány eszközt, megpróbáltak többükkel eredményt elérni, de számukra fontos dolgokban korlátokba ütköztek. Ennyi rálátásom még nekem is van a Sztaki-tevékenységekre (korábbi évekből), hogy ezt kívülről érkezve validáljam magam is.

Mindazonáltal a "majd ők megmutatják"-ban sem látok kivetnivalót. Hiszen a végtermék hitelesít úgyis.


Több év alatt írtak egy egygépes(!), "jól skálázódó" eszközt

Ezt sajnos nem tudom tárgyilagosan elemezni, érdemi információk hiányában.

Nem tudom miért írod az "egygépes"-t. Legalább csak a mérések párhuzamos környezetet igényeltek. Vagy te résztvettél benne, és konkrét infóid vannak?


A mi adóforintjainkból

Nem szeretnék politizálni pláne ezen a blogon nem. De ezzel a felütéssel ugyanúgy nem értek egyet, mint a "lélegeztetőgép-valutával".

Aztán én biztos nem érzem magamat hivatott személynek arra, hogy eldöntsem, hogy mely témákkal érdemes vagy nem érdemes mennyire foglalkozni, Még a magam számára sem tudom eldönteni, hogy például egy SVM-paraméterezésbe, mennyi időt lenne ildomos feccölni. :)

Sztaki meg ráadásul nemcsak adóforintokból él, hanem kőkemény piaci versenyző, ráadásul tudtommal meglehetősen "vastag ceruzával". Magyarán e nélkül éhen halnának.

Ha meg csak a szakmát nézzük, ifj. Benczúr András meg Lukács András személye számomra igazi garancia a minőségi munkára, megújulásra. Tudnék ellenpéldát mondani, az egyetemi szférából.


2013-mat írunk, nem baj

Én egy jó ETL-eszköznek 2015-ben is tudnék örülni. ;)


Open source-á tették, mert manapság az a trendi..csak minek...

Ezt az ellenérzést viszont sehová nem tudom tenni. Kicsit olyan nekem (extrapolációval), mint "adakozott az árváknak a szemét".

Mi baj van avval, hogy open source-szá tették. Örüljünk neki, ez semmit nem von le az élvezeti értékéből, sőt. Ha nem lenne Knime/RapidMiner/Weka, most is tízmilliókért lehetne csak adatbányászkodni.

Külön érdemes összevetni a "mi adóforintjaink"-ellenérzéssel. Pont hogy visszaosztottak valamit a közösség felé általa. Nem pedig "sales"-osztályt hoztak létre, gigantikus overheadet generálva. Lásd még idevágóan, hogy a tudósok által írt cikkek csak nagy nehezen lassan férhetők hozzá szabadon az őket támogató közösség számára.

2013. november 21., csütörtök

Tableau: Lehet-e egy vizualizálás "lassú"?

.
Bizony lehet - mily meglepő... ;) A dolog háttere, orvosságai viszont nem egyszerű topik.

Az én tapasztalatom szerint az üzleti userek, perdöntően nem szeretik az SQL-t, viszont tetszőleges mennyiségben szeretnek kattingatni. Nem véletlen, hogy annó SQL-alternatívaként létrejöttek különféle query-builderek, amik elfedték az SQL-t a felhasználó elöl, és megadták a kattingatás élményét.

Én mindig is nagy ellensége voltam ezeknek a query-buildereknek (ahogy szerintem az sql-ezni szeretők többsége is), mert általában éles környezetben sok adatra elengedett összeklikkelgetett query-k finoman szólva sem voltak optimálisak, súlyosabb esetben kvázi felsírt a szerver a végrehajtás során.

Ami még ezt is überelte, amikor "drag and drop"-pal tudtak valami soseem lefutó kifagyáshoz vezető csodát összehozni, teljesen torz szemléletet kölcsönözve az egész témának, hamisan értelmezett "ügyfélért mindent" elv alkalmazásaként. Ebben a műfajban a legelviselhetetlenebb szoftver az Oracle Discoverer volt.

Külön "szép" az idevágó Oracle Exadata sztori, ami úgy rettenetes pénzbe kerülő, hogy a problémakört nem oldja meg, csak egy kicsit jobban lazít a tárgybeli szorításon. Tipikusan az az út, amikor gondolkodás/tervezés helyett ablakon lehet kidobni zsákszámra a pénzt, vitatható megtérüléssel.

Volt olyan munkahelyem, ahol egyenesen tiltották is ezeket az adhoc összeklikkelgetett lekérdezéseket. Az a felhasználói kívánság még vágyálom, hogy ne kelljen foglalkozni ilyen aspektusokkal, csak csinálja meg a gép - és persze gyorsan - amire szükség van.



Na most a Tableau-ban is van ilyen eldugott query-builder, kerülöm is saját munkám során. ;) És ha van ilyen, akkor ebből a tényből triviálisan következik, hogy van ügyfélpanasz arra, hogy "lassú a Tableau".

Szegény Tableau két rossz között választhat: egy rossz és egy még rosszabb között. Elviseli igazságtalanul a vádat, hogy ő lassú lenne (ráadásul "gyorsuló idő" közepette), noha csak azt csinálja, amire utasítják. Vagy pedig lebeszéli a usereket az észnélküli adhoc lekérdezés-klikkelgetésről, potenciális ügyfeleket veszítve.

A poén az, hogy a Tableau-ban egy II.generációs intelligensebb query-builder van. Magyarán lehet úgy kattingatni az adatoforrások között, hogy okosabb kattingatáshoz gyorsabb vizualizálás tartozhat. Mit is jelent ez?

Például vizualizálás elötti adatforrás-definiáló "kattingatáshoz" érdemes tudni
- Hogy számít a filterek sorrendje.
- Hogy érdemes contextet használni, hogy ne full táblás joinok legyenek szűrések elött
- Hogy érdemes nem denormalizált táblákkal dolgozni (súlyos distinctes allekérdezéseket feleslegesen generálva), hanem a dimenziókat rendesen behúzni.
- Hogy nem mindegy live-e az adatkapcsolat.
- Hogy érdemes riportálási adatpiacra rácsattani, lényegesen jobb felhasználói élményért.
- És itt egy szót sem szólva olyan lehetőségekről, hogy szerver odlalon meg lehet nézni a Tableau által kigenerált SQL és végrehajtási tervét. Pedig mekkora okosság ám ez.

És akkor ezek csak a kattingatós trükkök. Most képzeljük el,hogy mennyivel jobb eredmény/feeling érhető el SQL segítségével. ;)

Esetem egy éles MapReduce projekttel

.
Ha életemben valaha is volt értelme annak a mondásnak, hogy "betévedtem, mint Pilátus a krédóba", az a minapokban esett meg velem. :)

A munkahelyem jelmondata, hogy "lehetetetlent is megcsináljuk, az elérhető legjobb piaci áron".

Na ez személyes életemben úgy csapódott le, hogy megnyertem egy angol nyelvű szövegbányászati (méretesebb) projekt projekttagságát (szerencsére immáron már múltidőben), amiről némi ügyféloldali agilis kapkodás után kiderült, hogy mindent kell csinálni, csak éppen szövegbányászatot nem, mert ahhoz tilos hozzányúlni, fekete dobozként funkcionál (hiába, rossz, többtíz gigabyte nagyságrendben helypazarló, brutális többnapos futási idejű, nem szabványos custom hackelés az egész).

Cserébe amit kellett csinálni, ott minden, de tényleg minden vadonatúj volt számomra, nulla felkészülés idővel, hatalmas időnyomással. Még az iroda is (bővülés miatti átépítés),meg a projektteam is.

- Git. Sose volt dolgom vele eddig. Eddig például egy Subversionbe könnyebb volt életet lehelni, meg könnyebb is volt a munka vele, kétség nem férhet hozzá. De el kell ismerni, a Gitnek is megvan a maga létjogosultsága, mégha a szívás most perpillanat több is volt vele, mint megérte. ;)

- Olyan statisztikai modellekről, amik arcus sinust használnak, még csak hallani sem hallottam korábban. Bevallom lestem, mint Rozi a moziban, és a tátott szájam sehogy sem tudott becsukodni, mert a reverse engine-je a dolog értelmének túl nagy kihívás volt számomra. ;) Az biztos, hogy statisztika témában is látnivalóan van fejlődési potenciál, személyes perspektívámat illetően. ;)



- MsSql 2012. 6-700 MB vastag kliense kevéssel marad el az Oracle mögött, méretben legalábbis. ;) Elég jó a a kappott felület, de lenne még mit hegeszteni rajta. ;)

- Talend (opens source ETL), ráadásul v5.3 enterprise verzióval, aminek már van komolyabb  MapReduce támogatása
 
- Datastax Cassandra (értelmezésemben egy ipari hulladék NoSql adatbáziskezelő). Félreértés ne essék, amire kitalálták jó, csak ne kelljen benne értelmes táblát létrehozni, mert összezagyválja a mezősorrendet, amit nem hagy sehogy se befolyásolni a user által. Nemkicsit hajmaresztő ez nekem a XXI.században.

- Teammunkás, Netbeans-es Java-fejlesztés. Nagyon kellemes eszköz ez a Netbeans, csak a legjobbakat tudom mondani róla. Egy élmény benne a Java-fejlesztés.

- Időnyomásos agilis módszertan (sose csináltam korábban, abban látatlanban biztos voltam, ultrabrutál kegyetlen nagy marhaság tud lenni, ha rosszul csinálják). Ráadásul - ügyfél által megkövetelten - a vonatkozó manifesztum értelmében nulla projektdokumentálással, 100%-os szóbeli kommunikációval. Én értem, hogy mindent az ügyfélért, de, hogy ezt nem tudtam egészségesnek látni, az is biztos.
 
- Hive (fékezett habzású SQL-származék). Eléggé funkciógazdag, szépen dokumentált is, Java-ban könnyedén lehet UDF-et (=User-Defined Function) írni. De a performanciája az finoman szólva is hagy maga után kívánnivalót. Maradjunk abban nem Oracle-ekvivalens. ;) Nem véletlen, hogy a Pivotal One nekifeküdt a témának, és Hawq néven fejleszt egy jóval gyorsabb verziót.

Ennek a projektnek köszönhetem az SqlDbx-re való rácsodálkozásomat. 
Ez egy pici, C-ben írt, single exe, SQL Front-Endre. 
Imádnivalóan gyors, használható
Pont mint a Tableau, aszimptótikusan nullához kovergáló overheadet rak az SQL-végrehajtásra. 
Egy másik szimpi tool  - AQT (=Advanced Query Tool) - nagyságrendileg 10x lassabb végrehajtási/megjelenítési időket produkál.
Döbbenetesen stabil a működése, például egy Squirel+Vectorwise kombóhoz képest.
Minden ODBC SQL-adatforrást meg tud hajtani, a standard adatbázisokon felül, így Hive-ot, Cassandrát, Vectorwise-t. 
Personal Edition-je ingyenes, ráadásul. 
Erősen ajánlott eszköz, nézetem szerint.
 
- Éles map-reduce programozás. Hiába írtam már korábban (demo)Map Reduce kódot, itt a blogomon is korábban említett "Data Science" kurzus keretében: az életben és élesben azért "kicsit" más a történet. ;)

Az mindenesetre szimpatikus volt, hogy brute force Map Reduce mindig működőképes (0 MAP-fázis, 100% Reduce-fázis). Nyilván minél több minden tud MAP-be kerülni,annál jobb lesz a performancia.

A másik fontos észrevétel: nem szabad beeröltetni mindent egyetlen MapReduce-ba. Kellhet particionálni a problémateret.

- Kézműves módszerekkel optimalizált SQL2MapReduce "konverzió": 

A Hive-os SQL-ek, mint említettem egyrészt lassúak voltak, másrészt üzleti igény volt, hogy csak prototípus-készítésre (kommunikációra) volt használható, éles production környezetben 100%-ban ignorálni kellett. Ez magával rántotta azt a feladatot, hogy sql2mapreduce konverziót kellett csinálni. 

Na ettől a konverziótól eléggé megrémültem, amikor először szembesültem vele, de aztán nagyon megszerettem. De csak teoretikus alapon.

Na ezt megmagyarázom. :)

Van egy szenzációs, friss (2012-es) szakkönyv:

Ez a könyv egyrészt nagyszerűen érzékelteti, hogy micsoda erő van a Map Reduce-ban, nem véletlen a robbanásszerű terjedése, másrészt sokmindenre kiterjedően ad recepteket, mozaikockákat, amikből építkezni lehet (sajnos csak elvben). További adalék,hogy hihetetlen nagy optimalizálási tartalék van a témában.

Eddig a lelkesedésem. :(

A gond az, hogy a HDFS-olvasás, kegyetlen lassú, brutálisan erőforrásigényes művelet. Nem is értem miért, hiszen semmi nem indokolja. Hawq-nak lesz lehetősége megtalálni a piaci rést ;) 

Ez a tény egészen egyszerűen kinyírja, hogy design patternek szerint építőkockákból építkezzünk, Mivel minimalizálni kell a HDFS-olvasást, így übtre vonódnak össze mapreduce kódok. Amik egyre áttekinthetetlenebbek, kevésbé módosíthatók lesznek, miközben bármikor jöhet üzleti igény, ami miatt át kell szabni a Map Reduce-olást. 

A komplexitás exponenciálisan nő, egyetlen szempont/KPI (performancia) tragikusan alacsony értéke miatt. Tiszta deja vu érzés, mintha optimalizált befaragott assembly programot akarnnánk lépten-nyomon team-munkában módosítgatni, majd újraoptimalizálni. 

Ne haragudjon meg rám a világ, de ez nekem nagyon nem tetszik. Amikor olyan programozási nyelvcsodák vannak, mint Ruby vagy Scala, ne menjünk már vissza 20+ évet, hogy ki tud olvashatatlanabb kódot írni versenyekbe. ne menjünk vissza már a programozás Proterozoikum korába. ;)

Breaking News: Kijött a Tableau v8.1

.
Kijött a Tableau v8.1 :)

Letölthető a doksi is, és egy újabb hiányosság pipálódhat ki. Kisebb lett 866 oldal, 1.000 oldal helyett (redundanciák remélhetőleg kevesebben vannak), illetve szervezettebb, és olvashatóbb lett. Az R integration-t viszont first look-ra nem találtam. :(

Ígéret szerint van már full 64-bit. fel is raktam. 420 MB a tárfogalalása (v8.0-nak csak 300 MB volt). Kulcsot nem kér pluszba, de regisztrálni kell.

Ígéret szerint van benne R Integration.
Íme alul a gyönyörűségesen szépségesen szép képek
1.K-Means
2-3. Outlier-analízis.
Na innentől klasszikus értelmet nyer a Visual Data Mining És meglehet a Datameer-típusú versenytásaknak is fel van adva ezáltal a lecke.
;)

.






Tableau: ETL-Monitoring GANTT-diagramon keresztül

.
Egy érdekes tárgybeli éles projekt DEMO-verziójának leírása következik alább, természetesen anonimizált adatokkal, de meghagyva az "éles kontextust".

FELADAT: 
Adva van egy ETL-eszköz (egyébként TALEND), ami mindenféle job-ok révén adatot tölt adatbázisokba.

LEÍRÁS, SCREENSHOT-okkal :
Miért érdekes a téma, hogy blogposztot szánok neki?
- Mert megmutatja (szvsz) a vizualizálás hihetetlen erejét: komplex Tableau-kalkulációk, dashboard, action filter, minden haladó üzleti intellgiencia hókusz-pókusz NÉLKÜL is.
- Mert ingyen (hiszen lehet-e létezni Tableau nélkül egy enterprise kategóriájú business-ben :), pár kattintással, sok embernek ad konszenzusos információt.

Adatokról:
- Vannak tehát JOBGROUP-ok
- Amik futásilag elindulnak (opcionálisan periodikusan)
- Kézzel vagy automatikusan
- Hétközben vagy hétvégén
- Tartanak valameddig
- Van nekik státuszuk
- Van nekik futási idejük
- Végül, de nem utolsó sorban vagy teljesítik az SLA-t (=Service Level Agreement), vagy nem.
- Futó JOBGROUP-ok esetén meg különböztetődnek az "in progress" meg "pending" job-ok. Az előbbi jó ("futhat"), az utóbbira lehet, hogy rá kell nézni. Minden JOB-nak van előélete (futott már korábban), ha vesszük a MAXIMÁLIS futásidőt, ezt szorozzuk egy konstanssal (pl.: 0.9-cel), akkor ez lehet egy küszöbérték, ami alatt "in progress", ami felett "pending"-nek vesszük az adott JOBGROUP-ot.

Mikor "jó" az ábránk, értve ezalatt, hogy a menedzser nyugodtan issza meg a kávéját, miután rátekintett.
- Minden automatikus JOBGROUP elindult
- Lefutott
- Sikeresen futott le minden
- Nem volt megelőzően sikertelen futás
- Belül van a futás vége az SLA-nak
- Futó JOBGROUP, ha van akkor "in progress"

Az igazi "real-life" projekt persze komplexebb volt:
- Voltak JOB-ok, JOBGROUP-okba szervezve (hierarchikusan)
- Voltak fontosabb és még fontosabb JOB-ok/JOBGROUP-ok
- Volt, hogy ebédtől(12:00) ebédig is kellett ábrázolni a napokat.
- Voltak effektív hibaüzenetek
- Voltak contextek
- A TALEND-logokat előemészteni, adatgazdagítani kellett
- stb.
Nem lehet célom a teljes projekt bemutatása egy ilyen blogposztban, még ez a maximálisan könnyített verzió sem lesz rövid.


1.
Ahogy megbeszéltük az elején, van egy kész "DEMO" adatforrásunk, a szükséges adatokkal (esetünkben 80.000+ rekorddal)
.


2.
Nézzünk bele az adatokba.
Rögtön az első oszlopnál (day_of_week), a WE(=WeekEnd) mutatja, hogy az adott nap hétvége-e.
A start_hours_minutes a 4:30-at 4.5-re konvertálja (60-as számrendszerről 10-esre áttérés)

.


3.
"Start Time" oszlopot konvertáljuk "CONTINUOS-ra"
.


4.
Ugyanígy az "End Time" oszlopot is konvertáljuk "CONTINUOS-ra"
.


5.
Válasszuki a "GANTT-diagrammot".
Az elképzelés az, hogy a vízszintes tengelyen lesznek a napok, függölegesen az órák [0-24]
Lesznek téglalapocskáink a  töltésekre (adott napon mettől meddig tartott egy töltés)
.


6.
Vonszoljuk fel drag and drop-pal a  "COLUMNS"-ba, a "DIMENSIONS"-ök közül a "DAY_OF_WEEK"-et. A színe automatiksuan kék lesz a "DIMENSIONS" miatt.
.


7.
Ugyamígy vonszoljuk fel a "ROWS"-ba a "MEASURES" -k közül a "START_HOURS_MINUTES"-t. A színe automatiksuan zöld lesz a "MEASURES" miatt.
.


8.
Mivel a "START_HOURS_MINUTES"-t measure-ként ismerte fel a Tableau (ennek aggregálási hátrányaival), konvertáljuk DIMENSION-né.
.


9.
Vonszoljuk a "MESSAGE_IMPORTANT_JOBGROUP"  dimenziót a "COLOR"-ra (ott balközép tájon).
A dimension-név mellett megjelent a jellegzetes, "COLOR"-specifikus ikon.
Nyilván szinesben szeretnénk látni, hogy sikeres-e vagy sem egy JOB-futás.
Kezd alakulni a vizualizációnk, megjelentek a várva-várt téglalapocskák, ráadásul színesen :)
.


10.
A Tableau default-ban "ZÖLD"-re rakta a "sikeres"-ket (ami jó), de a "sikerteleneket" "KÉK"-be. Ezért az utóbbi módosítsuk "PIROS"-ra
.


11.
Ki kell jelölni a "FAILURE"-t, majd lehet a "PIROS" négyzetre klikkelni.

.


12.
Rögtön jobban elüt a sikeres töltés a sikertelentől :)
.


13.
Vonszoljuk fel a "DURATION_IN_HOUR" measure-t a "SIZE"-ba.
Nyilván egy téglalap annál hosszabb. minél tovább tartott a futás idő.
A measure-név mellett megjelent a jellegzetes "SIZE"-specifikus ikon.
.


14.
Formázzuk meg a függőleges tengelyt.
.


15.
Ne automatikus legyen, nem szimpatikus értékekkel
.


16.
Hanem "FIXED", elvégre egy napban mindig konstansan 24 óra van. :)
.


17.
A skálázás se default automatikus legyen
.


18.
Hanem félórás léptékű.
Ez még nem túl sok, de már elég finom felbontás
.



19.
Gyönyörködhetünk a frissen elkészült függöleges tengelyben.
.


20.
Jöhet a vízszintes tengely
Én elfordítottam "ROTATE"-tel 90%-kal a napokat (default beállítással szemben), hogy több napot lehessen egybe látni.
Mivel a napok végén van a "WE", ha hétvégére esik, így azonnal szembeszökik, hogy melyik nap hétvége.
Nyilván kérdés, hogy a WE hol mutat jobban, a dátum elején (szintbehozva a dátumokat) avagy a végén. Ez ízlés kérdése, nekem így tetszett jobban :)
Nyilván szebb lenne, ha a tengelyen szinezni lehetne a napokat, de ez kulturáltan nem kivitelezhető a Tableau jelenlegi 8.0-s verziójában. Valami ígéret van, hogy 8.1-ben lesz előrelépés ez ügyben is.
.


21.
Most már jöhet a diagram formázása.
.


22.
Nyilván szeretnénk valamiféle GRID-et, hogy jobban vezetődjék a szemünk.
A gridnek van vonaltípusa, vonalvastagsága, vonalszíne.
Külön felhívnám a figyelmet, hogy ezt a várakozásokkal ellentétben, nem a "GRID"-ikonra kattintva lehet beállítani, hanem a "LINES"-nál ;)
.


23.
Egyre inkább alakul :)

.


24.
Természetesen (quick)filterek nélkül nem élet az élet.
Vonszoljuk fel az "IMPORTANT JOBGROUP"-ot a filterek közé
Válasszuk ki a "USE ALL"-t (hogy mindenből lehessen választani)
.


25.
Majd pipáljuk be a "SHOW QUICK FILTER-t"
.


26.
Lám jobb oldalon megjelent a kívánt quick filter. :)
.


27.
Helykímélésből nem ismétlem meg a screenshot-okat
A további mezők quick fitleresítése ugyanígy megy.
- MANUAL_OR_BATCH_PID
- MESSAGE_IMPORTANT_JOBGROUP
- IS_SLA
stb. (igény szerint)
.


28.
Quick filtereknél  lehet állítani, hogy "ONLY RELEVANT VALUES".
Ennek az az értelme, hogy mivel minden mindennel összefügg, lehet, hogy egy kattintás nyomán nem lesz az ábrán minden lehetséges érték - például csak sikeres futások találhatók adott kontextusban. :)
.


29.
Hátravan a téglalapocskák  "TOOLTIP"-ezése
Ehhez elsőként a megjelenítendő adatokat vonszoljuk a "DETAIL"-be.
Elsőként az IMPORTANT_JOBGROUP-ot
.


30.
Majd:
RUNNING_TIME_WO_DAYS (00:00:00 formában mutatja a futási időt)
START_TIME-ot
.


31.
YEAR(START_TIME) defaultot , állítsuk "EXACT DATE"-re.
.


32.
Ugyanígy az END_TIME-nál is, ismételjük meg ezt.
.


33.
A TOOLTIP-re kettőt kattinva, notepad-szerűen szerkeszthetjük a TOOLTIP-et
.


34.
Sőt meg is nézhetjük "PREVIEW" -val mit alkottunk.
.


35.
Így néz ki a TOOLTIP élesben
.


36.
Mivel előbb-utóbb több napnyi adat lesz, mint ami egy képernyőre kifér, célszerű állítani, hogy csak az utolsó X nap látszódjék
.


37.
Ezt kell állítani hozzá
.


38.
És készen vagyunk.

Nyilván egyéni ízlés szerint lehet finomhangolni vizuális elemeket, egyebeket.
Az én főnököm például jobban szereti a rádiógombokat, míg én meg a checkbox-okat szeretem jobban, stb. :)
Vagy lehetne vízszintes referenciavonalat húzni az SLA-hoz, például reggel 8:00-hoz
A lényegen ez már nem változtat. ;)

Mit látunk?
Bár korábban volt rendesen sok piros, mostanra normalizálódott a helyzet, egyre több a zöld, egyre kevesebb a piros téglalap. Ráadásul mindegyik ugyanakkor indul automatikusan, nem kézzel kell hackelni, hibalehetőségekkel. Sőt a még a futási idők is hasonlítanak egymásra.

Mire nem jó egy vizualizáció ugye :)

.



Eddigi TABLEAU-blogposztjaim:
2013.06.17 - Data Science: Tableau-feladatok
2013.06.22 - Tableau: Egy vizualizációs stratégia lehetséges szubjektív sarokpontjai
2013-07-05 - Tableau: Mindennapi örömök
2013.07.09 - Tableau: Eset a NEM-létező egzotikus nagygépes adatpiaccal
2013.11.16 - Tableau: Aktuális Pros/Cons egyenleg
2013.11.17 - Tableau: Text Table  

Ha valakinek még nincs meg a Tableau-szoftver, miközben szeretne engedni a birtoklási csábításnak, az alábbi mail-címen egy kedves, fiatal, aranyos kolléganő igyekszik hatékony és konkrét eszközök segítségével ápolni minden Tableau-vonzatú kapcsolatot. Illetve biztos segít optimális árat találni a termékhez vezető rögös úton. :)
hello@tableausoftware.hu