Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. november 16., szombat

Tableau: Aktuális Pros/Cons egyenleg

.
Megpróbálom lajstromolni tárgyilagos, független szemmel a Tableau előnyeit-hátrányait prioritásilag csökkenő sorrendekben, később meg karbantartani.

Előre szólok, nagyon nagy az anyag....


ELŐNYÖK:


* Nagyon gyors, mind adatkezelésében, mind vizualizáció megjelenítésben. Annyira gyors, hogy még cachelés sincs benne. ;), köszönhetően, hogy natív C-ben íródott.

* Gyönyörű, szintén köszönhetően, hogy natív C-ben íródott. Az én felfogásomban, minden Java-s cuccot megelőz ebben a két első szempontban.

* "Big Data kompatibilis". Lásd Földi Tamás (Starschema fejlesztési vezető) legutóbbi Budapest BI fórumos prezentációját: "300 millió rekord adatok fénysebességgel, virginai Vectorwise-szerverről, interneten keresztül, 1 másodperces lekérdezésekkel"

* Reális árú.
Idetartozik, hogy használható még a a free-verzió is (nem átvágás).
Míg a nagy tudású  desktop-verziót Magyarországon van, aki 1.600 USD-ért is meg tudta venni. Azaz durván nettó 320.000 forint. Verhetetlen technológia, megfizethető árral.
Az enterprise árszabás már nem tartozik ide, de az külön történet.

* "Funny" használni. Ennek van árnyoldala is: addiktív eszköz, bele lehet feledkezni, a világ minden ideje is kevés lehet hozzá.

* Közel 40 adatforráshoz kapcsolódás lehetősége.
Plusz ODBC (alig van már olyan, hogy valaminek nincs ODBC-je, még HIVE és CASSANDRA is elérhető vele).
De ha nincs ODBC, akkor ODBC-JDBC gateway-jel JDBC-s adatforráshoz is lehet kapcsolódni.
Olyanról meg aztán végképpen nem hallottam, hogy valamihez se ODBC, se JDBC ne legyen, sőt Tableau-ból se legyen elérhető.

* Adatpiacépítéssel nagyon szépen bővíthető a Tableau saját ökoszisztémája. Azt gondolom, hogy adat szinten kvázi nincs olyan feladat, amit ne lehetne Tableau alá pakolni. Ami korlát van, az mind magában a Tableau vizualizálási folyamatban van.

* Közvetlen SQL-ezés remek lehetősége, még egy szimpla Excel állománynál is.
Nem mondom, hogy teljes kiszerelésű, de használható annyira, hogy a hátrányok között ne említsem a fapadosságot.

* SQL-be átvehetők Tableau-s paraméterek.

* RAWSQL, csak szerveroldalon létező SQL-funkcionalitás hívásának lehetősége. De megemlíthető az is, hogy gazdag a kalkulációs választék. Nem nagyon van olyan, hogy ami megy Excelben, az nem megy Tableau-ban, a fordítottja sokkal inkább életszerű :)
Igaz az Excel-ben lehet VBA-zni, amit a Tableau-ban nem. :(

* Data Blending lehetősége. Közvetlen use case, hogy vállalati adattárház nem feltétlen tartalmazza a legfrissebb adatokat, legfrissebb piackutatásokat. Így egy heterogén adatforrásból rágörgetve a plusz adatokat egységesen kezelhető az egész cucc a Tableau vizualizálási folyamatban. Én érzem a technológia túlragozásának veszélyeit, de nem akarok ünneprontó lenni evvel most.

* Hatalmas piros pont a saját fileformátum okos tervezéséért.

- TWBX=Packaged Tableau Workbook (amiből eXtractolni lehet infókat)
Ez egy síma zip, ami tartalmazhatja többek közt a
(1) TDE-formátumú adatforrásokat(2) XML-formátumú "vezérlést", valamint opcionálisan
(3) Segédállományokat, például képeket.

- TDE=Tableau Data Extract. Ez egy  proprietary bináris fileformátum, ami a legtömörebben tárol (COLUMN-STORE DATABASE koncepciónak köszönhetően), hiszen manapság háttértárról olvasni a legköltségesebb művelet (netes fel-letöltögetésekről már nem is beszélve), szemben a processzor és memóriaműveletekkel (lásd RDBMS-ekben is a tömörített táblatereket vagy egyenesen a columnar-oriented DBMS-eket). A nevezetes Bird Strikes Access-ben 105 MB, CSV-ben 71 MB, Excel-ben 56 MB, TDE-ben 20 MB. Azért érezzük át egy pillanatra ennek kiemelt piros pontos jelentőségét.

* Van a TDE-hez hozzá kultúrált programozói API is. Mivel proprietary bináris a fileformátum, így a lényegi funkcionalitást DLL-ekben kapjuk. Sajnos csak befele irányban, kifele nem. Ez utóbbi nagyon durva hátránya egyébként.

* Megjelent a Tableau az akadémiai/egyetemi szférában.
Csak amiről én tudok: Prekopcsák Zoltán

* Elég jól és olvashatóan dokumentált, az egész ökoszisztéma átlátható: van egy 1000 oldalas publikusan letölthető PDF Manual, ~70 db Advanced Techniques Guide, ~50 db Webinar, fórum, community.

* A Free Tableau-használat, 1GB adatig szabad vizualizálás

* Fejlődő funkcionalitású "enterprise sclability"

* Működő progressbar. Ne becsüljük le a jelentőségét. Nem triviális implementálni, ezért szeretnek róla elfeledkezni, hanyag módon megcsinálni.

* Nagyon gyors, ergonomikus install-folyamat

* Felhőben, oktatási folyamat részeként jól használható (saját tapasztalat, Coursera Data Science kurzus)

* Külön is kiemelve, hogy natív C-ben íródott, azon céllal, hogy tudjak vastagítani. :)

* Mobilplatform aspektusokat nem vagyok hajlandó tárgyalni, annyira távoláll tőlem világnézetileg, annyival izgalmasabb topikok vannak. ;) Számomra ez egy tipikus pótcselekvés és bullshit melegágy, ami elodázza csomó lényeges kérdés megválaszolását.



HÁTRÁNYOK:


* Nálam a legeslegnagyobb fekete pont, hogy TDE-re  nincs ODBC, sőt nincs semmilyen API az adatok (pl.: kalkulációk) kinyerésére. Az adatok demokratizálásának, meg self-service égiszei alatt nehéz túlbecsülni ennek jelentőségét.

* Ráadásul, tudván-tudom, hogy ha nehézkesen is, de elérhető a TDE-adatok kívülről is, viszont keresztbefekszik ennek publikálásának a Tableau cég, mondván, hogy a licence feltételek reverse-engine korlátozásába nem fér bele. Ritka barátságtalan gesztus a cégtől. Adatok demokratizálásának kerékkötése ez.

* "Natív" text tábla megjelenítésének baromi nehézkessége. Volt olyan megkeresés - nálam személy szerint -, hogy ultra-brutál jó a Tableau, meg minden, de egy táblát hogy mutatok meg szimplán. Az a mondás, hogy a Tableau nem erre van. De érezzük át, hogy ez nem egy szimpatikus mondás!
A data view-gridben sem select-oszlop sorrendben jelennek meg az adatok
A munka-régióban sem lehet akárhány oszlopot felsorolni.

* "Oracle APEX analógia", az első lépések nagyon egyszerűek, gyorsak, látványosak, beetetősek. A profi (érdemi) munkához viszont már "exponenciálisan" göröngyös az út. Nagyon nehéz minden "bitet" uralni/kontrollálni benne.
Több éles Tableau-projekt után ki merem jelenteni, hogy a tanulási görbéje kihívásokkal küzd. ;)

* Nagyon nehéz rendesen megtanulni a Tableau-t, egyáltalán kérdezni Google-ban bárhol (megfogalmazás szinten). Nincs olyan mint a programozóknál, hogy "reference guide" vagy "kulcsszavas keresés".
Egyáltalán belőni, hogy mit lehet és mit nem a Tableau-ban.
Lehet, hogy egy egész élet is kevés hozzá? ;)
Amúgy meg eszi az ember idejét rendesen a Tableau-val való foglalkozás. ;)

* A Manual lehetne sokkal jobban szervezett, bővebb illetve kevesebb redundanciát tartalmazó, ha már 1000 oldalas.

* A dashboardok, sheetek lehetnének jobban szervezettek. Egy lehetséges eljárás, hogy két sorban jelennének meg (nem keveredve), vagy valamiféle hierarchiába zárva

* Biztos van akinek fáj, a Linux-támogatás hiánya, de, hogy 64-bites Windows sincs natívan támogatva, az nekem kicsit durva (v8.0-ban csak 64-bites TDE-engine van, illetve a programozói API is ennek megfelelően lehet 32- és 64-bites).
Mondjuk ez a "részelegesség" v8.1-re változni látszik, a béta program alapján, azaz készül a teljesen 64-bites Tableau Desktop is. :)

* Self-service BI centrikusság, meg "adatok demokratizálása" irányába elviszi a gondolkodást, például a collaboration - gondolkodás - szerintem - helyes irányának kárára. Nagyon nehéz párhuzamosan dolgozni egyetlen vizualizáción.

* Nekem nagyon fáj, hogy nincs programozási lehetőség (kvázi makró rögzítés, és olvasható Visual Basic szerű kód, settingekre, klikkelés-sorozatra, stb). Borzasztó nehéz reverse engine-lni egy vizualizációt, reprodukálási céllal. Ami azért is nagyon gáz, mert vizualizáció alatti adatforrás bővítés/csere távolról sem triviális mutatvány.

* Nincs meg a lehetősége teljes vizualizálási kontrollnak, nem uralhatók a bitek. Nem tud mindent a Tableau. Ha van egy dátum tengelyem, szeretném beszínezni a dátumokat aszerint, hogy hétvége-e vagy munkanap, nem tehető meg kulturáltan, csak hackeléssel és nem szépen. Workaround van persze, de könyörgöm szép vizualizálásról beszélgetünk a Tableau kapcsán. ;)

* Caching hiánya. ami elvezet a felhasználók felfelé skálázásának problémájához is, internetes környezetben. Egy Microstrategy előrébb tart a témában.

* TDE-knél a 2GB limitet nagyon, de tényleg nagyon nehéz kinőni, de akkor is hátrány, hogy ilyen alacsonyan van, indokolatlanul.

* Visual Data Mining inkább csak adatfeltárás szintjén mozog, az is max 7-8 változó egyidejű kezeléséig (mert ab ovo nehéz a vizualizálásuk), ráadásul jelentős manualitás igénnyel. Pedig feature-selection-t, klaszterizálást, döntési fákat, logisztikus regressziót, ajánlórendszeres aspektusokat, szívesen vizualizálna az ember, interaktívan. Ezekből egy Datameer, már ma is nemkeveset támogat.

* Az enterprise árszabás már közel sem olyan barátságos, mint a személyes használat. Ezt tekintve lehetnek jobb választási alternativák: Datameer, Karmasphere, Platfora, horribile dictu D3.js

* Az  enterprise scalability bőven tudna még nagyon hová fejlődni. Nincs verziókövetés, érdemi collaboration-támogatás, account+password felhasználó oprendszerre hárítódik teljes egészében. Nincs ugye caching, stb.

* A tól-ig dátum slider-ből nem vehető át paraméter SQL-be. Nem igazán értem miért.

* Adatfrissítés szimpla refresh-sel nem mindig kivitelezhető, van amikor drasztikusabb "szálljunk ki szálljunk vissza" módi kell.

* Group by-os dolgok kezelése eléggé korlátosak. Nem túl jelentős dolog, mert adatpiacépítés szintjén támogatható a funkcionalitás, ezért is hagytam a legvégére.


UPDATE v8,1ß (2013-11-16):


* A fenti hátrányokból egy-kettő megszünni látszik, remélhetőleg a közeljövőben :)

- 64-bit Windows teljes natív támogatása, ugye.

- R-integráció. Ez egyre inkább elvárt és kötelező mutatvány. Szerencsére. :) Ezzel javulhatnak a faltól-falig Visual Data Mining esélyei. :)

- "Start of week support". Lehet, hogy mégis fog menni a dátumos tengelyen a hétvége/munkanap kulturált megkülönböztetése

* SAP-BW táblák TDE-be olvasása.
 


Zárszóként elmondanám, hogy nálam pozitív az egyenleg (súlyozott összegzés után), illetve a hátrányok bőven leküzdhetők, fejlesztői jóindulat esetén.

Illetve nagyon szerettem volna a Tableau VizQL-jének erősségét valamiképpen minősíteni, de ehhez egyelőre még kevésnek érzem magamat.


Eddigi TABLEAU-blogposztjaim:
2013.06.17 - Data Science: Tableau-feladatok
2013.06.22 - Tableau: Egy vizualizációs stratégia lehetséges szubjektív sarokpontjai
2013-07-05 - Tableau: Mindennapi örömök
2013.07.09 - Tableau: Eset a NEM-létező egzotikus nagygépes adatpiaccal
2013.11.16 - Tableau: Aktuális Pros/Cons egyenleg
2013.11.17 - Tableau: Text Table

Ha valakinek még nincs meg a Tableau-szoftver, miközben szeretne engedni a birtoklási csábításnak, az alábbi mail-címen egy kedves, fiatal, aranyos kolléganő igyekszik hatékony és konkrét eszközök segítségével ápolni minden Tableau-vonzatú kapcsolatot. Illetve biztos segít optimális árat találni a termékhez vezető rögös úton. :)
hello@tableausoftware.hu

Nincsenek megjegyzések:

Megjegyzés küldése