Társblogon jelent meg minap az alábbi blogpost. Engem például megmozgatott elgondolkodásilag.
Adatbányászati szoftverek rangsora
Az alábbi felmérés volt a kiindulási alap:
Adatbányász eszközök
A felmérés torzított/manipulatív voltát pillanatra félretéve, ami nekem eszembejutott, hogy az open source eszközök között az R számomra meglepően erősen szerepelt avval, hogy ezüstérmes lett Én értem, hogy a statisztikai szoftverek vonalán az R régóta, nagy kiterjedésben, jó minőségben tud megjelenni, de adatbányászati eszközök oldalán nekem akkor is meglepetés. Ráadásul a KNime tartalmaz R "csatolót", ahogy Wekásat is.
A RapidMiner elsőségét értem, én azt gondolom "legbiztonságosabban" (legkevésbé félrevivően benne lehet adatbányászkodni, open source-éknál)
Az Excel-t is érteni vélem, bár itt gondom van az Excel közismert méretbeli korlátaival.
A "saját kód"-ot is értem, pláne az open source vonal ilyetén előretörését látva.
Az ilyen felmérések értékelésekor nehéz elszakadni annak firtatásától, hogy kik milyen noszogatások hatására kezdenek el klikkelgetni, azt azért én például gondolom, hogy az open source vonal látványos előretörése talán nem véletlen. Érdemes lehet belegondolni, hogy mi mellett, mi ellen, hányan lépnek fel.
Nyílván jó eséllyel nem cserélték le a kockázatkezelők mondjuk a SAS-os szoftvereiket például KNimére, de azért az mozgosítható erővel bírhat, hogy mind az IBM/SPSS, mind a SAS erősen túlárazott feelinget árasztanak magukból, miközben az open source eszközök egyre csak izmosodnak.
Erre kaptam a blogon Körmendy Gyuritól (SPSS Hungary) egy ellenvetést:
...de különben azért illik a szoftverekhez hasonlítani a nyugati üzleti DM elemzők fizetését:
Én azért vitatkoznék avval, hogy a fizetések hogyan miképpen játszanak bele a "túlárazásos" történetbe.
Én azt mondom, ha egy OLAP-ról lenne szó akkor jogos bevonni a (nyugati) fizetéseket, hiszen az alapvetően az üzleti szféra technológiája, ahol jóval kiegyenlítettebbek a költségviszonyok a szűk spektrum miatt.
Az adatbányászat (elemzés), viszont tudhat a tömegek sportja is lenni, hiszen az élet majdhogynem minden területén hasznosítható (széles domain-spektrum). Ha innen nézzük, akkor meglehet elhanyagolható azon adatbányászok mennyisége, aki 100.000 usd felett keresnek évente. (És persze az ő környezetükben nyílván nem probléma egy SPSS licence megvétele.)
És akkor hadd adjam már ki azon mérgemet is, hogy míg a SAS és IBM/SPSS itthon tudtommal nyugati áron árulja termékeit, addig az itteni fizetések távolról sem ostromolják az évi 100.000 USD-t.
Végezetül pár szó a túlárazásról. Számomra túlárazás fogalma nem akörül firtat, hogy mennyire reális piaci árat határoz meg a gyártó, hanem, hogy mennyire 'magyarázható/védhető' (mezei user által) a piaci árrés, amit a gyártó érvényesíteni akar a méltányolható költségei levonása után. Én azt mondom mind a SAS mind az IBM/SPSS szerintem - főleg ilyen válságos időkben - helytelenül alapvetően "elitizáló" szoftvert értékesít, szűk rétegnek, indokolatlanul magas egységáron.
Tény hogy az SPSS eszközéhez szemben a SAS-éval könnyebben fér hozzá itthon az átlag honpolgár, de attól még az ára túlságosan magas, szvsz. És tartok tőle az IBM-akvizició nem lefelé fogja elmozdítani az árakat.
UPDATE-1.
Mondjál légy szíves a Mercédesztől a Milka csokiig bezárólag bármit, aminek az ára alacsonyabb a szegény káeurópaiaknak! Miért lenne olcsóbb?
Sajnos ahogy nézem az eloszlásokat a kdnuggetsen, egyátalán nem elhanyagolható a 100k-t kereső adatbányászok aránya (az USA-ban). De ott sem ők fizetik a licenszet, hanem a cégük. A cég pedig megoldást vásárol, aminek része -egyebek mellett- a szoftver és az elemző is.
Különben mindkét szállító töredékáron adja a termékeket a felsőoktatásnak. Pl. az SPSS a nyugati akadémiai áraknak is a töredékéért. Mielőtt bevádolnál, hogy persze ez a beetetés, azért halkan hozzátenném, hogy nem 1-2 oktató használja pénzkeresetre is hébe-hóba ezeket a licenszeket, amire az akadémiai ár (duplán) nem vonatkozna. Hogy ezzel a piackutatói, statisztikai és dm szakértői piac árait verik le? Welcome to Hungary!
Az árképzésnek egyébként egy fogkefe esetén is csak hozzávetőleges köze van az előállítási költséghez. A szemét gyártó célja a haszon és a bevétel maximalizálása. Vajon tizedáron lenne 10x ennyi Clementine user?
A tömegek használhatják az egyre szuperebb Rapidminert, aztán majd kiderül, hogy az "elitgyártók" nem esnek-e a saját üzleti modelljük csapdájába. Addig azért érdemes megkérdezni a Raiffeisent, hogy mi van a matlabos, (meg talán R-es?) cuccokkal?
Mondjak valami olcsóbbat, ami itthon jobb árcédulájú, mint kinn? Hát például a lejárt szavatosságú szemét, amit nem vesz fel kinn a piac. ;) Tudom nem erre gondoltál, meg igazad van, hogy az SPSS nem ugrik ki negatívan az átlag hozzáállásból, az a baj, hogy annyira pozitívan sem (az én olvasatomban). ;)
Az viszont engem speciel taszít (mint jelenség) ebben a "piacgazdaságban", hogy az árszínvonal nyugati, a bérszínvonal meg keleti, megfejelve a magyar bürokráciával, korrupcióval és adózással. Érdekes módon a multik a bérekkel tudnak alkalmazkodni a helyi viszonyokhoz, csak a termékek áraival nem.
Nyílván nem feltétlen az adatbányász fizeti a licencet. Én is arra gondoltam, hogy ahol a 100.000 USD-s bért ki tudják gazdálkodni, ott a licence-t is ki tudják gazdálkodni. Hozzáteszem nem minden szkepticizmus nélkül vagyok ez irányba, de ez messzire vinne, így nem ragozom tovább.
Ez a felsőoktatás szerintem nem jó példa. Például az általad említettek miatt sem, meg amiatt sem, mert tipikusan mézesmadzag feelingje van. Bemutatja az SPSS, hogy milyen remekül lehet a Clementine-nal dolgozni, ami amúgy egy percig sem volt sosem kérdés, aztán a diák kikerül a nagy világba, és kis túlzással, ha nem biztosítóhoz vagy bankhoz kerül, nem fog legálisan látni Clementine-t. Lásd még elitizálás.
Az hogy az egyetemi oktató "fusiba" is használja a Clementine-t, arra én azt mondom, hogy tegye, ismerve az itthoni átlag oktatói bérviszonyokat és hozzá a potenciális tudást. Ez szerintem az SPSS sales-ének a problémája, hogyan menedzseli a (engedés, tiltás, üldözés, stb.)
Azt gondolom mindig is nehéz volt egy szállítandó projekt árképzése. Ha elszakadunk az adatbányászattól, akkor egy komplett Oracle-s projektet meg tudhat valaki csinálni számla nélkül pár tízezerért míg az Oracle Hungary napi 2-300.000+ ÁFA per fő költséget számláz. A problémakör szerintem kivezet az átalam firtatott "túlárazás" témából. De lehet, hogy nincs igazam. :)
"A szemét gyártó célja a haszon és a bevétel maximalizálása." Ezzel nincs is baj. A baj csak az, ha ez az _egyetlen_ célja. (Az én felfogásomban)
A "túlárazás"-os soraimnál a legelején direkt írtam, hogy nem a reális piaci ár firtatására gondoltam. Azt sem nem tisztem, nem is értek hozzá, pláne nem vagyok üveggömb jós, hogy mi mire lesz jó. Azaz egyetértek, majd a jövőben fog kiderülni, hogy mennyire veszít a Clementine és nyer az open source tért.
Kiegészítés csak itt (ami még eszembejutott):
A Raiffeisenes dologhoz információ híján nem tudok szólni, az megy hogy tizedannyiért tízszer több értékesítés tartozhat-e az hasonlatos probléma ahhoz amivel a mostani Orbán kormány küzd, hogy mekkora adócsökkenéshez mekkora adóbevétel tartozik. Ez nagyon nehéz kérdés szerintem, én biztos nem fogom egy mondatban itt megválaszolni. ;)
UPDATE-2.
Gáspár-Papanek Csaba 2010.06.12. 12:18:10
Örülök, hogy ilyen heves vitát váltott ki a posztunk, kellenek szerintem az ilyen szelepek, ahol kibeszélhetjük ezeket a kérdéseket.
Az árazással kapcsolatos gondolatokhoz egy másik aspektust is hozzátennék: korábban többször jártam úgy, hogy hosszas egyeztetés után azért bukott el a pilot projektünk elindítás, mert a szoftverlicenszek ára elijesztette a megrendelőt. Mióta azonban megjelentek az open scource megoldások, azóta ez a kérdés megoldódott. Hozzá kell tennem, hogy ezek az eszközök gyakran sokkal mélyebb technikai/adatbányászati ismereteket követelnek meg a használójától, jobban képzett illetve nehezebben elérhető munkaerő kell ahhoz, hogy azt használni lehessen, sokkal kevesebbet lehet rábízni a megbízónál már meglévő munkaerőre (Egy SPSS Modeler elé leülve intuitív módon meg lehet tanulni a szoftver használatának alapjait, ezt egy RapidMiner esetén már jóval kevésbé javaslom bárkinek is)
Ilyen értelemben az open scource világ egyik ígérete, hogy olyan helyeken is el lehet kezdeni dolgozni, ahol eddig a magas induló költségek miatt nagyon rizikósnak tűnt az új adatbányászati megoldások bevezetése. Lényegében az alkalmazási terület szélesedését várhatjuk ezektől a technológiáktól. Ezt a tendenciát az is erősíti, hogy az open scource megközelítés miatt könnyebb illeszteni ezeket az eszközöket a már kialakított rendszerekhez.
Az akadémiai szférának adott kedvezményes árakra szükség van. Az eddigi kedvezményes árak megengedték, hogy mi a saját tanszékünkön a SPSS Modelert/Clementine-t és a SAS/SAS Enterprise Miner-t is biztosítani tudtuk (MSSQL szerver és az Oracle adatbányász funkciói az egyetemek számára ingyenesen elérhetők.) Mivel azonban ilyen beszerzésekre állandó pénzforrásunk nincsen, ezért néha nehézségek vannak az utánpótlásban. Ha ugyanis az egy hallgatóra jutó éves adatbányászati licenszárakat kiszámoljuk, akkor egyértelműen látszik, hogy veszteséges az oktatási felhasználása ezeknek az eszközöknek. A korábbi megoldás az volt, hogy különböző K+F projektekhez vásároltuk meg a licenszeket, ezeket használhattuk oktatásra és kutatásra egyszerre. Ilyen lehetőségből ma már egyre kevesebb van, és az akadémiai szférában ezen a területen jelentős konkurenciát jelentenek az open scource megoldások is.
A vendorok és az egyetemek közötti megfelelő együttműködés kialakítását pedig akadályozza az a félelem, hogy az oktatók visszaélnek a kapott licenszekkel. Nem sok példát ismerek erre, de ezeket az ügyeket nem szokták kirakni a kirakatba. A kérdéskört egyszer jó lenne kibeszélni egy kávé mellett, szerintem az SPSS Nyári Iskolája például jó alkalom lehet majd arra, hogy erről is beszélgessünk.
Remek konklúziója a remek postnak a társblogban. :o) Nincs mit hozzátenni.
Nincsenek megjegyzések:
Megjegyzés küldése