Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. június 22., kedd

Collective Intelligence in Action

Ha már egy szakmai levlista, aktuális threadjének apropóján megemlítettem, akkor ide is beszúrom a (be)futó gondolataimat; gyarlón áldozva a redundancia oltáránál. :)

Milyen megoldást lenne a legcélszerübb használni csak szöveges adatbázisok esetén?

Az egyik probléma a méret, egyrészt milliárdos rekordméretek lehetnek, másrészt ez nagy tárhelyet is igényel. Ez utóbbira azonnali ellenérv, hogy tömöritve kerülnek tárolásra, de nem láttam erröl statisztikát vagy tapasztalati beszámolót, hogy milyen mértékben csökkenti a tárolási kapacitást.

A másik probléma az indexelés, mert értelemszerüen ABC sorba rendezett rekordokról van szó. Ugyanakkor valódi indexelésre van szükség, a "teljes szöveges keresés" és a mesterségesen 255 bájtokra darabolt szöveg indexelése nem jó, szavakra, söt kifejezésekre kell indexelni.

További jellemzö az, hogy ritkán, de akkor nagy tömegben kerül sor adatok bevitelére, majd esetenként újabb mezökre, oszlopokra lehet szükség az újabb definiciók, tartalmi meghatározások érdekében.

Tudom, ezek nem azok a szempontok, amelyek a "hagyományos" adatbáziskezelök esetében felmerülnek, ezért kérdezek ezen a listán.

Az első gondolat a szakirodalomé, pláne, hogy létezik magyar nyelven, elérhető, és korszerű könyv a témában:
Szövegbányászat

milyen mértékben csökkenti a tárolási kapacitást.

Szövege, meg nyelvezete válogatja (így nehéz egyetlen adatot mondani), magam részéről láttam már 90%-os taposású 10%-ra (ráadásul meglehetősen gyorsan) összenyomott TXT-t, de símán lehet ez az összenyomás 30-50% is csak. Azonban tisztán kell látni, hogy két (részben antagonisztikus) dolog mentén kell optimalizálni a gyártóknak/fejlesztőknek (erőforrásminimalizálás, elérésihatékonyság-maximalizálás)

a "hagyományos" adatbáziskezelök

Én azt gondolom, hogy az Oracle, iparági standard a témában (és hozzá eléggé elterjedt itthon is), ami a táblatér-tömörítéstől meg speciális feladatot jól támogató filerendszerektől, a magyar ékezethelyes rendezésen át, az SVM-es szövegbányászatig mindent lefed, jó minőségben. Két probléma lehet vele: (1) ár, azaz köznapian szólva megéri-e, (2) szövegeknél fontos magyar nyelvi specifikumokkal kapcsolatos gondok (pl.: Oracle*Text).

Az nem kérdés, hogy akár Oracle, akár nem, mind a strukturált rész, mind a nem strukturált rész tervezése külön tervezést igényel, a közös részek figyelembevételével. Alapvető fontosságú, hogy kettő "balansza" hogyan alakul, szélső esetekben, nem strukturáltakból kell kvázi 100%-ban strukturáltat előállítani avagy 100%-ban nemstrukturált adatokról van szó a projektben. De persze mixed modell is bőven lehetséges.

sufni-tuning lehetőség

Nyílván egy államigazgatásban, bankban, biztosítóban, stb. nem jön szóba házi barkácsolás, de adott esetben létezik költségkímélő (konkrétan nulla forintos) oprendszer szintű szolgáltatás okos felhasználása; compressed file/folder/partition például a Windowsokban. Érdemes lehet tesztként egy teljes Oracle HTML-formájú help-et (nagyon jó teszt-referencia egyébiránt is, szvsz) compressed és uncompressed folderben megnézni tárfoglalásilag. Meglepően jó a tömörítési hatékonyság, miközben performancia szempontból kvázi teljesen transzparens a tömörítés. Mondjuk milliárdos rekordszámnál (brute force esetben) egy NTFS szerintem kezét feltéve megadja magát. ;)

magyar nyelv nehézsége

Az én tudtommal a legteljesebbkörű készen meglévő _magyar_ megoldás az a kereskedelmi Clementine Text Mining /1 db - amúgy a feladathoz akár elégséges - licence kb. 5 milla + ÁFA, de szívesen veszek bármilyen infómódosítást, pláne árcsökkenést :o))/. Angol nyelvterületen ráadásul van open source lehetőség is (Knime, RapidMiner)-kiegészítő modulok. Amiket persze lehet 'magyarítani' közösségi felhasználásra. ;)

Zárógondolat: projekt költségvetés tervezésekor érdemes pontosan felmérni, hogy milyen készen vásárolt eszközök mennyibe kerülnek pontosan és a bennük lévő fukciók alternatív házilagos lefejlesztése mennyibe kerül, és ekkor milyen előnyekkel meg hátrányokkal lehet számolni. Ez távolról sem lefutott pálya, szvsz, ahol könnyedén lehet ökölszabályokat mondani. Azaz a két véglet (open source/free funkcionalitások integrációja valamint teljes vertikumú kereskedelmi termék vásárlása) között többféle lehetőség van.

Kiegészítés:

Az imént futottam bele, az alábbi ígéretesnek tűnő, friss kiadásúnak mondható, 400+ oldalas, angol nyelvű könyvbe, ami egy informatikusnak különösen szimpatikus szakkönyvkiadó, közismert remek sorozatának darabja, némileg azért (számomra) meglepő módon. Szemet gyönyörködtető számomra, ahogy összeérnek a világban egyes - itt most külön nem részletezett - történések. ;)

Manning: Collective Intelligence in Action



WHAT'S INSIDE:

* Architecture for embedding intelligence in your application
* Developing metadata about the user and content
* Gather intelligence from tagging and build tag clouds
* Introduction to intelligent web crawling and Nutch
* Harvesting information from the blogosphere
* Build a text analysis toolkit leveraging Lucene
* Business intelligence and data mining for recommendations and promotions
* Leveraging open-source data mining toolkit WEKA and the Java Data Mining (JDM) standard
* Incorporating intelligent search in your application
* Building a recommendation engine—finding related users and content
* Real-world case studies of Amazon, Google News, and Netflix personalization.

2010. június 17., csütörtök

Digitális "New Age" tízparancsolata

.
Szenzációs előadás (tartotta: Douglas Rushkoff) ismertetői jelentek meg a neten, a tárgyban, szvsz. Pár napja volt itt Pesten a rászervezett rendezvény, 10.000+Áfa beugróért, tisztán angol nyelven, értelemszerűen.

Még akkor is jogos lehet a szenzációs jelző, ha érezhető fordítási nehézségekkel kellett megküzdeniük a cikkíróknak. (Számomra érthetetlen, hogy a "bias" miért nem a kézenfekvő "zaj"-ként értelmeződik, vagy a "komplexitás redukciója", miért olyan problematikus, stb.)

Programozz, vagy beprogramoznak
Program or Be Programmed
Digitális kor tízparancsolata
HVG-cikk fura címmel ("Aki ma nem programozó, az programozva van")

01.
Ne légy folyton bekapcsolva
Az emberi szervezet inkompatibilis az új média aszinkron típusú rendszerével, mégis egyre több időt töltünk mobiltelefonálással, sms-ezéssel, internetezéssel.

02.
Az életet meg kell élni, ott, ahol éppen van az ember
Bár eleinte úgy tűnt, hogy az internet a televízióval ellentétben összeköti az embereket egymással, erről szó sincs, ha az ember a való világbeli kapcsolatok rovására folyton sms-ezik és fotókat küldözget. Még szörnyűségesebb, amikor negyven diák ül egy tanteremben, mindegyikük egy számítógép előtt, és virtuális konferencián vesznek részt a Second Life-ban. Ez nem más, mint az új média fetisizálása.

03.
Nincs semmi baj, ha semmit nem választasz
A legtöbb online szituáció nem más, mint döntések sorozata, de ez nem az internet természetéből fakad, hanem a programozók miatt van így. A társkereső szájtokon..., ha van olyan opció, hogy „egyedülálló, és társat keres”, meg olyan, hogy „házas”, akkor miért nincs olyan, hogy „házas, és társat keres?

A döntési lehetőségek sokszor nem jelentenek valódi választást: McCain vagy Obama? Windows vagy Macintosh? Coke vagy Pepsi? Ezek nem valódi döntések, nekünk meg el kell fogadnunk, hogy a nem választás nem egyenlő a halállal – ellenkezőleg, ez maga az élet. Konkrét példa a számítástechnikából a „snap to grid”, a rácshoz igazítás: az igazítandó objektum vagy itt van, vagy ott van. De az élet nem ilyen, mert az élet gyakran az itt és az ott között zajlik.

04.
A netre a „komplexitás redukciója” jellemző
A Google-ön végzett keresés valójában egydimenziós keresés, nem a vizsgálódás valódi útja, hanem arra a módszerre hasonlít, amikor a horgász bedobja a horgot, és kihúzza, ami fennakadt rajta.

A Wikipedia is elfogult, mert a hagyományos, évezredes tapasztalatokon és tudáson alapuló taxonómia helyett a folkszonómiára hagyatkozik, az alulról felfelé történő információmegosztásra, ráadásul elfogult az újdonság iránt, aminek az lesz a vége, hogy elveszítjük apáink és anyáink generációk alatt felhalmozott tudását.

05.
As above not so below
A hermeticizmus egyik alaptételét, a Hermész Triszmegisztosznak tulajdonított „as above so below”-t fordítja ki.(Az indexes cikk itt a makrokozmosz és a mikrokozmosz egyenlőségét emeli ki, szerintem helytelenül -> ezért hagytam meg az angol eredetit)

A vállalkozások elsősorban a növekedéssel vannak elfoglalva, míg korábban a fenntarthatóság volt a legfontosabb. El kellene viszont fogadnunk, hogy nem minden növekszik vagy növelhető – a család, az iskola vagy a gondolatok ellenállnak a növekedésnek. Maga a skálázhatóság ugyanakkor jót tesz a közgazdaságnak, a génkutatásnak vagy a csillagászatnak, de a nagy növekedésmánia azt jelenti, hogy a belső, lényegi érték járulékos értékké válik. Erre példa a hypertext, amelyben a hivatkozások száma lesz a lényeges a belső értékek helyett.

06.
Az interneten ne légy anonim, hacsak nem egy iráni háborús övezetben tartózkodsz.
Gondolkodj csak el azon, amikor utoljára anonim módon megnyilvánultál a neten. Konstruktív volt? Produktív? Az identitás kötelezettséggel jár; az anonimitás biztonsággal. Egy kutatás szerint a netező gyerekek hajlandók online bevallani a hibáikat, de soha nem kérnek bocsánatot.

07.
Ne add el a saját barátaidat
A „content is king” (a tartalom a király) helyett az új jelmondat a „contact is king”, vagyis hogy a kapcsolat a király. Alapvetően nem is a social networkinggel van a baj, hanem azzal, hogy a közösségi szájtokat üzemeltető cégek monetizálják az emberi kapcsolatokat, és értéket nyernek ki valamiből, ami szent.

08.
Mondd meg az igazat
Kell hogy legyen valami igazság abban, amit csinálsz.

09.
Oszd meg, ne lopd el
A médiaguru nem ért egyet sem a Lessig-féle Creative Commons által propagált szerzői jogi rendszerrel, sem azzal, ahogy a Google információt és ezzel értéket nyer ki a neten fellelhető információból. A megoldás a tizedik paracsolat.

10.
Programozz, vagy téged programoznak be
.
.
UPDATE-1.
Mailben befutott hozzászólás:
A bias-t mi is mindig indexes módra fordítottuk az egyetemen azon az órán, amit angolul hallgattam, nem magyar előadótól.

Lehet, hogy nincs igazam, de én nagyon nem vagyok kibékülve az indexes cikkíró anarki idevágó cikkbeli soraival, legfőbbképpen mert csomó minden keveredik -> csak a két végletről megemlítve Shannon információelméleti munkásságát (digitalizálás, kódolás, stb.), illetve a média emberekre gyakorolt rossz hatását (ami sokszor túlzott egyszerűsítésekben manifesztálódik). Magyarul fennáll a kérdés, hogy miből mit vezetünk le, és az indexes bekezdésből ez nem derül ki, csak valami homályos katyvasz (szvsz)

Ha én a magam számára próbálnám a kérdést végiggondolni, akkor azt gondolom az emberi gondolkodás egyszerre él az általánosítás és a specializálás eszközével, már a számítógép elötti időkben is(!) És igen, a túlzott általánosítás, vezethet túlzott egyszerűsítéshez. De hogy ezért a szegény kettes számrendszer lenne a felelős, azt azért kétlem. Egysezrűen más-más szint/minőség a kettő.

Számomra a "bias" azért "zaj" elsősorban, mert a gigantikus bithalmazban, ami minket körülvesz (ha már kettes számrendszer a kiindulópont), egyes biteknek sokkal nagyobb fontossága van mint másoknak, amik adott esetben szűrnivaló zajok csupán. Mindenféle "részrehajlás" egy sokkal magasabb szint jellegzetes fogalma, szvsz.

Azaz disztingválni tényleg szükséges lehet, de nem mindegy milyen "ideológiai" alapozással.
.
UPDATE-2.
Mailben befutott hozzászólás:
* Nem értem, miért mondja, hogy tanuljunk meg programozni... Nem értem, mit akar azzal mondani, hogy valaki vagy szoftvert ír, vagy ő válik szoftverré...
* A választási lehetőségek nem valódisága pedig eddig is fennállt. Nem biztos, hogy meg kell kérdezni, hogy "házas, és társat keres"
* "a Biblia nem más, mint használati utasítás egy civilizációhoz,..." Azaz, a Biblia is értelmezhető sokféleképpen, egyéntől, társadalomtól függően....
* Úgy gondolom, az embernek segítség, és valóban hátrány is lehet egy eszköz (pl. telefon) Minden eszközt tudni kell helyesen használni. Óriási segítség tud lenni, és zavaró tényező is a valóság megélésében. Egyszerűen meg kell találni az egyensúlyt.
* Bizonyos szintig pedig valóban összehoz, és azután távolít el... (ismerkedés egy új formája, viszont, ha az így marad, akkor nem adott semmit, Nyilván ki kell mozdulni, és folytatni az elkezdett kapcsolatot személyesen)
* Nem értettem a wikipédia részt. Mi vele a baj?! Én úgy gondolom, amira készült arra igenis jó. Azaz, ha hirtelen nem tud valamit az ember, előhúzza, és elolvassa, mit ír. Olyan, mint egy lexikon. Azt is tudni kell használni, és érzékelni, hogy mire alkalmas. Ha ezzel tisztában vagyunk, akkor szerintem nincs semmi gond.
Nem hiszem, hogy a generációk alatt felhalmozott tudás elvesztésének a wiki, a net lenne az oka... ez jóval összetettebb kérdéskör.
* A 6. és 7. pontokkal abszolút egyetértek, nincs hozzáfűznivalóm.
* Adalék a "Ne add el a saját barátaidat" témához: Facebook 800 millió dollárja
* A 9.-hez lenne kérdésem, hogy: "médiaguru nem ért egyet sem a Lessig-féle Creative Commons által propagált szerzői jogi rendszerrel," nem ismerem, nem tudom mit takar, mit akar vele mondani...

Ez a "programozz vagy téged programoznak be" az én olvasatomban hasonló gondolat ahhoz, hogy ne készen vegyél mindent aztán dobd ki a kukába, hanem te csináld meg. Ne McDonaldsban egyél, hanem főzzél, ne tévén nézd meg feldolgozva, hanem olvasd el az alapművet, stb. IT-n belül azt jelentheti, hogy a kész eszközök, kész funkcionalitások adott esetben nagyon lekorlátozzák az embert, az innovációs lehetőségeket. Adatbányászatban ez különösen igaz lehet, gondolok itt például egy Netflix-versenyre. Másik oldalról közelítve, ez a felszólítás nem mindenkinek szól. Csak annak például, aki habozik a programozás mellett vagy ellen.

A választási lehetőségek (hiánya) nekem (is) kedvenc vesszőparipám, már ezen a blogon is említettem. Amikor feleletválasztós kérdőívet töltetnek ki az emberrel, akkor egyrészt marha sok hülye kérdésre kell válaszolni, másrészt az ember valódi - pláne megosztani kívánt - mondandójára meg nem kérdeznek rá. Ezt úgy szokták például jobb helyeken feloldani, hogy adnak helyet kötetlen szabadsoros "szövegelésre" is a kérdőíven (szövegbányászok legnagyobb örömére). Az előredefiniált kérdőív, (az én meggyőzödésem szerint) túlságosan prekoncepciós, és ezért az eredmény torzított. Elegáns és kényelmes, de sokszor félrevivő, mert a kérdőív-készítő szakmai kvalitásain múlik perdöntően a kérdőív hasznossága. Az én véleményem az, hogy a kérdőíves kutatás az egy komoly szakma és még mindig van benne bőven fejlődési tartalék, elnézve az elkövetett hibák mennyiségét és súlyát.

A Bibliának nem kell nagy jelentőséget tulajdonítani ennél az előadásnál, szvsz. Keresett a szerző-előadó egy biztos magyarázási támpontot a saját "parancsolataihoz". ;) Egyébként, szvsz, kontextusilag jogos észrevétel mind a szóbeliségről írásbeliségre való paradigmaváltásszerű áttérés említése, mind a véletlenszerűség, zavarosság kontra rend említése (mint potenciális analógia).

Az egyensúly megtalálása nehéz dolog. Főleg, ha kevés előnyhöz sok hátrány tartozik, vagy ha az alapértelmezések például nem jók/helyesek (lásd Facebook).

A Wikipédia legnagyobb hátránya a szerző előadó szerint (az én olvasatomban), hogy alapvetően ujdonságokra fókuszál (mivelhogy ugye a mai kor embere írja), miközben elvagyunk árasztva újabbnál újabb lényegtelen és még lényegtelenebb dolgokkal, amit az agyunk egy idő után képtelen befogadni. A régi eszenciális tudás (lásd még polihisztorok), az meg egyre csak veszik el. Szakmák halnak ki, erdők-mezők virágait és gyógyhatásait felejtjük el, stb. Tudunk-e létezni bekapcsolt számítógép nélkül?

"Creative Commons" -> Ez szerzői jogba vág, külön nagy téma. Itt egy mondatban nem nagyon esélyes bármi érdemlegeset mondani. A szerző-előadó érzékeli a szerzői jogi problémákör (visszásságai)t, de azt mondja nem ez a Creative Commons a jó válasz rá, mert hogy az értékeinket csak meg kéne mégiscsak becsülni.
.
UPDATE-3.
Pörög a téma, lehet, hogy beleütközünk majd valamiféle blogpost-limitbe? ;) Mailben befutott újabb hozzászólás:
* Egyszer telefonon válaszoltam egy kérdéssorozatra. Már nem emlékszem, milyen jellegű volt, de nem volt túl komoly, mert akármire nem válaszolok, viszont ehhez volt akkor éppen kedvem. A tesztben háromszor tették fel ugyanazokat a kérdéseket, természetesen más-más megfogalmazásban. Persze észrevettem, és érdekes volt, ugyanis volt egy kérdés, amire nem tudtam egyértelmű választ adni, és ez a további két esetben is így volt, mondtam is, hogy ez ismét ugyanaz a kérdés, amire nem tudom a választ....

* Én úgy gondolom, hogy nem kimondottan a számítógép, internet az oka, hogy az ember egyre inkább elveszti azokat az ismereteket, amiket az őseink hagytak örökül. Ez sajnos a civilizáció, a túlzott városiasodás következménye is. Az emberek próbálnak ellene tenni, mert kezdik felismerni ezt, de épphogy ebben talán inkább segít a net, mert egyre többen próbálják megosztani ezirányú gondolataikat itt a hálózaton, azaz ismét összegyűjtik a hagyományokat, a régi "polihisztori" tudást....
Amúgy pedig kérdés, mennyire szükségszerű, vagy lehetséges egyáltalán a polihisztorság... amikor már bizonyos szakmák olyan mértékű részletekbemenő tudást igényel, hogy sokaknak elég azt megtanulni, egyre kevésbé lehet sokmindenhez azonos mértékben érteni.
Az pedig, hogy tűnnek el szakmák, egyértelmű, hiszen változik az életvitel: a patkolókovács már nem mindennapi szakma, a falu szélén nem megtalálható, viszont van helyette benzinkút, tehát tűnnek el régi dolgok, és keletkeznek újak.
.
Az egy másik trükk a kérdőíveknél. Próbálják feltérképezni mennyire konzisztens az ember saját magával. Mennyire megalapozott és erős a véleményed az adott (többször ismételt) kérdésben. Amúgy nekem a halálom: nagyban hozzájárul ahhoz, amiért utálom a szerkesztett kérdőíveket kitölteni. ;)

A másik témát illetően mindig azt szoktam mondani, hogy a ma tudósa egyre többet tud egyre kevesebbről, és a folyamat végén mindent fog tudni a semmiről.

Az a baj az én olvasatomban, hogy túlpörgött létezésünkben gigantikus információhalmaz vesz minket körül és hiába nagy része szemét/zaj, még így is sok minden értékes benne és sokkal több, mint egy-egy ember be tud fogadni csak az őt érdeklő témákban is. Nyílván jó, hogy van net és segít az elveszett tudás ápolásában, az a baj, hogy egyre nagyobb hányadban jön elő a rossz/a zavar, ami ezt a jót eljelentékteleníti: felborul az egyensúly, dominálni kezd(het) a hátrány. Az iwiw-en is lehet akár olymódon többszáz kapcsolata valakinek, hogy közben magányos, ami ugyanarra a szindrómára vezethető vissza: az emberi agy nem képes többszáz kapcsolatot 'menedzselni', tömegméretben tutibiztos nem. Nem kell velem egyetérteni, de én azt gondolom, hogy a ma emberének az agya túl van terhelve, és ráadásul nemcsak jó dolgokkal. Evvel összefüggésben értek mélyen egyet a wikipédiás gondolatmenettel a kérdéses "parancsolatban".

A tudás mint tudjuk nemcsak információhalmaz, sőt elsősorban nem az, ez csak a mennyiségi része (telefonkönyvet is be lehet magolni, és bár elismeréssel adózunk a vonatkozó teljesítményért, nagy tudásnak mégsem aposztrofálnánk ezt). A tudásnak van minőségi része (például mi lényeges mi nem, melyik információ hogyan kapcsolódik a másikhoz, az új információ hatékony beintegrálása stb.) és az az ami a pusztuló tendenciákban egyre nehezebb reprodukálni.

Ami meg a régi dolgok eltűnése és új dolgok születését illeti, arra én azt gondolom, hogy a ma embere rettenetesen ki van szolgáltatva például a számítógépnek, az elektromos áramnak, egyáltalán az energiának. Borzasztóan sérülékeny lett az ember, sőt egyre inkább válik egyre nagyobb méretekben egyre sérülékenyebbé.

Mint tudjuk az internet skálafüggetlen hálózat, aminek jellegzetes tulajdonsága, hogy egyetlen vezeték átvágásával hatalmas részt lehet blokkolni (emlékszünk, amikor Dunántúlon vágtak át egy vezetéket egy pénteken pár éve, és az ország nagy része maradt internet nélkül?). Vagy tud az ember másképp is élelemhez jutni, mint hogy készen veszi meg a boltban? Vagy mennyire esik pánikba a víz vagy villany időleges hiányától (lásd USA korábbi néhány katasztrófahelyzetét)? Vagy ha pánik, akkor egy USA-beli Lehmann-Brothers tanulságos módon döntötte pánikba illetve nyomában gazdasági válságba (évekre) az egész világot.

Ma sok mindent veszünk temrészetesenek, és adja ég, hogy ez minél inkább így maradjon, de a sérülékenységet nem tudja leplezni, én legalábbis nem látok garanciát a dolgok ilyetén kőbevésettségére. A régi kor embere lehet, hogy 'primitivebb' szinten élt, de nem is volt ennyire kiszolgáltatott.

2010. június 13., vasárnap

Futball VB, 2010

.
Társblog megemlékezik a témáról (két másik téma mellett), így én is elméláznék pár sor erejéig a téma körül:

World Cup 2010.

Az elkövetkező négy hetet a futballvilágbajnokság témája fogja uralni, erre a hullámra minden cég marketingese fel szeretne ülni. Ebben az a vicces, hogy idén - részint a sohasem látott fogadási divat miatt - az adatbányászat is helyet kért magának. Egyre több helyen látok különböző programokat, elemzéseket, melyek a meccsek előrejelzésére tesznek kísérletet (néhány példa itt, itt, itt és itt). Kár, hogy csak négyévente lehet megnézni, hogy mennyire jók ezek a modellek...


Hát idevágóan sok sport-, sok játék- és csipetnyi szakmai észrevételt lehet tenni. :)

Ha idevesszük az EB-t is, akkor kétévente is lehet a témát körbejárni, nemcsak négyévente a VB-nél. :)

Ilyenkor - az én tapasztalatom szerint - lázas tippelőbajnokságok vannak szerte az országban. Munkahelyi, baráti közösségek raknak össze kis pénzalapot, hogy a nyertes aztán mindent vigyen.

Én azt a játékfajtát ismerem, hogy minden tippelő -> minden meccsre vagy előre az összeset, vagy időben folyamatosan meccsenként, egy-egy konkrét eredményt tippel. Ha az irányt eltalálja valaki az egy pont (ki nyer, vagy döntetlen), ha a pontos eredményt is eltalálja az három pont.

Én az életem során a 2004-es EB-t nagy előnnyel nyertem az akkori munkahelyemen (remek érzés volt :o), a 2006-os VB-t egy olyan srác nyerte nálunk, aki bár nem volt kötelező de _előre_ felírta a teljes táblát és úgy nyert nagy fölénnyel (68 pont), hogy mi fordulóról-fordulóra tippelve sem tudtuk megszorítani. Egy másik társaságnál is érdekelt voltam ekkor, de emlékszem nagyon csúnyán 'leszerepeltem'. A 2008-as EB emlékszem nagyon nagy izgalmakat hozott. És idén lesz az első, hogy nem vagyok érdekelt egyetlen tippversenyben sem.

Önmagában az egy érdekes szakmai kérdés, hogy várhatóan mennyi ponttal lehet nyerni egy ilyen 64 meccses VB-n. (Az elméleti maximum ugye 192 pont). Mennyi az "átlagos" pontszám, és mennyire könnyű véletlen tippeléssel akár 0 pontot összehozni. Végül, de nem utolsó sorban mennyire lehet megtámogatni ezt a játékot gépi algoritmikus módszerekkel: mit lehet benne modellezni, vagy éppen mennyire intuitív az egész.

Ami problémát én látok:

* Nagyon nehéz modellezés alapjául szolgáló információkhoz jutni. Hiszen olyan csapatok játszanak egymással a világ négy égtájáról, akik amúgy látni sem látják többnyire egymást.

* Mindenki úriember módjára kitér az olyan újságírói kérdés elöl, hogy mennyire baj egy-egy vis major, például ha egy kulcsjátékos sérülés miatt kiesik. Általában az a standard válasz, hogy az nem lehet baj, hiszen "nem egy ember játszik a pályán, hanem egy komplett csapat", meg "nincs pótolhatatlan ember" stb. A tapasztalat mégis az, hogy például egy Drogba nélküli Elefántcsontpart nyílván gyengébb, mint egy Drogbás. Az ilyen információkat össze kell tudni gyűjteni, és kellően kell tudni súlyozni az eredményes tippeléshez. És elképesztő játékosok estek ki sérülések miatt, a mostani VB kezdete elött is (pár nappal megelőzően).

* Fontos szempont lehet az előrejelzésnél, amit említettem is, hogy például egy VB-döntőre a résztvevők ismeretében (menetközben) vagy nélküle (előre) kell tippelni.

* Sajnos az előrejelzési pontosságnak óriási gátja (szerintem), mind a vétlen bírói tévedés, mind a szándékos csalás (lásd utóbbinál a 2002-es VB durva visszáságait). A véletleneket szinte lehetetlen, a (potenciális) csalásokat meg nagyon-nagyon nehéz modellezni.

UPDATE-1.
Gáspár-Papanek Csaba 2010.06.13. 11:52:17
Nagyon érdekelne, hogy mennyire ponstos előrejelzést adna a tippelők közössége. Ha meg tudnál figyelni nagy számú fogadást, akkor azokból is ki kellene rajzolódnia egy jó becslésnek az eredményre. Mondjuk egy webes fogadóiroda weblogja alapján szívesen játszanék ilyen fogadási játékot...

Én is azt gondolom, hogy ez az útja módja a dolognak a leghasznosabb a témában, amit te is írsz. Amikor én magam nyertem, pont ezt az utat jártam, pláne, hogy mivel sose nem is értettem a focihoz.

Ezzel csak egyetlen apró probléma van, hogy kezdetben, indulásnál nehéz tudni kik a jó tippelők és kik a rosszak. Amin ugye úgy lehet segíteni például, hogy baráti társaságnál rendelkezésre állhatnak az előző EB/VB tippszelvényei (és azok kiértékelései). :)) Most nem firtatva, de azért erősen idegondolva, hogy mennyire etikus ily módon megcélozni a közös díjalapot. Mindez egyébként elvezet a számomra oly kedves 'knowledge aggregation' témához is.

Ez egyébként alapvetően megválaszolja azt a kérdést, hogy hány ponttal lehet nyerni ilyen tippjátékon. Én azt mondom az lehet a valósághoz legközelebbi, amihez leginkább a korrelál "papírformaság". Magyarán, ha papírforma eredmények születnek, akkor magasabb ez a várható pontszűám, ha meglepetések születnek, akkor alacsonyabbak. Hasonlatosan a valódi totóhoz/tippmixhez ott is akkor van nagy nyeremény, ha a meglepetést találja el valaki jól.

UPDATE-2.
Mailben befutott hozzászólás:
Társblog hozzászólásait átemelni hozzád; így könnyű blogot írni. :)

* Totóban a 0 találatos nem inverz esemény (két kimenetel is segít a 3-ból.) - Elképzelhető, hogy díjazták, azonban kicsit furcsállnám. Megjelenhetne egy olyan játékoskör, aki pont erre játszik. Hogy osztod szét a nyereményalapot? (ez csökkentené az egyéb díjakat, ami némiképp hátrányos. Lottó is akkor fogy, ha 1mrd felett van az eredmény), magyarul nem érdek. (Kenó más ebből a szempontból, ott nem függ a kiosztott pénz a játékosok által feltett összegtől a kifizetés totalizatőr(?) vs .....őr játék két különböző játékszervezési stratégia.

* Hány ponttal lehet nyerni? - sztm. erősebben függ a résztvevők számától, mint a meglepetés/papírformától. Egyébként meccsszám körüli pontszámmal már jó lehetsz, nem?

Én értem a viccet! Csak nem szeretem. ;)
Most kezdjem el magyarázni, hogy így mailben érkezett hozzászólásokkal tarkítva a blogpost szövegezése már eltér a társblog hozzászólásinak csupasz kigyűjtésétől? Csak azért sem kezdem el ragozni. ;)

Ami az érdemi részt illeti, alapvetően jogosak az észrevételek. Természetesen a tökéletes tévedést könnyebb eltalálni a totóban, mint a tökéletes telitalálatot, mondjuk az 'inverz'-et idézőjelbe tettem. Igaz a 'komplementer' lehet, hogy jobb szó lett volna, bár ugye az is megtévesztő némileg. Viszont mindkettőnél tud(hat)ja mindenki mire akartam kilyukadni. ;)

Igen van a totalizatőri és van a bukmékeri típusú játékszervezés. Az előbbinél a résztvevő játékosok dobják össze a díjalapot, annak a jó nagy hányadát kapja le a Szerencsejáték Rt. (tudtommal mohóbban, mint szerencsésebb országokban). Ilyen a totó is. Míg a bukmékerinél a játékszervező a saját pénzét kockáztatja. Ilyen a kenó is mint most már kiderült.

Igen, Magyarországon orbitális szívás totózni, szerintem.
* Az internetes fogadások is terjednek és teret nyernek.
* Kevesen vagyunk népességben (fogyunk is).
* Anyagilag sem nagyon gyarapodunk, hogy ilyesmikre költsünk.
* Amennyire én tudom összesen párszázezer szelvényt értékesítenek, úgy hogy messze ez a legolcsóbb játék, régen 40, most már 50 Ft.
* A 13+1 konstrukció is szívás.
Nem akarok hülyeséget beszélni, de a német totó jóval kevesebb meccsből áll hetenként (+1 nélkül!) és hozzá persze jóval nagyobb díjalappal.

Abszolút jogos észrevétel, hogy így is nagyon kevés pénzt osztanak szét, így a nullás találatra már persze hogy nem jut értelmesen.

Hopp most látom a legfrissebb totónyeremények listáját:
Az utóbbi hetekben kétszer sem fizetett a 10-es, a kettővel ezelötti héten a 13-asra fizettek 24.000-et. Azt kell mondjam ez így eléggé szuboptimálisnak tűnik. ;)

Szóval lehet, hogy nem volt tökéletes a kenó-analógiám (játékszervezési szempont miatt valóban), de a 'nullás találat' említése miatt azért volt érdekessége szerintem.

A résztvevők száma, versus papírforma dologban viszont én nem értek egyet a magam részéről, de nyitott vagyok a meggyőzésre.
Előszőr is, ha a legjobb tippelő egyedül játszik, akkor akárhányan csatlakozhatnak hozzá a nyertes pontszám attól még ugyanannyi marad. Jó ez csak vicc, amit nem tudtam kihagyni, lapozzunk!
Szerintem laposodik a görbe, teszemazt kétszer annyi játékos esetén csak nagyon kicsivel nő a győztes pontszám emelkedésének valószínűsége, szerintem.
Az én perdöntő érvem a papírformaság fontossága mellett (ebben a mi kontextusunkban), hogy a jó tippelők egy-egy meglepetést még csak-csak ki tudnak találni, de sok meglepetés esetén a hosszú távon minden tippelő más-más meglepetést fog kitalálni, ha és egyáltalán kitalál. És ezért csökken a győztes végső pontszám. Rengeteg nulla lesz, még a jó tippelőknél is.
Érdemes belegondolni, hogy ha adott határon túl növekedne a megjátszott szelvényszám a totóban, akkor át kellene-e térni a 14+1-es játékra? Szerintem nem. Ahogy az értékesített szelvényszám csökkenésével sem tértek át a 12+1-es játékra. Nekem úgy tűnik így érzésre, hogy a szelvényszám-növeléssel csak a díjalap nő és a telitalálatosság ugyanúgy hullámozna hétről-hétre.

Egyébként szerintem (is) a vázolt tippjátékban a meccsszámnyi (azaz itt a VB-n 64) ponttal már esélyes tippjátékot nyerni.

2010. június 7., hétfő

Reflexió a dm-szoftverek rangsora blogposthoz

.
Társblogon jelent meg minap az alábbi blogpost. Engem például megmozgatott elgondolkodásilag.

Adatbányászati szoftverek rangsora

Az alábbi felmérés volt a kiindulási alap:

Adatbányász eszközök

A felmérés torzított/manipulatív voltát pillanatra félretéve, ami nekem eszembejutott, hogy az open source eszközök között az R számomra meglepően erősen szerepelt avval, hogy ezüstérmes lett Én értem, hogy a statisztikai szoftverek vonalán az R régóta, nagy kiterjedésben, jó minőségben tud megjelenni, de adatbányászati eszközök oldalán nekem akkor is meglepetés. Ráadásul a KNime tartalmaz R "csatolót", ahogy Wekásat is.

A RapidMiner elsőségét értem, én azt gondolom "legbiztonságosabban" (legkevésbé félrevivően benne lehet adatbányászkodni, open source-éknál)

Az Excel-t is érteni vélem, bár itt gondom van az Excel közismert méretbeli korlátaival.

A "saját kód"-ot is értem, pláne az open source vonal ilyetén előretörését látva.

Az ilyen felmérések értékelésekor nehéz elszakadni annak firtatásától, hogy kik milyen noszogatások hatására kezdenek el klikkelgetni, azt azért én például gondolom, hogy az open source vonal látványos előretörése talán nem véletlen. Érdemes lehet belegondolni, hogy mi mellett, mi ellen, hányan lépnek fel.

Nyílván jó eséllyel nem cserélték le a kockázatkezelők mondjuk a SAS-os szoftvereiket például KNimére, de azért az mozgosítható erővel bírhat, hogy mind az IBM/SPSS, mind a SAS erősen túlárazott feelinget árasztanak magukból, miközben az open source eszközök egyre csak izmosodnak.

Erre kaptam a blogon Körmendy Gyuritól (SPSS Hungary) egy ellenvetést:

...de különben azért illik a szoftverekhez hasonlítani a nyugati üzleti DM elemzők fizetését:

Én azért vitatkoznék avval, hogy a fizetések hogyan miképpen játszanak bele a "túlárazásos" történetbe.

Én azt mondom, ha egy OLAP-ról lenne szó akkor jogos bevonni a (nyugati) fizetéseket, hiszen az alapvetően az üzleti szféra technológiája, ahol jóval kiegyenlítettebbek a költségviszonyok a szűk spektrum miatt.

Az adatbányászat (elemzés), viszont tudhat a tömegek sportja is lenni, hiszen az élet majdhogynem minden területén hasznosítható (széles domain-spektrum). Ha innen nézzük, akkor meglehet elhanyagolható azon adatbányászok mennyisége, aki 100.000 usd felett keresnek évente. (És persze az ő környezetükben nyílván nem probléma egy SPSS licence megvétele.)

És akkor hadd adjam már ki azon mérgemet is, hogy míg a SAS és IBM/SPSS itthon tudtommal nyugati áron árulja termékeit, addig az itteni fizetések távolról sem ostromolják az évi 100.000 USD-t.

Végezetül pár szó a túlárazásról. Számomra túlárazás fogalma nem akörül firtat, hogy mennyire reális piaci árat határoz meg a gyártó, hanem, hogy mennyire 'magyarázható/védhető' (mezei user által) a piaci árrés, amit a gyártó érvényesíteni akar a méltányolható költségei levonása után. Én azt mondom mind a SAS mind az IBM/SPSS szerintem - főleg ilyen válságos időkben - helytelenül alapvetően "elitizáló" szoftvert értékesít, szűk rétegnek, indokolatlanul magas egységáron.
Tény hogy az SPSS eszközéhez szemben a SAS-éval könnyebben fér hozzá itthon az átlag honpolgár, de attól még az ára túlságosan magas, szvsz. És tartok tőle az IBM-akvizició nem lefelé fogja elmozdítani az árakat.

UPDATE-1.
Mondjál légy szíves a Mercédesztől a Milka csokiig bezárólag bármit, aminek az ára alacsonyabb a szegény káeurópaiaknak! Miért lenne olcsóbb?

Sajnos ahogy nézem az eloszlásokat a kdnuggetsen, egyátalán nem elhanyagolható a 100k-t kereső adatbányászok aránya (az USA-ban). De ott sem ők fizetik a licenszet, hanem a cégük. A cég pedig megoldást vásárol, aminek része -egyebek mellett- a szoftver és az elemző is.

Különben mindkét szállító töredékáron adja a termékeket a felsőoktatásnak. Pl. az SPSS a nyugati akadémiai áraknak is a töredékéért. Mielőtt bevádolnál, hogy persze ez a beetetés, azért halkan hozzátenném, hogy nem 1-2 oktató használja pénzkeresetre is hébe-hóba ezeket a licenszeket, amire az akadémiai ár (duplán) nem vonatkozna. Hogy ezzel a piackutatói, statisztikai és dm szakértői piac árait verik le? Welcome to Hungary!

Az árképzésnek egyébként egy fogkefe esetén is csak hozzávetőleges köze van az előállítási költséghez. A szemét gyártó célja a haszon és a bevétel maximalizálása. Vajon tizedáron lenne 10x ennyi Clementine user?

A tömegek használhatják az egyre szuperebb Rapidminert, aztán majd kiderül, hogy az "elitgyártók" nem esnek-e a saját üzleti modelljük csapdájába. Addig azért érdemes megkérdezni a Raiffeisent, hogy mi van a matlabos, (meg talán R-es?) cuccokkal?

Mondjak valami olcsóbbat, ami itthon jobb árcédulájú, mint kinn? Hát például a lejárt szavatosságú szemét, amit nem vesz fel kinn a piac. ;) Tudom nem erre gondoltál, meg igazad van, hogy az SPSS nem ugrik ki negatívan az átlag hozzáállásból, az a baj, hogy annyira pozitívan sem (az én olvasatomban). ;)

Az viszont engem speciel taszít (mint jelenség) ebben a "piacgazdaságban", hogy az árszínvonal nyugati, a bérszínvonal meg keleti, megfejelve a magyar bürokráciával, korrupcióval és adózással. Érdekes módon a multik a bérekkel tudnak alkalmazkodni a helyi viszonyokhoz, csak a termékek áraival nem.

Nyílván nem feltétlen az adatbányász fizeti a licencet. Én is arra gondoltam, hogy ahol a 100.000 USD-s bért ki tudják gazdálkodni, ott a licence-t is ki tudják gazdálkodni. Hozzáteszem nem minden szkepticizmus nélkül vagyok ez irányba, de ez messzire vinne, így nem ragozom tovább.

Ez a felsőoktatás szerintem nem jó példa. Például az általad említettek miatt sem, meg amiatt sem, mert tipikusan mézesmadzag feelingje van. Bemutatja az SPSS, hogy milyen remekül lehet a Clementine-nal dolgozni, ami amúgy egy percig sem volt sosem kérdés, aztán a diák kikerül a nagy világba, és kis túlzással, ha nem biztosítóhoz vagy bankhoz kerül, nem fog legálisan látni Clementine-t. Lásd még elitizálás.

Az hogy az egyetemi oktató "fusiba" is használja a Clementine-t, arra én azt mondom, hogy tegye, ismerve az itthoni átlag oktatói bérviszonyokat és hozzá a potenciális tudást. Ez szerintem az SPSS sales-ének a problémája, hogyan menedzseli a (engedés, tiltás, üldözés, stb.)

Azt gondolom mindig is nehéz volt egy szállítandó projekt árképzése. Ha elszakadunk az adatbányászattól, akkor egy komplett Oracle-s projektet meg tudhat valaki csinálni számla nélkül pár tízezerért míg az Oracle Hungary napi 2-300.000+ ÁFA per fő költséget számláz. A problémakör szerintem kivezet az átalam firtatott "túlárazás" témából. De lehet, hogy nincs igazam. :)

"A szemét gyártó célja a haszon és a bevétel maximalizálása." Ezzel nincs is baj. A baj csak az, ha ez az _egyetlen_ célja. (Az én felfogásomban)

A "túlárazás"-os soraimnál a legelején direkt írtam, hogy nem a reális piaci ár firtatására gondoltam. Azt sem nem tisztem, nem is értek hozzá, pláne nem vagyok üveggömb jós, hogy mi mire lesz jó. Azaz egyetértek, majd a jövőben fog kiderülni, hogy mennyire veszít a Clementine és nyer az open source tért.

Kiegészítés csak itt (ami még eszembejutott):

A Raiffeisenes dologhoz információ híján nem tudok szólni, az megy hogy tizedannyiért tízszer több értékesítés tartozhat-e az hasonlatos probléma ahhoz amivel a mostani Orbán kormány küzd, hogy mekkora adócsökkenéshez mekkora adóbevétel tartozik. Ez nagyon nehéz kérdés szerintem, én biztos nem fogom egy mondatban itt megválaszolni. ;)

UPDATE-2.
Gáspár-Papanek Csaba 2010.06.12. 12:18:10
Örülök, hogy ilyen heves vitát váltott ki a posztunk, kellenek szerintem az ilyen szelepek, ahol kibeszélhetjük ezeket a kérdéseket.

Az árazással kapcsolatos gondolatokhoz egy másik aspektust is hozzátennék: korábban többször jártam úgy, hogy hosszas egyeztetés után azért bukott el a pilot projektünk elindítás, mert a szoftverlicenszek ára elijesztette a megrendelőt. Mióta azonban megjelentek az open scource megoldások, azóta ez a kérdés megoldódott. Hozzá kell tennem, hogy ezek az eszközök gyakran sokkal mélyebb technikai/adatbányászati ismereteket követelnek meg a használójától, jobban képzett illetve nehezebben elérhető munkaerő kell ahhoz, hogy azt használni lehessen, sokkal kevesebbet lehet rábízni a megbízónál már meglévő munkaerőre (Egy SPSS Modeler elé leülve intuitív módon meg lehet tanulni a szoftver használatának alapjait, ezt egy RapidMiner esetén már jóval kevésbé javaslom bárkinek is)

Ilyen értelemben az open scource világ egyik ígérete, hogy olyan helyeken is el lehet kezdeni dolgozni, ahol eddig a magas induló költségek miatt nagyon rizikósnak tűnt az új adatbányászati megoldások bevezetése. Lényegében az alkalmazási terület szélesedését várhatjuk ezektől a technológiáktól. Ezt a tendenciát az is erősíti, hogy az open scource megközelítés miatt könnyebb illeszteni ezeket az eszközöket a már kialakított rendszerekhez.

Az akadémiai szférának adott kedvezményes árakra szükség van. Az eddigi kedvezményes árak megengedték, hogy mi a saját tanszékünkön a SPSS Modelert/Clementine-t és a SAS/SAS Enterprise Miner-t is biztosítani tudtuk (MSSQL szerver és az Oracle adatbányász funkciói az egyetemek számára ingyenesen elérhetők.) Mivel azonban ilyen beszerzésekre állandó pénzforrásunk nincsen, ezért néha nehézségek vannak az utánpótlásban. Ha ugyanis az egy hallgatóra jutó éves adatbányászati licenszárakat kiszámoljuk, akkor egyértelműen látszik, hogy veszteséges az oktatási felhasználása ezeknek az eszközöknek. A korábbi megoldás az volt, hogy különböző K+F projektekhez vásároltuk meg a licenszeket, ezeket használhattuk oktatásra és kutatásra egyszerre. Ilyen lehetőségből ma már egyre kevesebb van, és az akadémiai szférában ezen a területen jelentős konkurenciát jelentenek az open scource megoldások is.

A vendorok és az egyetemek közötti megfelelő együttműködés kialakítását pedig akadályozza az a félelem, hogy az oktatók visszaélnek a kapott licenszekkel. Nem sok példát ismerek erre, de ezeket az ügyeket nem szokták kirakni a kirakatba. A kérdéskört egyszer jó lenne kibeszélni egy kávé mellett, szerintem az SPSS Nyári Iskolája például jó alkalom lehet majd arra, hogy erről is beszélgessünk.

Remek konklúziója a remek postnak a társblogban. :o) Nincs mit hozzátenni.

2010. június 2., szerda

Az élet mérése



Csak mert most ilyen a hangulatom, idemásolok egy idézetet, úgy l'art pour l'art.

"Az életet nem a lélegzetvételek számával mérjük, hanem azokkal a pillanatokkal, amikor elakad a lélegzeted." - George Carlin