Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. április 19., hétfő

"Brittudósok" között mennyi adatbányász van?



A cím látszólagos eltérése ellenére, ez a post folytatása kíván lenni az előző "adatbányász-hibák" postnak. :o) A téma már régóta érett bennem, most hogy volt aktualitás is hozzá, így előveszem. Hogy legyen némi átvezetés is, itt egy másik, témába vágó, lábtöréses gyógyítással harmonizáló közismert anekdota:

"A tudósok vizsgálják, hogy a bolha lábai és a hallása között van-e összefüggés. Mondják a bolhának."Ugorj!" és a bolha ugrik egy nagyot. Kihúznak egy lábat és mondják:"Ugorj!" A bolha most kisebbet ugrik. Ezt így folytatják, amíg a bolhának az összes lába elfogy. A láb nélküli bolhára rászólnak:"Ugorj!", de a bolha nem ugrik. Erre megállapítják, hogyha a bolha elveszíti az összes lábát, megsüketül."

Először is pár szó arról mi indukálta bennem a téma firtatását. Itt egy tavaly júliusi indexes-cikk:

Londoni elemzők szerint vége a világgazdasági recessziónak

Mit lehet sejteni pusztán csak a cím elolvasása után:

* Ez az a téma, ami sokakat érdekel

* A búlvár újságírás már csak jellege és korlátai miatt sem teszi lehetővé, hogy egy ilyen nagy és komplex témát, valamennyire teljesen, koherensen és meggyőzően lehessen tálalni.

* Egészen biztosan két csoportba sorolhatók a határozottan véleményt nyílvánítók véleménye:
(1) lesznek "elfogadók"
(2) lesznek "ellenvetők"

Ezek után logikusan előrejelezhető, hogy ilyen alább idézett - vitriolba mártott - kommentek fognak születni, csak párat idéznék rögtön az elejéről:

* Londoni elemzők... és mit mondanak a brit tudósok?

* Kretének mind. Semmi nem változott meg, ami előidézte a válságot.

* Ha mégegyszer kezdhetném, az kurvaélet, hogy elemző lennék.... értelmetlen, fos az egész

* Viccesek ezek az elemzők (vagy csak szimplán nem értenek semmihez)

* Eddig a short lufit fújták, most meg a longot nyomatják a brit tudósok. Na most hol az igazság?

Rögtön az első komment felidézi a "brittudósok"-at. Így egybeírva. Mert hogy ők külön kasztot, kategóriát, mondhatni műfajt képeznek az index.hu-n. Azért lehet népszerű többekközt, mert a humorérzéket is lehet csillogtatni a kommentelésnél. Tartozik hozzájuk link is: Brittudósok

Következzen pár cikk címe és linkje; az utóbbi hetek "brittudósainak" terméséből mazsolázva.

A férfiaktól nem érdemes bocsánatot kérni
Az emberek egyötöde hiszi, hogy idegen lények élnek közöttünk
Fájdalomcsillapító a pénzszámlálás
Az idősek valóban bölcsebbek
A tanultabb nők sokkal többet isznak
A házassággal felszaladnak a kilók
A terhesség feledékennyé tesz
A nők jobban megjegyzik a szavakat
Nagyobb eséllyel válnak el az ikreket nevelő szülők
Az ország egészségügyi helyzetétől függ a nők párválasztása
Két gyerek jót tesz az egészségnek
A jó érdemjegy látványától jobban teljesítünk a vizsgán
Az elhízás és depresszió kölcsönösen összefüggnek
A fagyasztott zöldség jobb, mint a friss
Megvan a tökéletes feleség képlete
A boldog házasság megvéd az agyi katasztrófától
A dohányosoknak alacsonyabb az intelligenciájuk
A tökéletes női alak látványa úgy hat az agyban, mint az alkohol
74 évesen a legboldogabb az ember
Egy centi havi 200.000 ér
A kövér madarak gyorsabbak
Megalkották a képletet a házasság optimális időpontjának kiszámolására
Az alkoholisták gyerekei édesszájúak
A szürke a depresszió színe
Aki sokat unatkozik hamarabb meghal
A macskák gazdái okosabbak
A hegyekben könnyebb fogyni
A globális felmelegedés jót tesz a fáknak
Összefügg az internetezés és a depresszió
A kövér politikusok megnyerőbbek
Előrehajolva gondolunk a jövőre
Hétvégén boldogabbak az emberek
Kiszámolták mennyi az esélye a tökéletes partner megtalálásának
Az alváshiány rontja a teljesítményt
Évente 4754-szer gondolnak a férfiak a szexre
Napi negyven percet veszekednek a párok
Nincs bizonyíték a G-pont létezésére
A hosszú élet titka az "A" betűvel kezdődő név
Nincs jó hatással az ifjúságra a koedukáció
A nők tényleg ügyetlenebbül parkolnak
Kiszámolták mitől szép egy női arc
Megalkották a tökéletes parkolás matematikai képletét
A rossz kisfiúk nem élnek sokáig
A sok evés ellustít
Kudarcot vallott a nagy pornókutatás
Kézzel jobban írunk, mint géppel

A címek olvastán, ami azonnal felmerül az emberben

[Nem belemenve a konkrét témákba illetve kritikájukba, mert akkor sose lesz vége ennek a postnak. ;)]

* Jó keresztmetszet ahhoz, milyen témák érdekelik a tömeget (és milyenek egyáltalán nem): Egészség, életmód, nemek harca, párkapcsolat, stb. látnivalóan érdeklik.

* Van olvasói (és kommentelői) igény, ez pusztán csak a publikált mennyiségből is leszűrhető. Az adatbányászat/elemzés behatol a hétköznapokba. Észrevesszük?

* Az ember nem tud vagy nem akar elszakadni a középkori alkímia univerzális csodaszer keresésétől, amennyiben szeret formulalizálni, mindent megoldó (zárt) képleteket találni.

* Az ember 'vonzódik' a trivialitáshoz is (tapasztalattal egyezőhöz, mint megerősítéshez), a szenzációshoz is (tapasztalattal ellentéteshez és/vagy meglepőhöz)

* Trivialitás és hülyeség teljes spektrumát átfogó általános emberi érdeklődés.

* "Hitviták" firtatása. (Klasszikusan például PC-MAC, Unix-Windows, vaj-margarin, vagy itt konkréten női autóvezetés, válság vége, stb.)

* Van olyan "hot" téma, ahol még a kudarc is megér cikket (vö.: pornókutatás)


Vajon meredek-e a következtetés mindezek után, amikor azt mondom, hogy az adatbányásznak óriási a felelőssége azirányba, hogy adott konkrét témában

* Mit állít

* Milyen pontossággal

* Mennyire tudja kijelölni az érvényességi kereteket

* Mennyire mond ellent a józan észnek

* Mennyire újszerű és/vagy használható

* Mennyire hitelesen alátámasztható (Nem lehet csak egy címbe leírható végkövetkeztetést megadni, az iskolában sem fogadták el az olyan matekfeladat megoldást, ahol nem volt levezetés, csak végeredmény)

* Mennyire átlátható/érthető a körítés

* Mennyire értékarányos a tárgyban elvégzett munka és konklúziója (ha pénzes témáról van szó)

* +1 még múltkorról, mennyire etikus.

Érdekes adalék lehet abba is belegondolni, hogy természettudományos alapkutatásnál régen gond nélkül lehetett "haszontalan" kutatásokat csinálni. Majd csak jó lesz valamire, ha nincs is aktuálisan közvetlen társadalmi haszon. Az adatbányászat mára már teljesen más kategóriát képvisel (szerintem). Végtelen mennyiségű témából lehet, valamilyen eredményt felmutatni és/vagy cikket publikálni egyfajta gigantikus káoszra rásegítve. Elképesztő milyen ütemben szaporodnak cikkek, könyvek, csak az amazon.com-on szétnézve is.


Konklúzió: az én vízióm az, hogy az adatbányásznak a jövőben a bizalom kell legyen az egyik legfontosabb iránytűje:

* meg kell mutassa, hogy hasznos amit csinál

* láthatóvá/érthetővé kell tennie az egész munkafolyamatát, a józan ész és a megértés által vezérelten

* etikusnak kell lennie, mind probléma-felvetésében, mind probléma-megoldásában, mind "számlázásában".

Enélkül marad a "brittudósok", tartózkodással övezett homálya, szenzációvadászata, ingoványos talaja és kétes népszerűsége.

2010. április 17., szombat

IQSymp..2010 - Adatbányász hibák

Megvolt az idei IQSymposium is. Bevallom férfiasan, a tavalyihoz képest az ideit sokkal sikerültebbnek tartom. Elsősorban a délelötti plenáris előadások ütöttek/szóltak nagyot, az én érzékelésemben. Ami persze nem jelenti azt, hogy csomó minden elhangzottal ne lehetne vitatkozni, vagy bővebben foglalkozni. Az nem kérdés, sok izgalmas téma került elő, jó lenne majd a későbbiekben pár dolgot itt is elővenni, nem tudom mire lesz időm, erőm, kedvem.

Érdekes indikátor volt a humor, ami alatt azt értem - a fentiekkel némileg korrelálóan - hogy a délelötti előadásokon sokkal többször nevettették meg az előadók a többszáz fős (>500) hallgatóságot, mint a délutániakon (legalábbis ahol én voltam).

Egy üdítő kivétel mindenképpen volt, amikor Fehár Tamás mesélt délutáni előadásában az általa is írt "Üzleti haszon az adatok mélyén" könyvről. Tamás mesélt egy anekdotát, hogyan nem szabad dolgoznia az adatbányásznak, ha nem akar lépremenni. ->

Adott egy síparadicsom, ahol természetesen van egy kórházszerűség, ott látják el a sielésben megsérülteket. A "kieső betegágyi napok csökkentése" projekt keretében meg lehetett figyelni, hogy a kisebb csak kéz (vagy csak láb)-sérülésekhez relevánsan hosszabb kórházi kezelést igényeltek általában, míg a súlyosabb kéz és láb-sérülések éppen hogy fordítva sokkal gyorsabban gyógyultak.

Azonnal adódik a "zseniális" gondolat, a betegeknek, akiknek csak kéz- vagy csak láb-sérüléseik vannak, el kell törni az egészséges végtagjaikat is, a gyorsabb gyógyulás érdekében. ;)

Persze megvolt a magyarázata a történteknek, az idősebbek eleve óvatosabban sieltek, nem szenvedtek látványos nagy sérüléseket, viszont sokkal lassabban gyógyultak ezek a sérülések. Míg a fiatalok, sokkal nagyobb kockázatokat vállaltak sielések során, amiknek durvább baleset is volt sokszor a végkimenetele, de mivel fiatal szervezet szenvedte el, ezek a sérülések gyorsabban is gyógyultak.

Nagy vágyam, hogy Erdős Pál gondolatát - "Az égben Isten vezet egy Nagy Könyvet, amelyben minden matematikai probléma elegáns megoldása megtalálható" - adaptálva, és alkalmazva az adatbányászatra; összeszedni a legizgalmasabb, legnehezebb problémákat. Hasonlóan össze lehetne szedni katalógusba az adatbányászok által elkövethető hibákat. Nekem most az alábbi klasszikusok jutnak eszembe:

(1) Integer-kulcs bevonása a magyarázó változók közé /a poén az, hogy volt olyan adatbányász-verseny, ahol ez nyerő stratégia volt :o))))/

(2) Nem tökéletesen szétválasztott tanító-tesztelő-validáló adathalmazoknál, a célváltozó rejtett bevonása a magyarázó változók közé. Ez akkor tud "izgalmas lenni" ugye, amikor tanítás során kvázi tökéletesen müködik az adatbányász-modell, de a validálásnál csak nem jönnek az eredmények.

(3) Ok és okozat felcserélése.

2010. április 12., hétfő

Ki vásárol varázsitalt?




Eredeti közlés(agent.ai)
Másodközlés(index.hu)

"Rengeteg többszereplős játékfejlesztő abból szerzi a bevételeit, hogy különböző virtuális tárgyakat pénzért értékesít virtuális világában. Egy adatbányász cég segít megkeresni azokat a játékosokat, akik valószínűleg hajlandóak lesznek áldozni ezekre a fegyverekre és varázsitalokra.

Nem akármilyen üzenetei vannak a cikknek, csak ami így hirtelen eszembejut így ebéd elött:

* Kis színesként egyre inkább kerülnek be a köztudatba, még a mainstream médiából is, adatbányászat vonatkozású témák.

* Azért az nem akármi, szerintem, hogy virtuális javak iránt nő az érdeklődés, ahogy a róla szóló cikkek is szaporodnak. Ez szintén friss és tán még morbidabb elágazása a témának:
Költse más pénzét nem létező termékekre!

* Érdemes lehet belegondolni, hogy milyen premisszákkal is tud ez az egész működni:
(1) Ingyenes az egész alapjáték, egy szűk vásárlói réteg (~1-3%) költései tartják el az egészet.
(2) A költségvetésbe belefér még az adatbányászat-vonzat költségei is.
(3) Van adatbányász cég ami erre áll rá

2010. április 8., csütörtök

Adatbányászat és etika



Stop the world! I want to get off. - Állítsátok meg a világot! Ki akarok szállni.

Olvasom az adatbányászat blog mai postját és erős hiányérzet alakul ki bennem. Persze az ügyben  én sem fogok tudni írni 'teljeset', de pár gondolat erejéig szeretném az egész témát tágabb kontextusba helyezni.

Először is a magam részéről mindenképpen üdvözlöm a vonatkozó erőfeszítéseit az SPSS Hungary Kft-nek, hogy a konferencia szervezése során, ilyen súllyal ekkora teret ad a témának, ahogy ennek egyébként már adtam is hangot szakmai levlistán is.

Nekem első reflexióként a fenti postra, az a példa jutott eszembe, ahol rögtön nem segít a k-anonimitás típusú ujdonság. Vagyis konkréten a postban is említett ügyféltörténet-alapú hitelbírálat. Ugyanis józan belátás alapján egyfelől jogos igénye egy banknak hitelbírálatkor egyes emberek ignorálása, ami csak névhez köthetően tehető meg. Másfelől evvel az igényével a bank vissza tud élni egyes ügyfelei rovására.

Azt is meg kell említsem, hogy hozzám nagyon közel áll a témában Bodon Ferenc tanulmányának tárgybeli vonatkozó fejezete. Ennek is köszönhető, hogy én kevésbé szeretek beszélni "adatvédelemről", pláne, hogy nem az adatokat kell(ene) védeni á lá Besenyő Pista bácsi Nooormális? :o), hanem az adatok mögött lévő embert.Ha pedig az embert kell védeni a számoktól, valami nehezen számszerűsíthető megfontolások alapján, akkor ott pillanatok alatt előkerül az etika.

Én mindig két irányból szoktam közelíteni a (például adatbányászatos) problémákra adott megoldások értékelésekor. Egyfajta speciális költség-haszon elemzés keretében a (1) "jóság", illetve a (2) "támadhatóság" irányából. Merthogy hiába jó valami, ha támadhatóság miatt kérészéletűségre kárhoztatódik és ha úgy stabil valami, ha közben rossz. Emiatt érzem asszim­metrikusnak a fent idézett post üzenetét. Merthogy az én véleményem szerint egyszerre van a bányászandó adatokban 'potenciál' és kell legyen egyúttal belső 'kényszer' az adatbányászban, hogy védje az embert az algoritmusok révén közvetlenül generálodó túlkapásoktól, vagy pusztán csak odanemfigyelésektől. Ig­no­rál­ha­tat­lan dualitásnak érzem ezt a dolgot.

Az emlegetett dualitás megtalálható az adatbányász-etika megítélésekor is. Azt gondolom egyfelöl óriási irott alapú túlszabályozás van mind szűkebb kis hazánkban, mind tágabban az EU-ban. Ez a gigászi szabályozás én felfogásomban menthetetlenül nem lehet sem teljes, sem ellentmondásmentes. Arról már nem beszélve, hogy definitive nem lehet minimális se (tovább-egyszerűsíthetetlensége okán). Másfelöl valahogy én úgy érzékelem a józan paraszti ész száműzve van a szabályozásokból is, meg sokszor a praktikus és etikus tárgybeli meg­fon­to­lások­ból is.

A nyugati szabadpiaci liberalizmus szeret tetszelegni a nemi diszkrimináció elutasításával, ám hogy-hogy nem többtíz éves tapasztalat, hogy ugyanazon munkáért a nők átlagosan relevánsan kevesebbet keresnek, mint a férfiak. Ez aztán szépen tovagördül az élet egyéb dolgaiban is, ami adatbányász-elemzésekben is lecsapódhat.

Úgyanígy szeret tetszelegni faji és egyéb diszkrimináció elutasításával is, mégis régóta létező bevett gyakorlat demográfiai adatok alapján történő hitelbírálat. Az ilyen esetek pedig folyamatosan felvetik az egyszerre szűznek maradni és k*rvának lenni nehezen megoldható problémáját.

Következzék pár negatív példa, tengernyi továbbit lehetne még sorolni.De csak azért, hogy aztán lehessen pár mondatot írni a pozitív megközelítés felöl is.

1. Lefordítható az ember számokra? A korábbi postomban társkeresés kapcsán vesézett Numerátorok könyv első fejezete azt elemzi, hogy az IBM nevű multinacionális cég hogyan fordítja le a számok nyelvére a dolgozóit, a költséghatékony tervezés jegyében. A cél világos: megfelelő embereket optimálisan megtalálni a feladatokra (aki helyszínen tud lenni, megfelelő időtávban, legolcsóbban, szükséges tudással, a többi kollégához megfelelő kapcsolódással, stb.). És mik az eszközök hozzá? Kapcsolatelemzések mobilhívásokon, effektív szüvegbányászat levelezésekben, ki kivel milyen konfenrencián volt stb. Egészen odáig, hogy kb. minden, ember által cégen belül ejtett, digitális lábnyom potencális kincsesbánya az algoritmus finomításához.

2. Vagy ott van a választások témája ez most meglehetősen aktuális :o) Pár hónapja Obama kapcsán is lehetett olvasni SPSS-elemzésekről.És ekkor az egyszeri halandó emberben felmerül, hogy a kétségkívül létező és hatékony szavazatmaximálási technikák jó célt  szolgálják-e és jól? Nem tolódik-e el a hangsúly az évekig tartó érdemi kormányzási munka taposómalma felöl, a választás - pillanatnyiságában túlhajtott - eseménye felé?

3. Ha inverz Robinson-lista lenne a gyakorlat, akkor vajon hány direkt marketing levelet küldenének ki a bankok? Ez az a lista, amire a banki ügyfelek feliratkozhatnak, hogy nem kérnek DM-levelet.Nevét onnan kapta, hogy az ügyfél olyan szeretne lenni a cég szempontjából, mint egy szigetlakó Robinson. :o) Az ilyen ügyfeleket szeretik legkevésbé a bankok CRM-csapatai. ;) Az inverz Robinson-lista meg olyan lenne, hogy az ügyfelek feliratkozhatnának rá, ha kérnek DM-leveleket.

4. Tegyük fel egy banki ügyfél öt(?) éve 30+-os bucketbe került egy hiteltörlesztés részletfizetése kapcsán. A 30+ bucket azt jelenti, hogy a teljes hiteltörlesztés során volt egy olyan részletfizetés, ami 30 napnál több késedelmet szenvedett (de 60 napnál kevesebbet, mert az már másik bucket) Nyílván a csalóktól védeni kell a pénzintézeteket. De ez jogalap-e egy jövőbeli kockázat elemzésekor, hogy egy határ után automatikusan elutasítódjék ügyfelünk későbbi hitelkérelme, Provident típusú ragadozók karmai közé terelve őt. Tudta-e ez az elutasított ügyfél korábbi hitelfelvételkor, hogy részletfizetési adatait mire használja fel később a bank?

A negatív példák számbavétele után az én felfogásomban tehát az lenne az etikus, hogy minden adatbányász projektnél, a dualitás jegyében egyfelöl szakmai oldalról szokásosan meg kell nézni, érdemes-e a témával foglalkozni, van-e haszna, van-e a üzleti potenciál benne. Ugyanakkor kötelezőnek érzem azt is megnézni, hogy lehet-e vele kárt csinálni, rosszul használni, ha igen hogyan lehet védekezni ellene, hogyan lehet ennek a "költségét" is legalább láthatóvá tenni. Az pedig egy további kérdés lehet, hogy mindezt hogyan lehet használható és számonkérhető módon a gyakorlatba ültetni.

A túlszabályozás elkerülése jegyében, például az egy elv lehet; az embereknek a túlzott numerátorkodástól való védésekor, hogy minden olyan adat ami személyhez kötött arról lehessen tudni, hogy (1) tárolásra kerül, ez ma már hálistennek egyre inkább triviálitás, illetve (2) tudja az ügyfél hogy mire lehet felhasználni az adott adatát. Nincs baj a 30+-ba kerülés diszkrimináló felhasználásával, akkor ha tud a lehetőségről az ügyfél, rögtön a 30+-ba kerüléskor. És bátran meglehet adni anonim módon a numerátoros társkeresésnél a legőszintébben az adatokat, mert úgy nyerhet valaki előnyt, hogy esélyesen nem szenved hátrányt.

Azt gondolom tehát,
(1) még racionálisan is megéri etikusnak lenni az adatbányásznak, mert a bizalom frontján például megtérülhet.
(2) maximálisan megvan a létjogosultsága a téma körbejárásának. Kiváncsi vagyok mi fog kisülni az egészből az SPSS-konferencián.

2010. április 2., péntek

Társkeresés - Numerátorok

.
Nemcsak ajánlom, hanem olvasom is az adatbányászat blogot. Ami - by the way - eléggé önbizalom csökkentően nagyszerű blog, mind tartalmában, mind formájában, mind pörgésében - ezúton is gratulálok hozzá. Így hirtelenjében első ránézésre nekem már csak egy front (életévek száma) maradt esélyes állni a sarat (a 46+ évem révén). :o)

De félretéve a tréfát, pláne, hogy sokkal-sokkal nagyobb poén kerülhet ablakba... Ott olvasom az alábbi pár napos post-ot

Két új könyv

Ami említést tesz az alábbi könyvről. Érdemes a post-on túlmenően, a recenziót is elolvasni.

Stephen Baker: Numerátorok

Természetesen ma - azaz hogy pontosabban tegnap - postolvasás után első dolgom volt megvenni mindkét könyvet. És mit látok a Numerátorok(=adatbányászok) tartalomjegyzékében? Hogy a 7 nagy fejezet egyike (utolsó), pont a társkeresést veszi górcső alá. Kell-e mondanom ezek után, hogy melyik fejezet olvasásával kezdtem a könyvet? :o) Egy füst alatt felfaltam a sorokat. Először. Aztán másodszor...

A bő húsz oldalas fejezet avval nyit, hogy a házas szerző ráveszi a feleségét, hogy próbáljanak egymásra találni egy ilyen adatbányászós, internetes társkereső révén. Az oldal a Chemistry.com. Az asszony eléggé kevéssé lelkes, de hát mit meg nem tesz az ember az élete párjának. :o) Aztán megidéződik a Chemistry, kiagyalója, éceszgébere, egy antropológus(!) hölgy(!) Helen Fisher is.

Szerzőnk először is próbálja tisztázni mit tud a numerátorokról (előző fejezetek alapján), miben más ez a társkeresés-téma. Igen, a szerelem algoritmusait fürkészni nem kicsit hangzik morbidnak, és igen, a társkereső emberek mindegyike olyan komplex, kvázi mint a világegyetem. Régen Shakespeare többet tudhatott a szerelemről, mint Newton, ma viszont numerátorok tudhatnak robotolni a szerelem laboratórimában. :o)

Szerző visszaemlékszik arra, hogyan jött össze a feleségével. Egy közös barát hozta őket össze, hagyományos megfontolással. Gyors rákérdező mail mi volt a barát motivációja.
A villámgyors válasz:
(1) egyformán jól értett szót mindkettejükkel
(2) humorérzék hasonló volt
(3) mindkettőnél egyformán óriási pozitív energiát észlelt.
Ezután érti meg szerzőnk, hogy miért "Chemistry" lett a társkereső honlap neve. :o)

Szerzőnk elmeséli hogyan próbálja őt személy szerint a társkereső oldal (Helen Fisher) megérteni, többtucat kérdésen keresztül (miközben a feleség kitörni készülő lázadását is el kell fojtania)
* Vannak explicit felmérő kérdések (szőrszálhasogatás, kalandvágy, stb.)
* Vannak spéci feladatok például képekkel, például italozó férfivel és nővel -> ők vajon sze­rel­mes­pár?
* Rákérdeznek arra, hogy a delikvensnél hogyan aránylik a gyűrűsujj és a mutatóujj hossza(!)
* Korábbi sikeres kapcsolatok felidéz(tet)ése is a menün van.
* Önjellemzés kérdésköre sem maradhat el.
* Természetesen a lényeg; a potenciálisan jövendőbeli társ milyenségére való rákérdezésben kul­mi­nál
* Kifejtős szabad szöveget is kell írni (abszolút egyetértek Körmendy Gyurival, amit közvetített egyik Clementine Text Mining-os prezijében, hogy a szabad szöveg léte vagy nem léte egy kérdőívben perdöntő lehet a megértésben pro vagy kontra. -> Ez külön post témája lehetne)
* Kér fotót a Chemistry.com is, amit egyelőre nem elemeznek, de a szerző szerint lehet eljön annak is az ideje. ;)

Szerzőnk megérti, hogy egyrészt keveset ért meg illetve lát át a neki szegezett kérdőíves feladatokból, "csapdákból". De elhiszi, hogy segít megérteni az emberben lévő vágyak, neurózisok legalább egy részét.

Ezután fontos momentum annak elemzése, hogy a társkeresőnek mennyire érdekes/fontos (ha már fizet érte), hogy mesterkéletlen, őszinte meg feltárulkozó legyen, hogy segítse a gépi algoritmust. Világosan kiderül, hogy egyrészt a társkereső magával tol ki, ha megpróbál "okoskodva" túljárni a párosító algoritmus eszén, illetve a hagyományos forma esetén alapdolgokban (fénykép-retusálás, jövedelem, etc) jóval nagyobb tér van a manipulációra. Valójában az nyer, aki jobban érthetővé tudja magát tenni, jobban alá tud dolgozni a gépi algoritmusnak.

Ezután jön az értékelés Helen Fisher antropológus személyes interpretációjában. Innentől - töredelmesen bevallom - kezdtem intenzíven eldobni az agyamat.... ;)

Helen Fisher előszöris úgy véli, a szokványos adatok, közös hobbi, közös érdeklődési körök stb. szinte értéktelenek az igazi pár meglelésében. Sőt lehet azonos az etnikai háttér, a jövedelmi társadalmi pozició, IQ, vallási, politikai nézetek, meggyőzödések, célok. Megfelelhetnek egymásnak kinézetre. Még ennyi sem garancia a sikerességre.

Hormonok fontossága
Helen Fisher ezután elővezeti saját elméletét, a hormonokról. Négy különböző hormon (ösztrogén, tesztoszteron, dopamin és a szterotonin) amin múlik a személyiségünk. Párkapcsolatban meg általuk olyat keresünk, ami hiányzik az emberből, azaz kiegészítésre szorul az egyénben. Helen Fisher négy csoportba sorolja az embereket, aszerint, hogy melyik a domináns hormon. Merthogy így társíthatók jól a kedélyállapotok, személyiségvonások. Itt derül fény az ujjhosszak arányának rejtélyére is, ami például a méhen belül kapott tesztoszteron-hatással korrelál. Itt tudjuk meg mi gyanutlan olvasók, hogy a szóhasználatunk is korrelál a hormonjainkkal. Finomabb alábontásban van elsődleges és másodlagos jellege is az embernek.

CSOPORTOK
Domináns dopamin: "felfedezők", optimista kockázatvállalók
Domináns szerotonin: "építők", higgadtak, szervezettek, jó csapattagok
Domináns tesztoszteron: "igazgatók", 2/3-uk férfi, elemzők, logikusak, gyakran mu­zi­ká­li­sak
Domináns ösztrogén: "egyezkedők", beszédesek, jók a megérzéseik, tudnak bánni az em­be­rek­kel, de túlságos simulékonyságuk a túlságos engedékenység csapdájába vezetheti őket.

Zárójelben megtudjuk Helen Fisher 1.6 millió ember adataival rendelkezik(!) Ennek alapján látja ki milyen valószínűséggel milyen típusú embert keres. Az egyezkedők és igazgatók kölcsönösen vonzódnak egymáshoz, míg fűrkészek vonzódnak az egyezkedőkhöz. Az építők azért szeretik a fürkészeket mert segítenek őket "ellazítani". De az építők szerethetik a kevésbé robbanékony elegyet is, és ezért kereshetik saját fajtájukat is. Stb.

Ezután szerzőnk hosszasan elemzi azt a lényegi kérdést, hogy hány ember közül szeret választani az ember. Bele tud-e 'nyugodni' rögtön az elsőbe? Mi a helyzet az emberi kiváncsisággal? Az érvelés indul a Google "szerencsés napom van" keresésétől (csak egyetlen legjobb találat) és tart a keresőoptimalizálás fejtegetéséig, ami már egy valódi rabló-pandúr játék a résztvevők, és a Google-s algoritmusfaragók között.

Ha mindez még nem lenne elég, akkor jöhet a mobil-telefon a hálózatos (emberi kapcsolatok hálója), meg helymeghatározós / -prediktálós világával, mint perspektíva. Erről is hosszú bekezdések szólnak fejezetünkben. A mobiltelefonálás adatféleségei akkora kincsesbánya a szerzőben lecsapódottak szerint, hogy bármilyen kérdőívet überel.

Egy másik cég, a Match, teljesen más metodológiával dolgozik. Ha van három közös jellemző egy emberben (szintén szereti a kutyákat, kedvenc színe a piros stb.), akkor azonnal megugrik a társkeresők érdeklődése egymás iránt. Mert hogy ezeket apró sorsszerű véletleneknek tudják be az emberek. Már "csak" ezen potenciális kombinációk elemzése van hátra, a sikeres - gépi algoritmussal támogatott - társkeresés segítésére.

A történet vége, hogy a szerző ha nagy nehezen is, némi buktatókkal, de rátalált a feleségére, a Chemistry rendszerével is. ;)


UPDATE-1.

"Természetesen" mi a Numerátorok könyv irodalomjegyzékében az első ajánlott könyv? Ian Ayres Super Crunchers könyve. :o) Apropó, ha pár nappal korábban jut kezembe a könyv, akkor lehet, hogy a blog címe is más lett volna. Még névjegyen is jól mutat: név alatta foglalkozás: numerátor. Kár hogy magyar nyelven van nemkívánatos némi áthallás. ;)

Egyébként felötlött bennem, hogy aki elsőként meg teljesen más területről érkezve evvel a hatalmas és nehéz témával találkozik, hogy "adatbányászat", lehet, hogy ilyen jellegű könyvvel jobban a kedvében lehet járni, mint bármilyen jól megírt ám száraz és/vagy formulalizált ismeretterjesztő cikkel. Ez persze nem mentesíti az adatbányász társadalmat az alól valóban, hogy normális Wikipedia-cikket érdemel a téma...

Adatbányászat vs. Wikipedia

Társkeresés és adatbányászat témát érintő blogpostjaim:
Társkeresés adatbányász alapokon
Társkeresés - Numerátorok
Dr. Helen Fisher mint a szerelem "brittudósa"?
Dr. Helen Fisher kérdőíve társkereséshez
Dr. Helen Fisher - Zárszó
Társkeresés adatbányászati támogatással
Beszéd, mint a sikeres párkapcsolat prediktora?
COMMENT:COM: "Házasság első látásra"

2010. április 1., csütörtök

Klímakatasztrófa előrejelzése

Tavaly decemberben a koppenhágai klímakonferencia (2009. december 7-18) apropóján is, klímatémában laikusként, próbáltam egy kicsit tisztábban látni a kérdéskörben, több netes fórumot is megjárva.

Ami nekem lejött a témafirtatás elött, hogy
(1) klíma-modellezés tudománya meglehetősen nehéz és bonyolult tudomány
(2) akár pro, akár kontra (olajkitermelés vs kvótabiznisz) -> hihetetlen pénzekről szóló tör­té­net­ben, rengeteg befolyásos, nagyhatalmú ember próbál meg egyről a kettőre jutni, elég nehezen.
(3) magyar származású NASA-fizikus (Miskolczi Ferenc) újszerű modelljének cikk-közlését sza­bály­sze­rű­en elgáncsolták, nyomában egyéb "kedves" egzisztenciális ellehetetlenítésekkel.
(4) detektálhatóan elképesztő hevességű, túlfütöttségű, tónusú tudományos "párbeszéd" van a té­má­ban, a net legkülönfélébb sarkaiban.
(5) külföldön és itthon, a világvége-vallás (ön)felkent papjainak erőszakos térítései (lásd például a szintén laikus www.antalffy-tibor.hu meg a "szégyen-tábláját" azon tudósokkal, akik nem a mainstreammel haladnak)

Fontos tisztázni bármilyen kijelentés elött, hogy
(1) készázmillió éves fossziliáknak pillanatok alatt (200 év) a végére járt az emberiség, mondhatni eléggé értelmetlenül és rossz hatásfokkal elégetve azt.
(2) fossziliák további égetését mindenképpen érdemes értelmesen újragondolni klímahelyzettől függetlenül is. Ebben nincs is vita egyébként.
(3) a fenti jó cél érdekében sem megengedett minden eszköz, még jószándékú ám téves tu­do­má­nyos bizonyítás sem. A rossz cél ugyanúgy rossz, mint a jó cél rossz tudományos alapokra helyezve.

A klímaaggódó AGW(=Antropogen Global Warming) elmélet azt mondja, hogy a globális felmelegedésért az emberi fosszilia-égetés a felelős, egyre melegebb lesz, ezáltal például a szibériai fagyott föld (permafrost) felenged, és a CO2-nél húszszor nagyobb üvegházhatású metán is egyre inkább a légkörbe szabadul, ahol még nagyobb üvegházhatás lesz, ami által még melegebb lesz, stb. A pozitív visszacsatolás exponencialitása révén 5-7 fok Celsius átlaghőmérséklet-emelkedésnek nézünk elébe a következő 50-60 évben, niközben már 2-3 fok Celsius átlaghőmérséklet-növekedés is tragédia.

Ezzel szemben a klímaszkeptikusok viszont vagy magát a felmelegedést, vagy annak antropogén mivoltát kétségbevonják.

Nem tisztem AGW-ügyben pro vagy kontra igazságot tenni. Azonban klímaszempontból laikusként csak felmerül bennem a kérdés, hogy most akkor mi alapján, mikorra és mekkora katasztrófát jeleznek előre, ami alapján izgatott politikusok és lobbisták dobálóznak 100 milliárd dollárokkal, meg mennek esetleg ölre egymással.

Kétféle módon lehet nekiugrani a klíma-előrejelzés témának, természetesen vitán felül mindkettőnek megvan a létjogosultsága:

A. Ahogy a klímaaggódó IPCC (ENSZ égisze alatt működő, politikusok(!) és tudósok 2.500 fős szervezete), különféle mérések diszkrét értékeinek dataset-jével

B. Zárt formájú fizikai energia-egyenletekkel (ahogy a klímaszkeptikus Miskolczi Ferenc tette a modelljében).

Amit vita nélkül tudunk az utóbbi 100 év hómérséklet adatai alapján, hogy az exponenciális felfutásnak még elötte vagyunk, a felfutás csak ezután várható.

Azt állítom, hogy szakmai nonszensz diszkrét múltbeli mérési adatok alapján magát az exponenciális felfutást előrejelezni még az exponenciális felfutás elött. Ezt az előrejelzést csak és kizárólag egyféleképpen lehet megtenni, zárt képlet alapján, aminek persze feltétele, hogy a képlet/modell jó legyen. Ezáltal még a fele és duplája közé sem lehet a klímakatasztrófa bekövetkeztének időpontját belőni (25 év vagy 100 év)

Ha valakit érdekelnek a pontos ám érthető részletek, klímamodellezés és üvegházhatás témában, szép szabatos érthető magyar nyelven, akkor nagyon ajánlom ezt az egyébként hosszú amúgy friss cikket. Nagyon megéri elolvasni, szvsz:

Az azóta megszűnt vitus.hu-n:
Laszilo: Gondolatok Dr. Miskolczi Ferenc üvegházelméletéről

E blogon re-publikálva, 2016 szeptember 15-én:
Laszilo: Gondolatok Dr. Miskolczi Ferenc üvegházelméletéről

Egy másik részletes és olvasmányos cikk, még inkább laikusoknak:

Ács József: Klíma, kétely, propaganda


Koppenhága óta, még az index.hu-n is jelennek meg klímaszkeptikus cikkek, pont az IPCC rovására:

Megingott az amerikaiak hite a globális felmelegedésben - 2010.március 11.
"A hibák nagy része a klímaváltozással kapcsolatos előrejezéseket érinti, egészen pontosan a számítógépekkel létrehozott modelleket."

Az ENSZ felülvizsgálja klímajóslatát - 2010. március 11.

Megint tévedtek az ENSZ klímaszakértői? - 2010. január 25.