Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. március 31., szerda

Társkeresés adatbányász alapokon


A pornónál is nagyobb biznisz a társkeresés

"3. A legnagyobb amerikai társkereső, az eHarmony azt állítja, hogy naponta 236 olyan pár házasodik össze, akiket ők boronáltak össze 400 kérdésből álló tudományos rendszerük alapján. Ezt az adatot sokan kétségbe vonják."

Boldogabb lesz, akinek a számítógép választ partnert.

Sose gondoltam volna hogy egy index.hu-s Velvet cikk lesz egy adatbányászós blogpostom témája. :o) Amúgy még a posthoz kapcsolódó kommentek is érdekesek, szerencsére nincsenek sokan.

Egyszer annó résztvettem egy data mining-brainstormingon, ahol az volt a kérdés, hogy milyen ötleteket tudnánk a közösbe tenni. Nekem épp ez a kérdéses dolog (internetes társkereső, adatbányászati támogatással) jutott eszembe, teljesen saját kútfőből, mégha nyílván triviális, hogy valakik megcsinálták már (azt nem tudom mennyire adatbányász alapokon).Sőt arra vetemedtem emlékeim szerint, hogy megpróbáltam némileg hosszabban kifejteni a dolgot. Úgy emlékszem egyébként vissza, hogy az ötlettel nem arattam valami nagy sikert. ;)

Persze ez csak egy Velvet-cikk, amit alapból nem szokás komolyan venni, meg persze bizonyítani sem tudom, de úgy érzem óriási potenciál van a témában, és ráadásul valamennyire értelmes támogatható tevékenység (szinglisedés ellen, az e-mail címek cseréjéig megtámogatni a társkereső embereket).

Elképesztő nagy és szép feladat, a pszichológia, adatbányászat, operációkutatás (optimalizálás), közös vékony mesgyéjén.
(1) szűrni a hülyéket/támadókat a rendszerből
(2) okosan csábítani az oldalra, kész komplett párokat illetve párkapcsolatra esélyes egye­dül­ál­ló­kat. (Akik párkapcsolatban / házasságban élnek azok is tudják támogatni a törekvéseket, a megfelelő kérdéshalmaz anonim kitöltésével, amit szerintem sokan szívesen és esélyesen megtennének)
(3) minimális ám hatékony kérdéshalmazt összeállítani.
(4) optimalizáltan sorba állítani az emberekhez a jelölteket.
Az adatbányászat lenyügöző erejét szerintem nagyon szépen tudhatja bemutatni a projekt, és a költsége sem lehet észveszejtő, tulajdon-képpen "csak" egy honlap.

Persze nem 'veszélytelen' a dolog, nyílván vannak árnyoldalai, érzékeny kérdései:
* A 'gépek' túlzott szerepe, egy alapvetően emberi aktusban
* A résztvevők téves értelmezési lehetőségei a gép 'okosságát' illetően (hogy a gép jobban tud választani, mint az ember).
* Az egészet nagyon nehéz emberközelivé tenni, elmagyarázni a témában nem jártasaknak, hogy hogyan müködik az egész.
stb.


UPDATE-1.

A téma többeket megmozgatott, de látnivalóan nem a blog, hanem a mail irányából. :o))) Mondom én, hogy nem véletlen, hogy én mindig is jobb szerettem a mail(+fórum) formát. Következzen két (természetesen) név nélküli reagálás (dőlten) és rá válasz:

"Ezzel bloggal felkapcsoltad nálam a villanyt! Eddig azt hittem, ha egy nőre azt mondták, hogy bányász, vagy bányarém, az azért van, mert ha lemegy a bányába feljön a szén. Mostmár tudom, hogy csak azért mondják ezt rá, mert adatbányász módszerekkel talált rá a párjára."

:o) Igen! Futurisztikus és ijesztő, szerintem is. Első olvasatban mindenképpen. Én amúgy azt sejtem, hogy sokkal jobban müködik, mint egyébként örömteli az egész dolog (mármint hogy ilyen hatékony módszer létezik). Azt azért ne felejtsük el, hogy tényleg egyre kevesebb Magyarországon a (sikeresen) párosodók, meg gyerekvállalók száma. És ez egy negatív végösszegű játék: senkinek nem jó és a pusztulás felé veszi az irányt. A fentiek csak egy ötlet, ami esetleg megérdemli a végiggondolást, még ha elvetésre kerül is.


UPDATE-2.

"Én azt gondolom egy ilyen párválasztósnál, hogy nem egyetlen személyt szabad csak hozzárendelni, hanem néhányat, hogy az alanynak azért legyen választási lehetősége. Pontosan azon okból, hogy nem biztos, hogy mindkettejüknek a másik a "legideálisabb". Ebben az esetben nagyobb szerepet játszik maga az ember, a pszichológus, aki a kérdéseket összeállítja. Ugyanis egy harmadik ember hogyan mondhatja meg, ki két másiknak az legideálisabb partner... Mert persze vannak esetek, ahol alapból látszik, hogy a két ember nem egymáshoz való, de az ellenkezője nem egyértelmű."

Én is úgy sejtem, hogy a kommutativitás nem müxik társkeresésénél. Ha A-nak optimális lehet B, abból nem következik, hogy B-nek is optimális lesz A. Ez nagyban bonyolítja az egész történetet.

Egy kapcsolatban, én úgy sejtem, ritkábban "egyenlők" az emberek, az egyik esélyesebben jobban "húz" a másiknál (maximum az évek során "kiegyenlítődnek" a felek). És így a feladatunkban máris nem a mindkét oldalról egyforma optimálitás, a feltétlen kitűzendő cél.
Lehetséges érvek ehhez:
* A gépi algoritmusnak is vannak korlátai, bizonytalanságai
* Érdekes lehet a játék, ha amúgy persze a felek _tudják_, hogy a másik gép által kiadott személy (a) nekik optimális, (b) ők optimálisak a másiknak.
A dolog ott nehéz, hogy ezt el kéne tudni magyarázni, illetve lehetnek benne visszaélési lehetőségek. Azaz gyakorlati értelemben lehet, hogy mégicsak hülyeség (más felé kell venni az irányt). Az egyetlen dolog, ami nem kérdés számomra az ügyben, hogy "álompárok" kialakulása, tendenciózusan, nem esélyes.

A magam részéről úgy képzelném egy ilyen honlapon, hogy mindenki, mindig csak egyetlen mail-címet kap, a dinamikus interaktivitás jegyében. Persze az algoritmus tudna egy emberhez többet is rendelni, sőt valószínűség szerint csökkenő sorrendbe is helyezve őket. Pusztán az a kérdés, ebből mit és hogyan szabad tálalni

Szó nincs arról, hogy egy harmadik ember mondja, hogy két másiknak ki a legideálisabb. Ez kulcsfontosságú momentum az egész történetben. A pszichológus (a már kész párokkal karöltve), csak annyit tesz, hogy a próbálja detektálni, milyen tényezőkön áll vagy bukik egy jó kapcsolat. A tényezők konkrét értékei és a belőle való következtetések, már a társkereső feleken és a gépi algoritmuson múlik, a "rossz" szubjektivitást kizárva. A gépi algoritmus bár hibázik, de objektíven működik, az ember meg bár gyarló, de nem képes túljárni a gépi algoritmus komplex "észjárásán". Idevágó adatbányászatos analógia a "latent semantic indexing'.

Valóban rengeteg dolog van amit egyben érdemes lenne végiggondolni egy ilyen projektben résztvevőknek. Sőt én azt gondolom, hogy ezt egyedül senki nem tudja jól megcsinálni (szükségszerűen létező egyéni percepciók korlátai miatt)


UPDATE-3.

"(1) Azt az eszmefuttatásodat nem értem, hogy miért kell tudniuk, vagy megérteniük, hogy egy gép adja ki a találatot, és hogy ez egy optimális találat?
(2) "álompár" a kifejezést én alapból utálom. ;) Mit takar? Celebekre szokták mondani, amikor kívülről mindketten olyan szépek, összeillőnek tűnnek... majd egy év múlva elválnak.
(3) Szerintem a legnehezebb a pszichológiai rész. Vannak olyan párok, akik jól kiegészítik egymást, azaz épp egymás ellentettjei, és vannak olyanok, akik teljesen egyformák, és attól tudnak eggyek lenni... (bár itt nem arról van most szó, hogy nyissunk egy ilyen társközvetítőt :) ) én mégis úgy képzelném, hogy nem email címet adnék, hanem összehoznék egy első randit, egy kellemes helyen, és utána megkérdezném mindkét felet, hogy mi az első benyomása a másikról... ezek után, ennek tudatában lehet adni újabb találatot, ha az előző félresikerült."

A való életben is tudja az ember az udvarlás megkezdésekor, hogy ő választotta (szúrta ki) a másikat, avagy a másik választotta őt. Itt annyi a különbség, hogy mivel a gépi algoritmus "választ" ez az élmény alapesetben nincs meg a társkereső emberekben. A kérdés az, hogy "kell-e" ezt tudniuk.

Akkor nem álompár.:o)) Mondjuk így régi terminológiával, "egymásnak teremttetett" párok. Így jó?

Igen, a dolog nehézségét adja, hogy páronként más tényezőkön múlhat a párkapcsolat sikeressége, bár talán kijelenthető, hogy esélyesen találhatók erre közös sémák a világban.

Érdekes, én pont hogy nem a randiösszehozás felé látnám az irányt... Én csak információval támogatnám meg a potenciális társkeresőket, akik aztán innentől már tényleg a hagyományos utat járhatnák be, rögtön azzal kezdve, hogy eldöntik például mire használják a megkapott információt (mailcím). Némi kísérő adatok társaságában esetleg(????)


UPDATE-4.

"1. Tehát egy bizonyos szintig szükség van minimális regisztrált számra
2. Nem szükségszerű a pillanatnyi legjobb találatnak valóban a legjobbnak lennie, és azt adni. Pontosabban kell legyen egy minimum kritérium is, hogy legalább mennyiben kell a két félnek azonosulnia, ahhoz hogy valóban egymáshoz illőek legyenek.
(ha én nemdohányzó 40-50 közöttit keresek, akkor ne akarjanak 50 fölöttit adni, vagy dohányzó 45 éveset, mert nincs elég választék, viszont mindenáron azonnal ki akarnak szolgálni...)
Én úgy oldanám meg a feladatot, hogy végigfuttatnám egyik irányból a rendszert, majd a másik irányból is, és kialakítanék egy találati sorrendet. Végül összehasonlítanám egy olyan algoritmus segítségével, ami kikeresi azokat a találatokat, hogy mindkét fél részéről mondjuk legalább az első 5 vagy 10 első találaton belül legyen a másik, és őt ajánlanám ki :)"

Abszolút egyetértek. A "Nincs találat"-ot fel kell vállalni.

A második ponthoz én ugye azt mondom, hogy egyszerre csak egy címet szabad kiadnia magából a gépi algoritmusnak (egy emberhez), mégis lehet, hogy a két eset jelentős asszimmetriája miatt (A szemszögéből: A-nak optimális B, vagy A optimális B-nek), ha valaki többeknek optimális akkor azt valahogy lehessen megengedőbben kezelni.


UPDATE-5.

Melyik irányból akarsz közelíteni: szakmai vagy érzelmi (pszichológiai)? Lehetséges CSAK szakmai szempontokat figyelembe venni? ;)

A kérdés jó és fontos. Az a mondás, hogy létezik mind domainfüggő (magyarul tán tárgyfüggőt lehetne mondani), mind domainfüggetlen adatbányászat. A tárgyfüggő adatbányászat mellett az lehet az érv, hogy a konkrét téma specialitásainak kiaknázásával elvben jobb elemzési eredményeket lehet elérni ugyanazon adathalmazokon, mint tárgyfüggetlen adatbányászatnál, ahol az adathalmazra csak mint számhalmazra tekintenek. De a tárgyfüggetlen adatbányászat is öles léptekkel halad, ahol cél az, hogy minél erősebb generális módszerek legyenek, a problémák minél nagyobb halmazának kezelésére. Ilyen irányú adatbányászversenyek is léteznek, nem is kevesen. Egy tárgyfüggő adatbányászversenyre példa a Netflix1-Netflix2, a tárgyfüggetlenre a 2007-es SIGKDD-s idősorosztályozó verseny.

Visszakanyarodva a felvetett kérdésre társkeresésnél a "tárgy" a pszichológia. Ha van specialitás, aminek kiaknázásával jobb eredmény érheő el, akkor érdemes foglalkozni evvel a témával _is_.

Társkeresés és adatbányászat témát érintő blogpostjaim:
Társkeresés adatbányász alapokon
Társkeresés - Numerátorok
Dr. Helen Fisher mint a szerelem "brittudósa"?
Dr. Helen Fisher kérdőíve társkereséshez
Dr. Helen Fisher - Zárszó
Társkeresés adatbányászati támogatással
Beszéd, mint a sikeres párkapcsolat prediktora?
COMMENT:COM: "Házasság első látásra"

7 megjegyzés:

  1. Mire kikínlódtam magamból egy új címet, hogy legyen nicknevem :))) addigra elfelejtettem, mit is akarok ;)
    Viszont egy próbát megér, hogy ezt most írom ide.

    VálaszTörlés
  2. Azt hiszem levelemnek nem kifejezetten ezt a részét éreztem publikusnak ;)
    Inkább valami olyasmit szerettem volna mondani, hogy én úgy képzelném (és az adatbányászathoz még csak nem is konyítok)
    előszöris, kérdés: mi a cél?
    Valaki konkrét személy részére keresünk társat, vagy ideális párokat akarunk összehozni... talán nem mindegy.
    Én utóbbira szavaznék.
    Ehhez az első feltétel, hogy az adatbázisba minél többen regisztráljanak, esetleg az arány is jó, ha közel azonos a két nemből.
    Két fő csoportot lehet kialakítani (A) és(B)
    (nők és férfiak) és ha az egyiket rendeljük a másikhoz az jelenti a konkrét személynek keresünk partnert esetét. Ez viszont nem biztosan garantálja, hogy visszafelé is igaz az állítás, ezért jobb, ha két irányból kiindulva keressük a legjobban összeillőket. Nem a legoptimálisabbat, hanem azt, akiknél a legtöbb a közös rész (halmaz, megegyezés... vagy nevezzük bárminek)

    VálaszTörlés
  3. Én úgy tekintek a feladatra, hogy adott időpillanatban egyfelöl bennvan a rendszerben aktuálisan minden infó ami alapján dolgozhat a gépi algoritmus, másfelöl adni kell (ki kell szolgálni) egy mail-címet, annak, aki azt éppen kéri.

    Emiatt így akár már a következő pillanatban beeshet egy olyan új személy, aki boríthatja az előző pillanatban még érvényes rendszerszintű optimalitást - analóg módon a való élethez. :o)

    Viszont másik megközelítésben, a fenti értelemben vett adott pillanatban, egy konkrét pár nem "lóghat ki" a többi pár közül optimalitás szempontból.

    Összefoglalva, más szavakkal:

    - Adott időpillanatban vett, konkrét párra vonatkozó optimális párosítás konzisztens kell legyen a teljes rendszer szintű párosítással.

    - Mindig ki kell szolgálni a pártalálási igényeket, és rögtön az igény beérkezésekor. Nem szabad várni, hogy t idő múlva még többen lesznek, és esetleg majd még optimálisabb lehet a "párosítás".

    Zárójeles megjegyzés ide: azt szokták mondani és én evvel valahol egyetértek, hogy mivel egy átlagos ember reális eséllyel tudhat több emberrel is jó párkapcsolatban létezni, ezért a jó párválasztás stratégia az az, hogy az _első_ megfelelőt érdemes választani. :)

    VálaszTörlés
  4. Rosszul van beállítva az óra :(
    Ráadásul állandóan be kell írni girbe-gurba betűket, amiket utálok, mert néha alig olvashatóak...

    VálaszTörlés
  5. A társkereső oldalak sikere szerintem nem feltétlenül abból fog összejönni, hogy az adott személynek megfelelő párt fogsz találni. Itt a keresgélés, a többi ember vizsgálgatása is fontos lehet.

    Én egyszer egy álláskereső oldal létrehozásában vettem részt. Ott más volt a helyzet, a preferenciák megadása után azokat az állásokat dobtuk ki, melyek fit-eltek a kereső és a kínáló igényeihez és képességeihez. Nem az álomállást dobtuk ki, hanem azt, amelyik szintben megfelelt a kereső igényeinek. És viszont: a munkaerőkeresésnél azokat rangsoroltuk előre, akik nem túlképzettek, túlhaladottak az adott álláshely betöltéséhez.

    Persze a társkeresésénél is fontos ennek a fit-nek a megtalálása, de sokkal több a szubjektív szempont, például, hogy a feltöltött képeken hogy néz ki az illető.

    Erre vonatkozóan van egy vicces elemzés az egyik amerikai társkereső oldaltól, ime: http://blog.okcupid.com/index.php/2009/11/17/your-looks-and-online-dating/
    A dologban az a vicces, hogy a következtetések levonásánál egy tipikus hibát követnek el a cikkírók.

    VálaszTörlés
  6. A levelezés kontra bloghasználat csak megszokás kérdése :-)

    VálaszTörlés
  7. Csaba, néhány ellenvetés jut most így eszembe.
    (1) Mintha azt sugallnád, hogy 'első látásra' legyen szerelmes az ember (itt a mi esetünkben most fénykép alapján). Én azt vélem, hogy a hogy a hosszútávú kapcsolat sikeressége pont hogy nem ezen múlik, pont itt hibázik legtöbbet az egyszeri gyarló ember, viheti el rossz irányba pro vagy kontra az aktuális pillanatnyi megérzése.
    (2) Az is életszerű, hogy sok szimpatikus potenciális társat lát az ember társkeresésnél (sok ezren keresnek társat még kis hazánkban is), azaz pusztán fénykép alapján lehet bőség zavara is, azaz jó lenne valami egyéb támpont.
    (3) Ahogy például egy churn-nél, úgy szerintem a társkeresésnél érdemes _rögtön_ azokkal foglalkozni, akikkel a leginkább érdemes, azaz a potenciális jelöltek valószínűségek szerinti csökkenő sorrendbe vágott listájának elejéről indulva. Az én tapasztalatom, hogy bele lehet fáradni egy idő után az egészbe, azaz érdemes lehet még a kedvetlenedés elött magasabb minőségi szintre emelni az esélyeket (ha lehetséges).
    (4) Ez az egész ötlet csak lehetséges _alternatíva_, nem pedig kiváltása egyéb meglévő hagyományos módszereknek.

    PS: Mi az a kérdéses módszertani hiba, amit elkövettek a cikkírók? ;)

    VálaszTörlés