Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. április 8., csütörtök

Adatbányászat és etika



Stop the world! I want to get off. - Állítsátok meg a világot! Ki akarok szállni.

Olvasom az adatbányászat blog mai postját és erős hiányérzet alakul ki bennem. Persze az ügyben  én sem fogok tudni írni 'teljeset', de pár gondolat erejéig szeretném az egész témát tágabb kontextusba helyezni.

Először is a magam részéről mindenképpen üdvözlöm a vonatkozó erőfeszítéseit az SPSS Hungary Kft-nek, hogy a konferencia szervezése során, ilyen súllyal ekkora teret ad a témának, ahogy ennek egyébként már adtam is hangot szakmai levlistán is.

Nekem első reflexióként a fenti postra, az a példa jutott eszembe, ahol rögtön nem segít a k-anonimitás típusú ujdonság. Vagyis konkréten a postban is említett ügyféltörténet-alapú hitelbírálat. Ugyanis józan belátás alapján egyfelől jogos igénye egy banknak hitelbírálatkor egyes emberek ignorálása, ami csak névhez köthetően tehető meg. Másfelől evvel az igényével a bank vissza tud élni egyes ügyfelei rovására.

Azt is meg kell említsem, hogy hozzám nagyon közel áll a témában Bodon Ferenc tanulmányának tárgybeli vonatkozó fejezete. Ennek is köszönhető, hogy én kevésbé szeretek beszélni "adatvédelemről", pláne, hogy nem az adatokat kell(ene) védeni á lá Besenyő Pista bácsi Nooormális? :o), hanem az adatok mögött lévő embert.Ha pedig az embert kell védeni a számoktól, valami nehezen számszerűsíthető megfontolások alapján, akkor ott pillanatok alatt előkerül az etika.

Én mindig két irányból szoktam közelíteni a (például adatbányászatos) problémákra adott megoldások értékelésekor. Egyfajta speciális költség-haszon elemzés keretében a (1) "jóság", illetve a (2) "támadhatóság" irányából. Merthogy hiába jó valami, ha támadhatóság miatt kérészéletűségre kárhoztatódik és ha úgy stabil valami, ha közben rossz. Emiatt érzem asszim­metrikusnak a fent idézett post üzenetét. Merthogy az én véleményem szerint egyszerre van a bányászandó adatokban 'potenciál' és kell legyen egyúttal belső 'kényszer' az adatbányászban, hogy védje az embert az algoritmusok révén közvetlenül generálodó túlkapásoktól, vagy pusztán csak odanemfigyelésektől. Ig­no­rál­ha­tat­lan dualitásnak érzem ezt a dolgot.

Az emlegetett dualitás megtalálható az adatbányász-etika megítélésekor is. Azt gondolom egyfelöl óriási irott alapú túlszabályozás van mind szűkebb kis hazánkban, mind tágabban az EU-ban. Ez a gigászi szabályozás én felfogásomban menthetetlenül nem lehet sem teljes, sem ellentmondásmentes. Arról már nem beszélve, hogy definitive nem lehet minimális se (tovább-egyszerűsíthetetlensége okán). Másfelöl valahogy én úgy érzékelem a józan paraszti ész száműzve van a szabályozásokból is, meg sokszor a praktikus és etikus tárgybeli meg­fon­to­lások­ból is.

A nyugati szabadpiaci liberalizmus szeret tetszelegni a nemi diszkrimináció elutasításával, ám hogy-hogy nem többtíz éves tapasztalat, hogy ugyanazon munkáért a nők átlagosan relevánsan kevesebbet keresnek, mint a férfiak. Ez aztán szépen tovagördül az élet egyéb dolgaiban is, ami adatbányász-elemzésekben is lecsapódhat.

Úgyanígy szeret tetszelegni faji és egyéb diszkrimináció elutasításával is, mégis régóta létező bevett gyakorlat demográfiai adatok alapján történő hitelbírálat. Az ilyen esetek pedig folyamatosan felvetik az egyszerre szűznek maradni és k*rvának lenni nehezen megoldható problémáját.

Következzék pár negatív példa, tengernyi továbbit lehetne még sorolni.De csak azért, hogy aztán lehessen pár mondatot írni a pozitív megközelítés felöl is.

1. Lefordítható az ember számokra? A korábbi postomban társkeresés kapcsán vesézett Numerátorok könyv első fejezete azt elemzi, hogy az IBM nevű multinacionális cég hogyan fordítja le a számok nyelvére a dolgozóit, a költséghatékony tervezés jegyében. A cél világos: megfelelő embereket optimálisan megtalálni a feladatokra (aki helyszínen tud lenni, megfelelő időtávban, legolcsóbban, szükséges tudással, a többi kollégához megfelelő kapcsolódással, stb.). És mik az eszközök hozzá? Kapcsolatelemzések mobilhívásokon, effektív szüvegbányászat levelezésekben, ki kivel milyen konfenrencián volt stb. Egészen odáig, hogy kb. minden, ember által cégen belül ejtett, digitális lábnyom potencális kincsesbánya az algoritmus finomításához.

2. Vagy ott van a választások témája ez most meglehetősen aktuális :o) Pár hónapja Obama kapcsán is lehetett olvasni SPSS-elemzésekről.És ekkor az egyszeri halandó emberben felmerül, hogy a kétségkívül létező és hatékony szavazatmaximálási technikák jó célt  szolgálják-e és jól? Nem tolódik-e el a hangsúly az évekig tartó érdemi kormányzási munka taposómalma felöl, a választás - pillanatnyiságában túlhajtott - eseménye felé?

3. Ha inverz Robinson-lista lenne a gyakorlat, akkor vajon hány direkt marketing levelet küldenének ki a bankok? Ez az a lista, amire a banki ügyfelek feliratkozhatnak, hogy nem kérnek DM-levelet.Nevét onnan kapta, hogy az ügyfél olyan szeretne lenni a cég szempontjából, mint egy szigetlakó Robinson. :o) Az ilyen ügyfeleket szeretik legkevésbé a bankok CRM-csapatai. ;) Az inverz Robinson-lista meg olyan lenne, hogy az ügyfelek feliratkozhatnának rá, ha kérnek DM-leveleket.

4. Tegyük fel egy banki ügyfél öt(?) éve 30+-os bucketbe került egy hiteltörlesztés részletfizetése kapcsán. A 30+ bucket azt jelenti, hogy a teljes hiteltörlesztés során volt egy olyan részletfizetés, ami 30 napnál több késedelmet szenvedett (de 60 napnál kevesebbet, mert az már másik bucket) Nyílván a csalóktól védeni kell a pénzintézeteket. De ez jogalap-e egy jövőbeli kockázat elemzésekor, hogy egy határ után automatikusan elutasítódjék ügyfelünk későbbi hitelkérelme, Provident típusú ragadozók karmai közé terelve őt. Tudta-e ez az elutasított ügyfél korábbi hitelfelvételkor, hogy részletfizetési adatait mire használja fel később a bank?

A negatív példák számbavétele után az én felfogásomban tehát az lenne az etikus, hogy minden adatbányász projektnél, a dualitás jegyében egyfelöl szakmai oldalról szokásosan meg kell nézni, érdemes-e a témával foglalkozni, van-e haszna, van-e a üzleti potenciál benne. Ugyanakkor kötelezőnek érzem azt is megnézni, hogy lehet-e vele kárt csinálni, rosszul használni, ha igen hogyan lehet védekezni ellene, hogyan lehet ennek a "költségét" is legalább láthatóvá tenni. Az pedig egy további kérdés lehet, hogy mindezt hogyan lehet használható és számonkérhető módon a gyakorlatba ültetni.

A túlszabályozás elkerülése jegyében, például az egy elv lehet; az embereknek a túlzott numerátorkodástól való védésekor, hogy minden olyan adat ami személyhez kötött arról lehessen tudni, hogy (1) tárolásra kerül, ez ma már hálistennek egyre inkább triviálitás, illetve (2) tudja az ügyfél hogy mire lehet felhasználni az adott adatát. Nincs baj a 30+-ba kerülés diszkrimináló felhasználásával, akkor ha tud a lehetőségről az ügyfél, rögtön a 30+-ba kerüléskor. És bátran meglehet adni anonim módon a numerátoros társkeresésnél a legőszintébben az adatokat, mert úgy nyerhet valaki előnyt, hogy esélyesen nem szenved hátrányt.

Azt gondolom tehát,
(1) még racionálisan is megéri etikusnak lenni az adatbányásznak, mert a bizalom frontján például megtérülhet.
(2) maximálisan megvan a létjogosultsága a téma körbejárásának. Kiváncsi vagyok mi fog kisülni az egészből az SPSS-konferencián.

Nincsenek megjegyzések:

Megjegyzés küldése