Vítejte na neoficiálním webu GreyLinkDC++ věnovaném NMDC klientovi nové generace pro P2P síť Direct Connect Dnešní datum: Aktuální čas: Svátek má: • Podpořte GreyLinkDC++ libovolnou částkou se systémem PaySec. • Copyright © 2007 - 2012 GreyLinkDC++ • All rights reserved.

Šmírování a matematika

V poslední době se čím dál tím víc objevují různé sledovací systémy,
které nás údajně mají chránit před zločinem. Například INDECT, jehož
cílem je vyvinout algoritmy, které automaticky rozpoznají kriminální
aktivity, jako je terorismus, dětská pornografie a další nebezpečné
aktivity. Nechci řešit, jaký je to neuvěřitelný vpád do soukromí. Chci
za pomocí jednoduché úvahy předvést, že systém, který dopředu rozpozná
podobná nebezpečí, vyrobit nelze.

25. 11. 2012

Nejprve se zamysleme, jak podobný systém sestrojit. Vezměme stovky kamer, šoupněme tam trochu špiclování na sociálních sítích a okořeňme to sledováním mobilních telefonů. To je ta snazší část. Ta těžší je ve vyhodnocení nasbíraných dat. Na to vezmeme počítač, který zpracuje všechny vstupy a hledá v nich něco zajímavého. Výstupem je obvykle pravděpodobnost toho, že se děje něco nekalého. Pokud hledáme teroristy, tak nula znamená, že má sledovaný člověk na hlavě svatozář a sto znamená, že má v jedné ruce natažený kalašnikov a v druhé zarámovanou fotku Bin Ladina.

Tady narážíme na první problém. Tato pravděpodobnost bude velmi nepřesná. Hlavně proto, že se zloduši snaží předstírat, že nejsou zloduši. Potvory. Kdyby alespoň na Twitter napsali, že jdou provést něco odporného, ale oni ne. Tváří se jako milius. Na druhou stranu, je spousta lidí, kteří navrhují naházet celý parlament do Vltavy. Ti to zase obvykle nechtějí realizovat. A to už vůbec nezmiňuji ty, kteří se chovají podezřele, prostě proto, že je to baví. Zkrátka, dostaneme nějaké výsledky a k těm musíme přistupovat velmi obezřetně.

Také se musíme rozhodnout, u jakých událostí budeme zasahovat. Musíme například říci: „Všichni, kterým náš systém přidělí pravděpodobnost 90 a výše musejí být ihned zatčeni a prověřeni.“ A tady je další háček. Pokud nastavíme tu hranici příliš nízko, tak budeme zatýkat mnoho obyčejných občanů. To nechceme, to bychom je naštvali. Nedejbože aby mezi nimi byl nějaký poslanec. Nebo dokonce známý zpěvák. Jeminánku. No jo, ale když hranici nastavíme příliš vysoko, tak nám může nějaký zloduch uniknout. Kdyby nám proklouzl, tak by se nás všichni ptali, k čemu ten náš systém je? Tak jako tak, nějak tu hranici nastavit musíme. Vždy ale budeme muset volit, jestli budeme spíš zatýkat nevinné nebo spíš necháme proklouznout padouchy.

Na chvíli zapomeňme na předchozí obtíže a předstírejme, že se nám tyto problémy podaří vyřešit. Vynalezneme třeba přístroj na čtení myšlenek, který odhalí 99% ze všech teroristů a jen 5% nevinných občanů označí za podezřelé. Opakuji, že takto přesný systém se vyskytuje jen v pohádkách a žádostech o grant, ale předpokládejme, že ho dokážeme sestrojit. Co by to znamenalo?

Nainstalujme ho třeba v Pražských ulicích a uvidíme. Řekněme, že za den zaznamená milión lidí. Čtrnáct dnů po zavedení systému do Prahy přiletí pět teroristů, kteří u nás jdou kout své pikle. Samozřejmě je nenapadne nic lepšího, než se jít producírovat před naše kamery a čtečky myšlenek. Odhalí je náš drahý systém nebo ne?

Samozřejmě že ano. Odhalí všech pět (5×99%=4,95). Hurá! Funguje to. No jo, ale náš super systém také každý den odhalil jako teroristy i 50 000 (1 000 000×0.05) normálních lidí! Mezi nimi bude těch našich pět teroristů schováno. Představte si, že jste policista, který provádí výslechy. Jaký bude váš přístup po čtrnácti dnech zbytečných výslechů? Jaký bude váš přístup po roce? Je úplně jedno, že náš systém ty teroristy najde, mezi těmi desítkami tisíc falešných poplachů se stejně ztratí.

Vydejme se ještě hlouběji do říše fantazie a předstírejme, že náš systém špatně označí jen jedno procento poctivých cestujících. To ale pořád ještě znamená, že za den označí za podezřelé 10 000 lidí (1 000 000×0.01). Ano, denně deset tisíc naštvaných lidí odvlečených k výslechu. A to jsme si vybásnili systém neslýchané přesnosti. Ve skutečnosti by byla ta čísla ještě mnohem horší.

Čím to je? Důvod je jednoduchý. Terorismus a obecně závažný zločin je velmi vzácný. Za takových okolností i sebepřesnější systém prostě selhává. Matematicky prostě není možné takový systém sestrojit. Je to jako hledání jehly v kupce sena. Jenom s tím rozdílem, že ve většině kupek žádná jehla není a my je stejně všechny musíme stéblo po stéblu prohledat. Co kdyby se tam jednou nějaká jehla objevila?

Tak jo, na teroristy to nefunguje, ale my už jsme do našeho systému investovali spoustu peněz. Co s tím? Co takhle začít stíhat obvyklejší jevy? Třeba přecházení na červenou. Kdo žije v Praze ví, že na červenou přechází přesně 40% procent obyvatel. Jak si náš systém bude stát za těchto okolností? Kolik z těch čtyř set tisíc hříšníků odhalí? Zkuste si to spočítat sami. Uteče jen jedno procento, to jsou čtyři tisíce, takže správně odhalí 396 000 delikventů. Skvělé! Falešně obviní jen 6 000 lidí (600 000×0.01). Ještě lepší! Ti nám na pokutách bohatě vynahradí to jedno procento co nám uteklo.

Tím, jak jsme začali hledat častější jev, se nám dramaticky zlepšil poměr mezi správnými výsledky a chybami. Ano, pořád máme tisíce občanů obviněných neprávem. Ale zároveň máme několik set tisíc správně odhalených. Už se mi vyplatí to nějak ručně dotřídit. Vidíme, že když aplikujeme úplně stejné postupy na běžné jevy, tak to najednou začíná dávat smysl. V obou případech máme stejnou chybovost, ale u častějších jevů nám najednou mnohem méně vadí.

Celý problém má ještě jeden parametr, který jsem nezmínil. Je to cena chyby. Zjišťování jestli je podezřelý terorista je časově náročné. Navíc si nemohu dovolit nechat proklouznout ani jednoho teroristu, takže musím všechny výslechy dělat opravdu pečlivě. U přecházení na červenou je situace opačná. Když si podezřelý stěžuje, že se ničeho nedopustil tak snadno ověřím, jestli je to pravda. A když jsem na pochybách, tak není problém ho pustit.

Problematika chybovosti u řídkých jevů není vůbec nová. Dávno se například používá u diagnostiky chorob. Lékaři vědí, že nemá smysl dělat plošné testy u nemocí, které jsou vzácné. Proto se například nedělají plošné testy na rakovinu u mladých lidí. Ne proto, že ji nemohou mít. Je to proto, že by falešných pozitiv bylo tolik, že by následné ověřování bylo neuvěřitelně nákladné. U starší populace, kde se pravděpodobnost výskytu zvýší, je už situace jiná a plošné testy dávají smysl.

Schválně se zkuste zamyslet, jak fungují ostatní podobné systémy. Hledání výbušnin v zavazadlech na letišti, spam filtery, hledání dopingu u sportovců, automatická detekce podvodů na platebních kartách, automatická detekce porušování autorských práv a jiné. Když se začnete rozhlížet, zjistíte, že se s podobnou situací potýká spousta systémů. Bez ohledu na kontext, vám vždy ale vyjde, že podobné systémy mají smysl jen u relativně častých jevů nebo u věcí kde je cena chyby malá. Pokud je jev řídký a chyby drahé, tak nemá jakýkoliv systém šanci.

Takže pokud někoho uvidíte instalovat kamerový systém, tak mu nevěřte, že se jedná o prevenci proti závažným zločinům. Jediné k čemu se podobné systémy dají použít je usnadnění vyšetřování zločinů, které už se staly. Nebo ještě hůře, ke stíhání jevů, kterých se dopouští velká část obyvatelstva. Opravdu to chceme?

Zdroje a poznámky:

Omlouvám se, že jsem v článku ani jednou nezmínil Bayesovu větu, kolem které se to celé točí. Nechtěl jsem vystrašit čtenáře. Také jsem si matematiku trochu zjednodušoval, třeba tím, že jsem teroristy přičetl k obyvatelům Prahy. Je to chyba, ale na výsledek by to změnilo zanedbatelně.

Pokud vás téma zaujalo doporučuji:

Skvělou knihu o Bayesově větě: The Theory That Would Not Die, Sharon Bertsch McGrayne

Článek na Wikipedii o tomto jevu https://en.wikipedia.org/wiki/Base_rate_fallacy

Další článek https://en.wikipedia.org/wiki/False_positive_paradox

Klasická kniha o bezpečnostním divadýlku Beyond Fear: Thinking Sensibly About Security in an Uncertain World. Bruce Schneier

Pěkná kniha o tom, jak by mohl takový policejní stát vypadat Little Brother, Cory Doctorow

Špiclovací projekt EU INDECT

Špiclovací projekt pražského dopravního podniku http://www.lidovky.cz/pozor-v-metru-vas-budou-sledovat-kamery-velkeho-bratra-pgu-/ln_domov.asp?c=A110420_172929_ln_domov_ogo

Licencováno pod CC-BY-NC-SA

 

Datum: 25. 11. 2012, Autor: Lukáš Křečan
Přečteno: 463x
Zobrazit článek pro tisk



Doposud hodnotilo 13 čtenářů, celková známka je 1.46.


Komentáře k článku

25. 11. 2012
bdf
ed

25. 11. 2012
Jan
Já tedy nevím…

25. 11. 2012
Olgoj Chorchoj
Re: Já tedy nevím…

25. 11. 2012
Jan
Re: Re: Já tedy nevím…

25. 11. 2012
Virteal

Zdroj: Pirátské Noviny

Zanechej komentář


Související příspěvky:


Domů | NovinkyKomentáře | Náhledy | *Nastavení | Stažení | Sponzor | Kontakt | Nápověda | Archív | **Fórum | **Tajné

SuperLink.cz NAVRCHOLU.cz PageRank Seznam S-Rank JyxoRank Alexa Rank Compete Rank Powered by WordPress


Partneři a Sponzoři webu GreyLinkDC++

Webhosting Endora.cz GreyLinkDC++ » Klikni pro info o statusu Sponzor a Partner

CZIN.eu | Začátek.cz | Katalog.mzf.cz | Telsey.cz | Webkatalog | TopLinks.cz | TopSites.cz | HyperSmash


Advertising / Reklama