Matematika spodnjega perila

    Nate Silver, ameriški statistik in novinar, ki je zaslovel z zelo natančnimi napovedmi izidov volitev v ZDA, v svoji zadnji knjigi The Signal and the Noise: Why Most Predictions Fail but Some Don’t (Penguin, 2012) analizira najrazličnejše oblike napovedovanja prihodnosti na osnovi zbranih podatkov. Kot pravi, imamo danes na voljo zelo veliko informacij, iz katerih lahko izhajamo, a se razmerje med tem, kar dejansko vemo, in tem, kar le mislimo, da vemo, vseeno povečuje. Zanesljivost napovedi, še posebej na področjih, ki obravnavajo odločanje ljudi, mnogokrat ni tako dobra, kot se nam morda zdi.

    Prva informacijska revolucija

    V uvodu knjige Silver povzame nekaj ključnih dogodkov iz zgodovine človeštva, ki so pomembno vplivali na razumevanje, vrednotenje in hranjenje informacij. Do prve velike informacijske revolucije je prišlo že v petnajstem stoletju, ko so v Evropi začeli tiskati knjige. Pred množično uporabo te izjemno pomembne tehnološke iznajdbe so bile namreč knjige zelo drage in težko dostopne. Dolga stoletja so knjige tudi hitreje propadale, kot so jih uspeli prepisovalci obnavljati, tako da se je znanje celo v knjižnicah izgubljalo.

    Hudo težavo za učenjake je pred iznajdbo tiska predstavljala tudi nezanesljivost rokopisov, saj bralec nikoli ni mogel biti povsem prepričan, da se prepisovalec na kakem ključnem mestu ni morda zmotil. Običajno so se takšne napake ponavljale pri vseh nadaljnjih transkripcijah, tako da tudi preverjanje v drugih verzijah rokopisa ni vedno odpravilo težav.

    Z iznajdbo tiska pa je v nekaj desetletjih cena knjig naenkrat padla za več stokrat in se že zelo približala današnjim vrednostim. Število knjig, ki so bile na voljo vsakomur, ki je znal brati, je začelo naraščati z neverjetno hitrostjo. Kmalu se je vzpostavila tudi močna založniška industrija, ki je na začetku najbolj služila s prodajo heretičnih besedil in raznih domnevno strokovnih razprav sumljivega izvora, ki bi jim danes rekli psevdoznanost.

    Kot omeni Silver, reformacijske teze, ki jih je Martin Luther po legendi 31. oktobra 1517 nabil na vrata cerkve, same po sebi ne bi bile tako vplivne, če jih ne bi razmnožili s pomočjo tiska. Podobne ideje so namreč med ljudmi že krožile, tisto kar je bilo tokrat drugače je bilo prav dejstvo, da so jih skupaj natisnili v še za današnje čase velikanski nakladi tristo tisoč izvodov.

    Tveganje in negotovost

    Ljudje smo bitja, ki med pojavi v svoji okolici neprestano iščemo vzorce, ki smo jih že srečali in na katere se znamo odzvati. Vendar ta naš zelo učinkovit in pomemben možganski mehanizem občasno vidi vzorce tudi tam, kjer jih dejansko ni, kar lahko privede do težav in zapletov.

    Nate Silver v knjigi opozori na pomembno razlikovanje med tveganjem (risk) in negotovostjo (uncertainty). Z besedo tveganje opiše okoliščine, pri katerih lahko ocenimo zanesljivost napovedi oziroma pričakovano napako izračunov ali meritev, ki smo jih opravili, medtem ko z besedo negotovost označi obravnavo dogodkov, pri katerih nimamo nobene opore, da bi lahko predvideli napako njihove napovedi oziroma možno odstopanje od vrednosti, ki se bo dejansko realizirala.

    Kot pravi, je v tržni ekonomiji tveganje bistveni del sistema, medtem ko so z negotovostjo velike težave, ki lahko občasno povzročijo hude zaplete. Pri nedavni finančni krizi se je denimo izkazalo, da so bonitetne hiše povsem napačno domnevale, da znajo pravilno ocenjevati tveganja raznih finančnih produktov, izkazalo pa se je, da so bile njihove predpostavke, iz katerih so izhajali, povsem napačne.

    Velika zmota bonitetnih hiš je bila namreč, da so tveganja izračunavali pod predpostavko, da deluje večina akterjev na trgu povsem neodvisno. A ko je prišlo do krize, so bili vsi akterji naenkrat v zelo podobnem sistemskem položaju, tako da se je izkazalo, da recimo v paket skupaj povezane različne obveznice in delnice niso več neodvisne, ampak si mnogokrat delijo zelo podobne usode.

    Silver navaja preprost primer. Združite skupaj pet obveznic, za katere ocenjujete, da je pri vsaki verjetnost, da je njihov izdajatelj ne bo mogel poplačati, nekaj odstotkov. Če velja pravilo, da cel snop petih obveznic izgubi vrednost samo v primeru, če vseh pet obveznic naenkrat nima več kritja, se zdi, da gre pri takemu paketu za zelo varno naložbo. Bonitetne agencije so zato tovrstne pakete ocenjevale z najvišjimi bonitetnimi ocenami.

    Vendar pa so bonitetne hiše pri svojih izračunih pozabile, da veljajo tovrstne ocene le ob predpostavki, da gre za pet povsem nepovezanih obveznic, ki niti malo niso odvisne ena od druge. Model, po katerem so ocenjevale tveganja, se je tako takoj po začetku krize izkazal za napačnega. Čeprav so menili, da imajo opravka s tveganji, je dejansko šlo za negotovost.

    Vara ali ne vara?

    Nate Silver je znal že večkrat zelo zanesljivo napovedati izide ameriških volitev, ker je izhajal iz vseh dostopnih meritev javnega mnenja, ki jih povezal skupaj tako, da je ankete iz virov, ki so v preteklosti bolje napovedali pravi rezultat, upošteval v večji meri kot tiste, ki so se v preteklosti občutneje zmotile.

    Silver je velik zagovornik Bayesovega teorema, ki predstavlja matematični opis spremembe verjetnosti nekega dogodka, ko pridobimo nove podatke. Da bi lažje razumeli, za kaj gre, Silver navede naslednji primer. Recimo, da najdemo med umazano obleko, ki jo prinese naš partner iz službene poti, neznano spodnje perilo. Kaj lahko iz te najdbe sklepamo? Kako to novo dejstvo spremeni naše ocene verjetnosti, da nas partner vara?

    Da bi ocenili spremembo verjetnosti dogodka po soočenju z novimi dejstvi, potrebujemo najprej nekaj podatkov. Po Bayesovem teoremu moramo oceniti, kakšna je verjetnost dogodka pod predpostavko, da je hipoteza, da nas partner vara, pravilna. Silver navede oceno, da je 50% možnosti, da bomo spodnje perilo našli, če predpostavimo, da nas partner vara. Ni namreč zanemarljiva možnost, da bo partner toliko bolj pazljiv, če nas dejansko vara, in ne bo puščal neznanega perila na vidnih mestih.

    Nato potrebujemo oceno o verjetnosti dogodka pod predpostavko, da hipoteza ni pravilna. Možno je seveda, da se je perilo nekako po naključju pomešalo med oblačila našega partnerja. Recimo, da je verjetnost za tovrstno verzijo dogodkov 5%. Na koncu potrebujemo še verjetnost dogodka preden se je pojavilo novo dejstvo. Po ameriških statistikah naj bi vsako leto svojega partnerja prevaralo približno 4% ljudi v zvezah. Ta podatek lahko služi za izhodišče.

    Po Bayesovem teoremu, ki ni nič drugega kot preprosta enačba, lahko iz zgornjih ocen izračunamo, da se po najdbi perila verjetnost, da nas partner vara, poveča iz 4% na 29%. Seveda vsaka nadaljnja informacija, ki jo pridobimo, verjetnost dodatno popravi navzgor ali navzdol, kar je tudi osnovna ideja Bayesovega pristopa. Kot pravi Silver, je treba verjetnost kot napoved neprestano prilagajati glede na nove podatke, ki jih sproti pridobivamo, kar sam počne tudi ko izračunava napovedi izidov volitev.

    Bayesov pristop ima rivala v metodi, ki jo je v začetku dvajsetega stoletja razvil britanski statistik Ronald A. Fisher. Njegova metoda statističnega preverjanja hipotez se še posebej v znanosti veliko uporablja tudi danes. Ideja, ki jo je razvil Fisher, temelji na predpostavki, da izhaja statistična napaka iz tega, da imamo podatke le za vzorec celotne populacije, ne za vso populacijo.

    Ko izhajamo iz vzorca, ki ni reprezentativen za celotno populacijo, se lahko pojavijo resne težave, ki so po mnenju Silverja kar pogoste. Čeprav lahko po Fisherjevi metodi natančno izračunamo pričakovano napako, je ta v določenih okoliščinah povsem napačna. Običajno se to zgodi takrat, ko napačno določimo zvrst dogodka, ki smo mu priča, ali se ta s časom spreminja. Recimo, da je nekdo zelo zanesljiv voznik, ki ni bil še nikoli udeležen v nesreči, čeprav avto vozi že več desetletij. Vendar ta njegova statistika nikakor ne pomeni, da se je varno z njim peljati tudi takrat, ko je se enkrat spozabi in na zabavi popije preveč alkohola.

    Podobno je tudi v primeru, ko izhajamo iz modela, ki zelo dobro opisuje dogajanje na trgu v običajnih obdobjih trgovanja. Ko pa se pojavi kriza, tak model povsem odpove in ne daje več pravilnih napovedi, tudi če je bil še nedavno povsem zanesljiv.

    SHARE