Algoritme-aversjon

Magma 03.12.2019

Hallgeir Sjåstad

En gammel problemstilling med fornyet relevans Sammendrag Nyere utvikling innen kunstig intelligens og maskinlæring tilbyr enorme muligheter, men også betydelige utfordringer.

Om bare halvparten av forhåpningene slår til, vil selvlærende algoritmer snart kunne tilby datadrevet beslutningsstøtte på et nivå som verden aldri før har sett. Samtidig er det noe som holder oss tilbake. Psykologisk forskning viser at motstanden mot algoritmer er langt fra ny: Helt siden 1950-tallet har vi latt være å ta i bruk svært enkle modeller for statistisk prediksjon, til tross for en treffsikkerhet som er påviselig bedre enn menneskelige eksperter på en rekke områder. Derfor stoler vi fortsatt på fastlegens magefølelse i helsevesenet og på intervjuerens magefølelse i ansettelsesprosesser, selv i tilfeller hvor en enkel modell kan gjøre en bedre jobb. I denne artikkelen gir jeg en kortfattet oversikt over hvordan folk flest forholder seg til automatiserte beslutningsprosesser, og fire psykologiske faktorer som kan forklare fenomenet algoritme-aversjon: tendensen til å foretrekke en menneskelig vurdering selv når vi vet at en datadrevet algoritme har høyere treffsikkerhet. Disse faktorene omfatter 1) overdreven tillit til menneskelige eksperter, 2) ulik vekting av maskinelle feil over menneskelige feil, 3) sosiale behov, og 4) frykten for tapt individualitet. For å utvikle gode beslutningssystemer som er til mer hjelp enn skade, trengs det nøye tilpasning til disse psykologiske faktorene gjennom systematisk utprøving i kontrollerte eksperimenter. I denne utviklingen er det avgjørende at vi tar hensyn til at brukeren i den andre enden fortsatt er et menneske av kjøtt og blod - med fornuft og følelser, åpenhet og fordommer, og svært stor variasjon i teknologisk kompetanse.

Innledning

I dette spesialnummeret av Magma ser vi et stort mangfold av ulike perspektiver på hvordan kunstig intelligens og maskinlæring kan brukes innen finansiell økonomi og strategiske beslutninger - såkalt fintech. I denne artikkelen tar jeg en annen tilnærming og vil se nærmere på den menneskelige komponenten. Spesifikt vil jeg påpeke hvilke psykologiske barrierer som kan hindre systematisk utprøving av ny teknologi, selv når denne teknologien har bedre treffsikkerhet enn menneskelige eksperter.

Innen alt fra helsevesen og utdanning til bank og forsikring vil vi stadig oftere møte på digitaliserte hjelpere i form av chatteroboter og avatarer. Men vil egentlig folk flest ha denne teknologien? Og dersom svaret er 'nei', er det bare enda bedre teknologi og enda bedre treffsikkerhet som skal til før folk vil ønske å ta dem i bruk? Som leseren raskt vil se, er dette egentlig en gammel problemstilling, men som nå har fått fornyet relevans. Siden det i psykologifaget har blitt forsket mest på hvordan folk forholder seg til statistiske modeller og ekspertvurderinger i en helsekontekst, kommer jeg til å bruke flest eksempler fra dette området. Likevel vil det komme klart frem at denne forskningen har bred relevans også for andre områder hvor ny beslutningsteknologi banker på døren, både i organisasjoner og i enkeltindividets hverdag.

Kunstig intelligens: Den nye beslutningsteknologien

Hvordan bør man sette en medisinsk diagnose med størst mulig presisjon? Og gitt pasientens diagnose og øvrige sykdomshistorikk, hvordan bør man vurdere sannsynligheten for ulike behandlingsutfall slik at man velger den behandlingen som har best sjanser til å lykkes? Mange av oss har stor tiltro til at en erfaren lege vil være riktig person til jobben, men hva hvis intelligente maskiner treffer bedre og gjør færre feil?

Denne problemstillingen er langt fra science fiction. Bare i løpet av de siste fem årene har det kommet en serie forskningsartikler som viser at såkalt medisinsk kunstig intelligens (AI: artificial intelligence) presterer like bra og bedre enn menneskelige eksperter (for oversikt, se Longoni, Bonezzi, & Morewedge, 2019). Både når det gjelder identifisering av hjertesykdom (Hutson, 2017), hudkreft (Haenssle mfl. 2018) og øyesykdommer (Gulshan, Peng, & Coram, 2016), har det vist seg at en lett tilgjengelig AI-algoritme har like høy treffsikkerhet som menneskelige ekspertvurderinger. En studie som sammenlignet IBM Watson-maskinen med medisinske eksperter på tvers av 1000 kreftdiagnoser, fant at Watson-maskinen avdekket behandlingsalternativer som legene gikk glipp av i hele 30 prosent av tilfellene (Lohr, 2016). I vurderinger av prioritert behandling (hvordan rangere akuttmedisinske tilfeller av ulik alvorlighetsgrad) utførte en AI-algoritme korrekt vurdering i 90,2 prosent av tilfellene, selv om legene kun gjorde en korrekt vurdering i 77,5 prosent av tilfellene (Donnelly, 2017).

Foreløpig er dette bare enkeltstudier, så det trengs fortsatt mer forskning for å kunne si noe med større sikkerhet. Samtidig er det allerede godt dokumentert at selv dyktige leger og andre eksperter har kognitive begrensninger som leder til systematiske feil (Kahneman, 2011; Hastie & Dawes, 2010). Det er derfor mye som tyder på at AI-algoritmer som beslutningsstøtte kan bidra til bedre vurderinger og lavere feilmarginer allerede med dagens teknologi, som i beste fall kan gi bedre behandling til en lavere kostnad.

Denne problemstillingen er på ingen måte begrenset til medisinfaget. I årene som kommer, vil dette også bli en diskusjon blant psykologer som gjør livsviktige vurderinger innen psykisk helsevern, ledere som tar beslutninger om hvem som skal ansettes i hvilken stilling, og privatpersoner som lurer på hva de bør gjøre med sparepengene sine. Det er viktig å diskutere dette nå fordi det er langt fra sikkert at mer og bedre teknologi alltid vil lede til bedre tjenester og bedre resultater for folk flest. Vil vi egentlig dette? Til syvende og sist må det være en reell etterspørsel fra både konsumenter, bedrifter og politiske beslutningstakere før nye systemer blir satt i verk.

Derfor trenger vi forskningsbasert kunnskap om når, hvordan og hvor mye vi bør prøve ut av den nye beslutningsteknologien. Per i dag er vi langt unna den systematiske utprøvingen som trengs for å kunne avgjøre i hvilken grad AI-teknologi bør skaleres opp og anvendes på nye områder, og i neste steg, hvorvidt folk flest faktisk ønsker seg disse tjenestene. Problemstillingen handler dermed like mye om psykologi som den handler om teknologi.

Statistiske algoritmer: En gammel beslutningsteknologi

AI-algoritmer og ny teknologiutvikling til tross; selve motstanden mot automatiserte analyser er langt fra ny. Helt siden 1950-tallet, lenge før fremveksten av avanserte former for kunstig intelligens, har vi visst fra psykologisk forskning at selv enkle statistiske algoritmer er mer treffsikre enn menneskelige eksperter på en rekke områder. De første studiene sammenlignet statistisk prediksjon med såkalt klinisk prediksjon (Meehl, 1954; Sawyer, 1966; Einhorn, 1972; Dawes, 1979; Dawes, Faust, & Meehl, 1989). Her ba man menneskelige eksperter som leger og psykologer om å predikere fremtidige behandlingsutfall på basis av all tilgjengelig informasjon. Hvor lenge vil denne pasienten ha igjen å leve? Hvor god effekt vil behandling A ha i sammenligning med behandling B eller ingen behandling? Så sammenlignet man den faktiske treffsikkerheten av de menneskelige ekspertvurderingene med prediksjonene fra en enkel regresjonsmodell basert på samme informasjonsgrunnlag (f.eks. den spesifikke diagnosen, sykdomshistorie, kjønn og alder).

Resultatene? Den enkle statistiske modellen viste seg å ha påviselig bedre treffsikkerhet i det store flertallet av tilfellene, og i bare noen få tilfeller var de menneskelige ekspertene like gode. Kanskje overraskende for de fleste av oss, fant forskerne ingen tilfeller hvor de menneskelige ekspertene var systematisk bedre enn den statistiske modellen.

Det har nå gått over 60 år siden de første studiene på dette området, og konklusjonen også fra nyere forskning har forblitt den samme (for oversikt, se Grove, Zald, Lebow, Snitz, & Nelson, 2000; Hastie & Dawes, 2010). Jobbseleksjon er et høyaktuelt eksempel. Ustrukturerte intervjuer benyttes fortsatt svært hyppig i ansettelsesprosesser både i private og offentlige virksomheter, der intervjueren forsøker å danne seg et helhetsinntrykk av hvor godt egnet den enkelte søker vil være for den aktuelle stillingen. Mange synes å ha stor tro på denne typen intervjuer, og noen ganger argumenteres det for at intervju er en bedre metode for å «se hele mennesket» enn opptak basert på en enklere vurdering av karakterer, tidligere jobbprestasjoner som ligner på den type jobb man har søkt på, og eventuelle prestasjoner på standardiserte tester som supplement. Problemet er bare at forskningen gjentatte ganger har vist at ustrukturerte intervjuer egner seg svært dårlig både til å rangere søkere og predikere hvem som kommer til å gjøre en god jobb (Kelly, 1954; Hunter & Hunter, 1984; Wiesner & Cronshaw, 1988), og i verste fall kan lede til en overdrevet skråsikkerhet som har negativ sammenheng med reell treffsikkerhet (Kausel, Culbertson, & Madrid, 2016). Det er i beste fall uklart hva intervjueren egentlig ser i denne type vurderingssituasjoner - kanskje mest av alt, ser han eller hun etter noen som ligner på seg selv? Er du en hvit person fra Oslo vest, kan intervjusituasjonen (i gjennomsnitt) tale til din fordel, selv i tilfeller hvor du ikke egentlig er flinkere og ikke kommer til å gjøre en bedre jobb enn den mørkhudete konkurrenten fra Oslo øst som har søkt på samme stilling med identiske kvalifikasjoner.

Forskningsmessig har vi visst dette i flere tiår, men fortsatt sverges det til ustrukturerte intervjuer mange steder. Vi har lenge hatt tilgang til svært enkle modeller for statistisk prediksjon som i det minste kan brukes som et korrigerende supplement til vår egen vurdering, men disse verktøyene brukes sjeldent i beslutninger som faktisk betyr noe.

Suksessformelen: Regelbaserte vurderinger av strukturerte problemer

Den imponerende treffsikkerheten til enkle algoritmer skyldes i hovedsak to faktorer (Kahneman, Rosenfield, Gandhi, & Blaser, 2016). Den første er at de gir færre systematiske skjevheter (bias): Algoritmer baserer vurderingen sin kun på den informasjonen som har blitt forhåndsdefinert som relevant, og vekter en kvantifisert utgave av denne informasjonen nøyaktig slik man vil at den skal vektes. For en statistisk algoritme er det like enkelt å vurdere åtte faktorer som to, og det er like enkelt å vekte de åtte faktorene likt som det er å vekte dem ulikt. Det er også like enkelt å se fullstendig bort fra en gitt faktor som er irrelevant for oppgaven (f.eks. mannens høyde eller kvinnens utseende), som det er å inkludere denne informasjonen i analysen. For menneskehjernen er dette betraktelig vanskeligere: Folk flest lar seg systematisk påvirke både av relevant og irrelevant informasjon - vær og vind, dagsform og humør, kjønn og hudfarge, livssyn og personlige preferanser - selv når de aktivt prøver å være så objektive som mulig.

Den andre delen av forklaringen er at algoritmiske vurderinger har mindre støy i seg (noise), det vil si mindre tilfeldig variasjon. Gitt evalueringskriteriene og all tilgjengelig informasjon vil en statistisk algoritme lede til samme vurdering hver eneste gang. Den såkalte reliabiliteten er ekstremt høy. Menneskelige eksperter, derimot, kan fra en dag til den neste gi ulik løsning på samme problem. Som et ekstremt eksempel siterer Daniel Kahneman (2011) en studie som fant at blant en gruppe erfarne radiologer som vurderte samme røntgenbilde på to ulike tidspunkt, ga de ulik diagnose i hele 20 prosent av tilfellene. Dette og lignende resultater fikk den verdensledende psykologen til å konkludere med det følgende: «Whenever we can replace human judgment with a formula, we should at least consider it.»

Så hva er det som holder oss tilbake?

Algoritme-aversjon: Psykologiske forklaringer

Med fremmarsjen av kunstig intelligens og maskinlæring blir de statistiske modellene enda bedre og enda mer anvendelige, og de er allerede selvlærende i den betydning at de på egen hånd kan identifisere hvilke variabler som er mest prediktive, for så å oppdatere seg kontinuerlig idet nye data kommer inn. Det vil si at de nye algoritmene ikke bare er i stand til å utføre bedre vurderinger enn menneskelige eksperter, gitt de kriteriene vi definerer for dem på forhånd: De kan også identifisere bedre kriterier basert på all tilgjengelig informasjon og hvilket utfall som skal optimaliseres. Her er vi ved kjernen i all maskinlæring, og denne utviklingen gir uante muligheter på en rekke områder.

Likevel ser den psykologiske motstanden ut for å være den samme som før. Det vil si, vi ser en systematisk tendens som kanskje best kan beskrives som algoritme-aversjon (Dietvorst, Simmons, & Massey, 2014): Folk flest liker ikke ideen om at statistiske algoritmer og automatiserte beslutningssystemer skal gjøre tenkningen for oss. Hvorfor er det slik? Jeg vil her trekke frem fire nøkkelfaktorer som kan bidra med en forklaring: 1) overdreven tillit til menneskelige eksperter, 2) ulik vekting av maskinelle feil over menneskelige feil, 3) sosiale behov, og 4) frykten for tapt individualitet.

Forklaring 1: Overdreven tillit til menneskelige eksperter

Når det gjelder evnen til å forutsi hva som vil skje med rimelig treffsikkerhet, er det særlig to betingelser som må være til stede for at reell ekspertise skal kunne oppstå (Kahneman, 2011; Kahneman & Klein, 2009): 1) at man jobber med regelbaserte fenomen som det er mulig å forutsi, 2) at man har tilgang på hyppig og umiddelbar feedback på hvorvidt man gjorde en god eller dårlig vurdering.

På noen få områder er begge disse betingelsene til stede: Magnus Carlsen som velger neste sjakktrekk på få sekunder; brannmenn som tar lynraske valg om når de bør forlate en brennende bygning som snart vil kollapse; en god venn som automatisk tilpasser seg den andres stemmebruk og kroppsspråk i en vanskelig tid. Grunnen til at statistiske algoritmer likevel utkonkurrerer menneskelige eksperter på såpass mange andre områder, er at i den virkelige verden skjer det kun unntaksvis at begge de nødvendige betingelsene for menneskelig ekspertise er til stede samtidig: regelbaserte fenomen og umiddelbar feedback. Siden de fleste av oss ikke er klar over dette, blir konsekvensen at vi systematisk overvurderer den faktiske treffsikkerheten til ekspertene blant oss. Ikke alltid, men ofte.

Her finnes det flere eksempler. Aksjespekulanter får umiddelbar feedback i stort monn, men det de skal forsøke å forutsi (enkeltaksjer), oppfører seg ikke tilstrekkelig forutsigbart til at reell ekspertise faktisk oppstår. Dette gjør at feedbacken som de får etter et kjøp eller et salg, ikke reelt sett er særlig informativ med hensyn til kvaliteten på beslutningen de tok i forkant, og dermed bidrar ikke denne erfaringen til påviselig ekspertise i evnen til å forutsi hva som vil skje rundt neste sving. Som et ferskt eksempel fra forskningen viser det seg at korrelasjonen mellom de aksjemeglerne som får best avkastning fra år til år, er svært lav (Kvaløy, 2015) - som vil si at det er liten statistisk sammenheng mellom hvem som treffer best i år, og hvem som vil treffe best neste år. Dersom noen av dem var reelt sett bedre til å predikere fremtidig avkastning enn andre, burde vi sett en mer konsistent sammenheng over tid, men det finnes det altså liten støtte for. Derfor er de aller fleste privatpersoner bedre tjent med et billig indeksfond som bare følger den generelle utviklingen på aksjemarkedet ut fra en enkel fordelingsmekanisme, heller enn å satse på en dyr aksjemegler som hevder at han eller hun kan slå markedet (de fleste av dem må av nødvendighet ta feil). Dette til tross; avisene er fulle av suksesshistorier om «årets stjernemegler», men tar seg sjeldent bryet med å sjekke hvordan det egentlig gikk med treffsikkerheten fem eller ti år senere.

Leger på sin side jobber riktignok med relativt forutsigbare fenomen, men for dem er det manglende tilgang på konsistent og langsiktig feedback fra pasientene som er problemet. For å virkelig vite hvor godt man treffer i vurderingene sine statistisk sett, må man ha en systematisk oversikt over hvor ofte man fikk rett sett opp mot alle vurderingene man har gjort av samme problem - og det har vi stort sett ikke. Derfor er det helt avgjørende at leger og andre medisinske eksperter har umiddelbar tilgang på systematiserte forskningsoversikter og strukturert beslutningsstøtte, algoritmisk eller i form av enkle sjekklister, som kan gjøre dem mindre avhengige av sin egen erfaring basert på et lite utvalg enkeltpasienter. Igjen viser forskningen at slike maskinelle tiltak virker, men mange av ekspertene liker det ikke. Kanskje det sitter langt inne for de aller fleste av oss å erkjenne egne begrensninger.

Jeg vil igjen understreke at dette er en generell problemstilling med implikasjoner langt forbi medisinfaget: Selv om vi alle kan føle oss selvsikre, har de fleste av oss ingen anelse om hvor godt vi egentlig treffer i det lange løp. Psykologer og psykiatere husker gjerne best de pasientene som ble bedre av samtaleterapi og andre tiltak, men glemmer eller bortforklarer dem som ikke oppnådde noen endring eller kanskje ble dårligere. Ledere husker best de gangene en nyansettelse viste seg å bli en stor suksess på kort tid, men glemmer at det også var de selv som ansatte bråkebøtten på nabokontoret som ingen vil samarbeide med. Det sentrale poenget er at relativt enkle algoritmer og andre former for datadrevet beslutningsstøtte kan gjøre stor nytte som et supplement til ekspertens dømmekraft, både i helsevesenet og ellers - men da må vi først erkjenne at selv våre beste eksperter har systematiske begrensninger.

Forklaring 2: Ulik vekting av maskinelle versus menneskelige feil

Neste faktor som kan forklare noe av vår motstand mot statistiske algoritmer, er at folk er mindre tilgivende overfor maskinelle feil enn de er overfor tilsvarende feil gjort av mennesker. Et ferskt eksempel her kan være selvkjørende biler. Selv om denne teknologien skulle bli såpass god i løpet av det neste tiåret at selvkjørende biler forårsaker langt færre bilulykker enn menneskelige sjåfører, er det likevel mye som tyder på at motstanden mot denne teknologien fortsatt vil være sterk.

En sentral studie som kan kaste lys over denne problemstillingen, baserte seg på en serie med fem eksperimenter der deltagerne fikk velge om de ville satse penger på en algoritmisk prediksjon eller en menneskelig prediksjon laget av dem selv eller noen andre (Dietvorst, Simmons, & Massey, 2014). I noen av eksperimentene ble deltagerne presentert for reelle inntaksdata om studenter som hadde blitt tatt opp på et masterstudium, og så bedt om å predikere hvilken karakter studentene ble uteksaminert med. Til slutt kunne de velge om de ville satse penger på sin egen prediksjon eller den prediksjonen som en annen person hadde gjort, eller om de ville satse penger på prediksjonen til en statistisk algoritme basert på nøyaktig samme informasjonsgrunnlag som de selv hadde fått tilgang til.

Det første og kanskje minst overraskende resultatet var at når deltagerne fikk observere de tidligere prediksjonene til en algoritme og dermed fikk se at den bommet i enkelte tilfeller, ble de mindre villige til å bruke denne algoritmen i stedet for en menneskelig prognosemaker (eller seg selv). Det mer oppsiktsvekkende resultatet var at de fortsatt valgte en menneskelig prognosemaker når de fikk observere at den statistiske algoritmen faktisk var mer treffsikker totalt sett. Dette tyder på at vi dømmer maskinelle vurderinger strengere enn menneskelige vurderinger, eller sagt på en annen måte, at vi har en lavere toleranse for maskinelle feil enn for menneskelige feil. For å virkelig stole på en maskin krever vi kanskje at den aldri gjør feil, heller enn å kreve færre feil enn det som er alternativet: vår egen vurderingsevne. Nettopp derfor hjelper det lite å bevitne at en statistisk algoritme tross alt treffer bedre på lang sikt når man skal velge ut jobbkandidater, medisinsk behandling eller økonomiske investeringer - for den gjør jo feil, den også!

I en oppfølgingsstudie undersøkte den samme forskningsgruppen om de kunne redusere denne formen for algoritme-aversjon ved å gi deltagerne en viss innvirkning over utfallet (Dietvorst, Simmons, & Massey, 2016). Kanskje er det slik at noe av det som skremmer oss med algoritmer og maskinelle vurderinger, er at det ikke finnes en av-knapp, og at maskinen kan komme til å løpe av gårde helt uavhengig av hva man selv vil? For å teste denne ideen utførte forskerne et nytt sett med eksperimenter der deltagerne enten ble presentert for en algoritmisk modell uten noen form for påvirkningsmulighet, eller en tilsvarende algoritme hvor de selv kunne gjøre mindre justeringer av prediksjonene. Resultatene var slående: Selv når justeringen de valgte å gjøre, var minimal, viste det seg at bare det å ha en viss innvirkning på prediksjonen gjorde deltagerne langt mer villige til å satse på den statistiske modellen i stedet for sin egen vurdering. Dette tyder på at brukermedvirkning kan øke tilliten til statistiske algoritmer og intelligente roboter.

Forklaring 3: Sosiale behov

En tredje forklaring på vår motstand mot statistiske algoritmer er at mennesket er en utpreget sosial art som har et fundamentalt behov for tilhørighet (Baumeister & Leary, 1995; Ryan & Deci, 2008). Det ser man blant annet ved at folk som har gjennomgående dårlige eller fraværende sosiale relasjoner, har høyere forekomst av en rekke ulike problemer (Baumeister, Brewer, Tice, & Twenge, 2007; Cacioppo & Patrick, 2008), herunder høyere risiko både for fysisk sykdom og tidlig død (Holt-Lunstad, Smith, & Layton, 2010). I motsatt ende av skalaen har forskningen vist at sosial støtte og gode sosiale relasjoner er kanskje den viktigste enkeltfaktoren som gir grunnlag for lav forekomst av depressive symptomer og høy grad av lykke og mening i livet (Diener & Seligman, 2002; Malone, Pillow, & Osman, 2012; Helliwell, Layard, & Sachs, 2019).

Når folk flest stadig oftere vil bli bedt om å velge mellom en statistisk algoritme og et personlig møte, er det med andre ord ikke bare vurderingen og presisjonen i denne vurderingen som velges. Det innebærer også tilstedeværelse eller fravær av menneskelig kontakt; et menneskelig ansikt i den andre enden; en person som kjenner deg og vil deg vel. Kanskje derfor vil noen oppgaver egne seg dårligere for datadrevet automatisering enn andre - på jobben, i helsevesenet, i banken eller på forsikringskontoret.

Dette vil selvsagt ikke si at det alltid er galt å erstatte menneskelige vurderinger med en algoritmisk løsning, og man skal heller ikke undervurdere menneskets tilpasningsevne. Poenget er heller at man skal ha klart for seg hva det er man bytter bort, og at for noen typer tjenester og tilbud, både i det offentlige og det private, vil den menneskelige faktoren være viktigere enn andre steder. I slike tilfeller vil det være avgjørende at databaserte beslutningsverktøy benyttes som et supplement, og ikke en komplett erstatning, slik at en menneskelig ansatt fortsatt vil kunne fungere som bindeledd mellom det digitale på den ene siden og det menneskelige møtet på den andre. Teknologiindustrien ser ut for å ha fanget opp dette poenget allerede: Det er nok ikke tilfeldig at den nye iPhone-hjelperen til Apple har fått det menneskelige navnet Siri, og at Amazon har gitt sin egen virtuelle assistent navnet Alexa. Bare det å navngi slike tjenester vil kunne gjøre at de fremstår mer menneskelige og dermed blir enklere å stole på. Her har vi sannsynligvis bare sett begynnelsen på såkalt menneskeliggjort teknologi. (For et dystopisk fremtidsscenario som fortsatt må kunne kalles science fiction, se filmen Ex Machina fra 2014 med Alicia Vikander i rollen som menneskelig robot.)

Forklaring 4: Frykten for tapt individualitet

Som nevnt innledningsvis er noe av styrken til en algoritme at den kun baserer vurderingen sin på de nøkkelfaktorene som har blitt valgt ut i forkant, og basert på disse kriteriene og all tilgjengelig informasjon utfører en identisk vurderingsprosedyre hver gang. Dette gjør at selv enkle statistiske modeller treffer imponerende bra på mange ulike områder. En fjerde og siste faktor som kan skape motstand mot algoritmer, er ironisk nok basert på nettopp dette punktet: Det automatiserte og standardiserte kan skape skepsis i seg selv.

Når man møter en saksbehandler eller en lege, vil man gjerne at behandlingen skal reflektere ens personlige særpreg og den man er som enkeltindivid. Dette kan for all del være nyttig tilleggsinformasjon, men det kan også bli et problem at vi er for opptatt av det særegne. En vanlig kilde til feilvurderinger er nemlig at man i for stor grad vektlegger individuelle særpreg som tilsynelatende vil ha mye å si for utfallet, og at man tar for lite hensyn til store tall og såkalte grunnfrekvenser (base rates) - det vil si statistisk informasjon om hva som vanligvis skjer med folk flest i samme situasjon (Kahneman, 2011).

En fersk artikkel av Longoni, Bonezzi og Morewedge (2019) undersøkte dette fenomenet nærmere gjennom en imponerende serie på ni eksperimenter. Disse studiene fokuserte på bruk av medisinsk kunstig intelligens og hvilke faktorer som avgjorde hvorvidt folk var villige til å stole på en AI-algoritme i ulike valgsituasjoner. Igjen fant man at folk helst ville unngå å benytte seg av ulike medisinske tjenester når de ble utført av en statistisk algoritme i stedet for en person, og effekten var særlig sterk for dem som anså seg selv og sin egen situasjon som spesielt unik. Som ytterligere støtte til at denne motstanden var drevet av frykt for tapt individualitet, ble deltagerne mer villige til å velge AI-algoritmen når den ble presentert i en personalisert og individtilpasset form, og når den ble presentert som et supplement til heller enn en erstatning av en menneskelig helsearbeider.

Dette er viktig lærdom både for helsevesenet og andre sektorer hvor statistiske beslutningsverktøy vil bli mer og mer aktuelle i årene som kommer. Folk flest har kanskje ikke en iboende motstand mot all bruk av statistiske algoritmer: Den psykologiske motstanden oppstår idet man får inntrykk av at beslutningsprosessen på den andre siden er helautomatisk. Da går man kanskje ut fra at det ikke er mulig å ta hensyn til individuelle behov, eller at det ikke finnes en person på den andre siden som kan utvise skjønn under noen som helst omstendigheter. Man glemmer kanskje også at skjønn og individuell behandling ikke nødvendigvis vil gå i ens egen favør. Kanskje er det for mange av oss nok å vite at selv om den vurderingen man får i første omgang, er automatisk og algoritmebasert, har man alltid muligheten til å kunne be om at en menneskelig saksbehandler kobles på for å dobbeltsjekke eller undersøke om det er spesielle hensyn som ikke har blitt vurdert riktig. Kanskje trenger vi bare å vite at det finnes en av-knapp eller en pause-knapp som kan brukes dersom det skulle bli nødvendig.

Konklusjon

I denne artikkelen har vi sett at potensialet for modellbaserte beslutningsverktøy er enormt stort på en lang rekke samfunnsområder, fra helse og jobbseleksjon til finansielle beslutninger. Det finnes etter hvert mye god forskning helt fra 1950-tallet til i dag som tilsier at statistiske algoritmer ofte gjør en bedre og billigere jobb enn menneskelige eksperter, og i det aller minste, at disse algoritmene kan utgjøre et godt supplement til menneskelige vurderinger. Samtidig er det noe som holder oss tilbake fra å prøve ut den nye beslutningsteknologien i større skala, og her har vi sett på fire nøkkelfaktorer: overvurdering av menneskelige eksperter, ulik vekting av menneskelige og maskinelle feil, sosiale behov, og frykten for tapt individualitet. For å utvikle nye tjenester og produkter som kommer befolkningen til gode, og som folk flest faktisk vil ha, er det avgjørende at disse fire barrierene både forstås og imøtekommes på en langt bedre måte enn det som er tilfellet i dag. Denne problemstillingen handler vel så mye om psykologi som den handler om teknologi.

Men selv etter at du har lest om all denne forskningen i denne artikkelen, har du kanskje fortsatt en viss tilbøyelighet til å stole mer på mennesker enn maskiner? I så fall er du ikke alene. I hverdagen og vårt sosiale liv finnes det selvsagt gode grunner til det, og en ukritisk omfavnelse av kunstig intelligens og statistiske algoritmer kan bære galt av sted. Men om denne frykten blir for ensidig, kan vi gå glipp av kontrollert utprøving av nye løsninger som kan være til stor hjelp for mange mennesker og organisasjoner, og som i beste fall kan redde liv og begrense kostbare feil. Derfor er det viktig å få frem at menneskelige ekspertvurderinger er langt fra feilfrie, og at det allerede finnes enkle beslutningsverktøy som kan hjelpe oss til å ta bedre beslutninger på en rekke ulike områder (Hastie & Dawes, 2010; Kahneman, Rosenfield, Gandhi, & Blaser, 2016) - dersom vi er villige til å prøve dem ut.

Et viktig forbehold som bør nevnes, er at statistiske algoritmer har det til felles med all annen teknologi at de både kan brukes og misbrukes. I et ferskt eksempel fra USA, nettopp publisert i det ledende tidsskriftet Science (Obermeyer mfl. 2019), fant forskere at algoritmer som er designet for å identifisere medisinske behandlingsbehov, kan lede til systematisk forskjellsbehandling av utsatte grupper. I dette tilfellet viste det seg at algoritmen ble programmert til å predikere helsekostnaden heller enn alvorlighetsgraden av selve sykdommen. Siden det amerikanske helsevesenet bruker mer penger på den hvite befolkningen per person enn den mørkhudete befolkningen per person (for tilsvarende sykdomsbilde), fører dette til at den svarte delen av befolkningen i realiteten må bli betraktelig sykere for å bli tildelt samme risikoprofil og samme behandling. Dette er et eksempel på at politiske spørsmål om prioriteringer og rettigheter ikke forsvinner med den nye teknologien. Dette er spørsmål som vi fortsatt trenger å ta stilling til også her i Norge, og som teknologien ikke kan løse for oss. Statistiske algoritmer kan bare hjelpe oss med utførelsen av det vi selv vil at den skal gjøre for oss.

En mer generell utfordring som vi står overfor i dag, er at manglende utprøving i kontrollerte eksperimenter gjør at vi risikerer at uferdige løsninger kjøres ut og skaleres opp altfor tidlig. Det finnes sannsynligvis stor variasjon i befolkningen både i teknologisk kompetanse og individuelle behov for menneskelig kontakt innen ulike tjenester. Her vil kontrollerte prøveordninger kunne brukes til å undersøke denne type effekter på en systematisk måte, slik at man får svar på både når de nye tjenestene faktisk fungerer etter hensikten, og når de ikke gjør det.

Baumeister, R.F. Brewer, L.E. Tice, D.M. & Twenge, J.M. (2007). Thwarting the need to belong: Understanding the interpersonal and inner effects of social exclusion. Social and Personality Psychology Compass, 1(1), 506 -520.

Baumeister, R.F. & Leary, M.R. (1995). The need to belong: Desire for interpersonal attachments as a fundamental human motivation. Psychological Bulletin, 117(3), 497.

Cacioppo, J. T. & Patrick, W. (2008). Loneliness: Human nature and the need for social connection. New York; London: W.W. Norton & Company.

Dawes, R.M. (1979). The robust beauty of improper linear models in decision making. American Psychologist, 34(7), 571.

Dawes, R.M. Faust, D. & Meehl, P.E. (1989). Clinical versus actuarial judgment. Science, 243(4899), 1668 -1674.

Deci, E.L. & Ryan, R.M. (2008). Self-determination theory: A macrotheory of human motivation, development, and health. Canadian Psychology, 49(3), 182.

Diener, E. & Seligman, M.E. (2002). Very happy people. Psychological Science, 13(1), 81 -84.

Dietvorst, B.J. Simmons, J. & Massey, C. (2014). Understanding algorithm aversion: Forecasters erroneously avoid algorithms after seeing them err. Academy of Management Proceedings, 1, 12227.

Dietvorst, B.J. Simmons, J.P. & Massey, C. (2016). Overcoming algorithm aversion: People will use imperfect algorithms if they can (even slightly) modify them. Management Science, 64(3), 1155 -1170.

Donnelly, L. (2017, 7. mars). Forget your GP, robots will soon be able to diagnose more accurately than almost any doctor. The Telegraph.

Einhorn, H.J. (1972). Expert measurement and mechanical combination. Organizational Behavior and Human Performance, 7(1), 86 -106.

Gulshan, V. Peng, L. & Coram, M. (2016). Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. Journal of American Medical Association, 316, 2402-2410.

Grove, W.M. Zald, D.H. Lebow, B.S.Snitz, B.E. & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12, 19-30.

Haenssle, H.A. Fink, C. Schneiderbauer, R. Toberer, F.T, Buhl, F.T. Blum, A. () Uhlmann, L. (2018). Man against machine: Diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Annals of Oncology, 29 (8), 1836-1842.

Hastie, R. & Dawes, R.M. (2010). Rational choice in an uncertain world: The psychology of judgment and decision making. Los Angeles: Sage.

Helliwell, J. Layard, R. & Sachs, J. (2019). World Happiness Report. New York, NY: Sustainable Development Solutions Network.

Holt-Lunstad, J. Smith, T.B. & Layton, J.B. (2010). Social relationships and mortality risk: A meta-analytic review. PLoS Medicine, 7(7), e1000316.

Hunter, J.E. & Hunter, R.F. (1984). Validity and utility of alternative predictors of job performance. Psychological Bulletin, 96(1), 72.

Hutson, M. (2017). Self-taught artificial intelligence beats doctors at predicting heart attacks. Science. Hentet 28.10.2019 frahttps://www.sciencemag.org/news/2017/04/self-taught-artificial-intellige...

Kahneman, D. (2011). Thinking, fast and slow. Macmillan.

Kahneman, D. & Klein, G. (2009). Conditions for intuitive expertise: A failure to disagree. American Psychologist, 64(6), 515.

Kahneman, D. Rosenfield, A.M. Gandhi, L. & Blaser, T. (2016). Noise: How to overcome the high, hidden cost of inconsistent decision making. Harvard Business Review, 94(10), 38 -46.

Kausel, E.E. Culbertson, S.S. & Madrid, H.P. (2016). Overconfidence in personnel selection: When and why unstructured interview information can hurt hiring decisions. Organizational Behavior and Human Decision Processes, 137, 27 -44.

Kvaløy, O. (2015, 17. april). Flaks lønner seg. Dagens Næringsliv. Hentet 28.10.2019 frahttps://www.uis.no/getfile.php/13188439/Forskning/Bilder/09%20%C3%98kono...

Kelly, L. (1954). Evaluation of the interview as a selection technique. I Proceedings of the 1953 Invitational Conference on Testing Problems (s. 116 -123). Princeton, NJ: Educational Testing Service.

Lohr, S. (2016, 17. oktober). IBM is counting on its bet on Watson, and paying big money for it. The New York Times. Hentet 28.10.2019 frahttps://www.nytimes.com/2016/10/17/technology/ibm-is-counting-on-its-bet...

Longoni, C. Bonezzi, A. & Morewedge, C. (under utgivelse). Resistance to medical artificial intelligence. Journal of Consumer Research.

Malone, G.P. Pillow, D. R. & Osman, A. (2012). The general belongingness scale (GBS): Assessing achieved belongingness. Personality and Individual Differences, 52(3), 311 -316.

Meehl, P.E. (1954). Clinical versus statistical prediction: A theor etical analysis and a review of the evidence. University of Minnesota Press.

Obermeyer, Z. Powers, B. Vogeli, C. & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366, 447 -453.

Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66(3), 178.

Wiesner, W.H. & Cronshaw, S.F. (1988). A meta-analytic investigation of the impact of interview format and degree of structure on the validity of the employment interview. Journal of Occupational Psychology, 61(4), 275 -290.

Gå til mediet