Hvordan forbedre treffsikkerheten til prediksjoner av internasjonal politikk? - en litteraturgjennomgang
Abstract
Eksisterende forskning om hvor presist det er mulig å forutsi konkrete politiske hendelser, som
utfallet av Brexit-avstemningen, antall nordkoreanske atomprøvesprengninger og hvor raskt
Kinas økonomi vil vokse, baserer seg i hovedsak på to store, amerikanske forskningsprosjekter:
Expert Political Judgment (EPJ) fra 2005 og Good Judgment Project (GJP) fra 2011–2015.
På den ene siden var funnene fra EPJ nedslående. Her ble treffsikkerheten til 284 eksperter
målt på spørsmål som så 2, 5, 10 eller 20 år fremover. Ekspertene slet med å slå tilfeldig gjetning
når tidsperspektivet nærmet seg 3–5 år. Det viste seg også at utdannings- og erfaringsnivå
hadde lite å si for treffsikkerheten. Selv eksperter som predikerte innenfor sine egne områder,
traff ofte dårligere enn andre eksperter som predikerte utenfor sitt.
På den annen side var resultatene fra GJP-prosjektet langt mer lovende. GJP var ett av lagene
som deltok i en fireårig turnering sponset av amerikansk etterretning. For å treffe best mulig ble
det forsket på ulike metoder for å aggregere prediksjoner fra tusenvis av deltagere. Det ble stilt
flere hundre spørsmål med et tidsperspektiv på rundt 100 dager i snitt. Allerede etter to år traff
GJP så godt at andre lag ble lagt ned. Funnene fra GJP viste at det er mulig å forutsi utfall på
spørsmål av betydning for amerikansk etterretning. Vinneroppskriften var en kombinasjon av å
rekruttere de riktige folkene og tiltak som forbedret treffsikkerheten.
Et gjennomgående funn i både EPJ og GJP var at noen personer i utgangspunktet er bedre til å
predikere enn andre. Bedre treffsikkerhet hang sammen med høyere score på tester av kognitive
evner, politisk kunnskapsnivå og fordomsfri tenkning. De aller beste hadde også et høyere
ønske om å treffe best, interesse for mentalt krevende aktiviteter og en mer vitenskapelig tilnærming
til det å vurdere fremtidige hendelser. Samtidig fant GJP at det var mulig å forbedre treffsikkerheten
ytterligere gjennom tre tiltak: 1) opplæring i probabilistisk tenkning, som bruk av
grunnfrekvens, 2) interaksjon mellom deltagerne, både i form av samarbeid i grupper og av konkurranse
i prediksjonsmarkeder og 3) algoritmer som vektla prediksjonene til personer som har
truffet godt tidligere og nylig som har oppdatert prediksjonene sine.
Funnene fra EPJ og GJP er imidlertid ikke nødvendigvis overførbare til en norsk forsvars- og
sikkerhetspolitisk kontekst. Deltagerne i begge studier var stort sett amerikanske. Det er ikke gitt
at de samme individuelle variasjonene vil gjelde for norske eksperter og deltagere. Det er heller
ikke gitt at funnene vil være de samme om spørsmålene tar utgangspunkt i de viktigste aktørene
for norsk sikkerhet. Selv om ekspertene i EPJ slet mot tilfeldig gjetning når tidsperspektivet
nærmet seg 3–5 år, traff også de bedre jo kortere tidsperspektivet var. I GJP var tidsperspektivet
på rundt 100 dager langt kortere og dermed enklere å treffe innenfor. Hensikten med FFIs
prediksjonsturnering (2017–2020), som denne rapporten danner det teoretiske grunnlaget for,
var derfor å etterprøve funnene fra EPJ og GJP med norske deltagere på spørsmål av betydning
for norsk sikkerhet og med et tidsperspektiv på mellom 100 dager og 3–5 år. Existing research on the accuracy of predictions in international politics, such as the outcome of
the Brexit vote, the number of North-Korean nuclear weapons tests and the growth rate of the
Chinese economy, is largely based on two research projects conducted in the US: Expert Political
Judgment (EPJ) from 2005 and the Good Judgment Project (GJP) from 2011–2015.
On the one hand, the findings from EPJ were depressing. Here, the accuracy of 284 experts
was measured on questions that looked 2, 5, 10 or 20 years ahead. The experts struggled to
beat guessing when the time perspective approached 3–5 years. It was also found that levels of
education or years of experience did not correlate with accuracy. Experts predicting inside their
own domains of expertise were also often worse than those predicting outside theirs.
On the other hand, the results from GJP were far more encouraging. GJP was one of the teams
participating in a four-year forecasting tournament sponsored by US intelligence. In order to
achieve the highest possible accuracy, researchers experimented with various methods for aggregating
predictions from thousands of participants. Hundreds of questions were posed, with
an average time perspective of around 100 days. After only two years, GJP did so well that the
other teams were dropped. The findings from GJP showed that it was possible to predict the
outcome of questions of relevance to US intelligence. The winning recipe was a combination of
recruiting the right people and taking measures that helped improve the overall accuracy.
A common finding in both EPJ and GJP was that there are systematic individual differences in
accuracy. Better accuracy was associated with higher scores on tests of cognitive abilities, political
knowledge and open-minded thinking. The best forecasters were also more motivated by
the desire to win, had a higher need for cognition and a more probabilistic approach to future
events. At the same time, GJP found that it was possible to improve accuracy through several
measures: 1) training in probabilistic thinking, e.g. the use of base rates; 2) interaction between
participants, both in the form of cooperation in groups and competition through prediction
markets; and 3) algorithms that weighted the predictions made by participants who had previously
been more accurate and who had recently updated their forecast.
However, these findings are not necessarily valid in a Norwegian defence and security policy
context. Participants in both studies were largely US citizens. It is not given that the same individual
variations exist among Norwegian experts and participants. Neither is it given that the
results will hold on questions on the most important actors to Norwegian national security. Even
though experts in EPJ struggled to beat guessing on questions that looked 3–5 years ahead,
they were more accurate the shorter the time perspective. Thus, GJP’s time perspective of 100
days was likely easier to forecast within. The purpose of FFI’s forecasting tournament (2017–
2020) was therefore to examine these findings with Norwegian participants on questions of relevance
to Norway and with a time perspective between 100 days and 3–5 years.