FFIs prediksjonsturnering – datagrunnlag og foreløpige resultater
Abstract
All etterretningsvurdering og forsvarsplanlegging utleder eller baserer seg på noen antagelser
om hvordan Norges forsvars- og sikkerhetspolitiske omgivelser vil utvikle seg i årene som kommer.
Vi har imidlertid visst lite om hvor godt prediksjonene som legges til grunn faktisk treffer.
Hensikten med FFIs prediksjonsturnering (2017–2020) var å måle hvor presist det er mulig å
forutsi forsvars- og sikkerhetspolitiske utviklinger av relevans for Norge, og hva som kjennetegner
personer som treffer bedre enn andre. Deltagerne ble bedt om å forutsi spørsmål som: Vil
russiske militære fly krenke norsk luftrom det neste året? Hva blir utfallet av Brexit? Hvor mange
NATO-land vil bruke 2 % av BNP på forsvar i 2024? Vil Trump vinne det neste presidentvalget?
Hvis vi kan forutsi svarene på spørsmål som dette flere måneder og år i forveien, kan vi også
være relativt sikre på retningen på utviklingen i Norges strategiske omgivelser fremover. I FFIs
turnering ble det stilt 240 slike spørsmål om blant annet krig og konflikt, Russland, USA, Europa,
økonomi og teknologi. Totalt ble det samlet inn 465 673 prediksjoner fra 1375 deltagere.
På den ene siden demonstrerer resultatene fra FFIs turnering hvor vanskelig det er å forutsi
internasjonal politikk. Deltagerne sliter generelt med å treffe bedre enn tilfeldig gjetning, selv på
kortsiktige spørsmål. Eksperter treffer bedre enn amatører, men forskjellene er små i praksis.
Eksperter treffer heller ikke bedre på spørsmål innenfor sine egne fagområder enn eksperter
med kompetanse på helt andre temaer. Kriteriene som vi normalt bruker til å avgjøre hvem vi
skal høre på, som utdanningsnivå, relevant erfaring og spisskompetanse på aktuelle temaer,
fremstår derfor som lite relevante i prediksjonssammenheng.
På den annen side viser resultatene at det er systematiske forskjeller i treffsikkerheten på individuelt
nivå. Deltagernes prediksjonsevne korrelerer med en rekke individuelle egenskaper som
kan kartlegges på forhånd, som kognitiv kontroll, tallforståelse, politisk kunnskapsnivå og grad
av fordomsfri tenkning. Mange av disse egenskapene er trolig også overførbare til prediksjon i
den virkelige verdenen fordi de samsvarer med forskning om hva som korrelerer med høyere
prestasjonsevne på helt andre områder og i andre situasjoner. Det identifiseres også et sett
med spesifikke teknikker forbundet med bedre treffsikkerhet, som det å lete etter informasjon fra
flere kilder og å bruke metoder som grunnfrekvens, referanseklasser og ekstrapolasjon. Andre
teknikker som ofte trekkes frem i fremtidsforskningen, ser derimot ikke ut til å ha betydning.
I stedet for å trekke et skarpt skille mellom prediksjonsturneringer og prediksjon i den virkelige
verdenen, fremstår turneringer som et alternativ til dagens praksis i forsvars- og sikkerhetspolitiske
analyser, der antagelser om den fremtidige utviklingen baseres på eksperter som ikke
nødvendigvis har de riktige forutsetningene for å treffe best mulig. Det er nemlig mulig å bruke
turneringer til å identifisere en gruppe deltagere som klarer å forutsi internasjonal politikk svært
godt. De færreste av dem er profesjonelle eksperter. I stedet kjennetegnes de først og fremst av
enda høyere scores på de individuelle egenskapene som korrelerer med bedre prediksjonsevne
generelt og ved at de tenker på de riktige måtene når de predikerer. The purpose of FFI’s forecasting tournament (2017–2020) was to measure how accurate it is
possible to predict political events and developments of relevance to Norwegian national security
and what characterises people who are more accurate than others. The participants were
given questions such as: Will Russian military aircraft violate Norwegian airspace within the next
year? Will Russia conduct live fire exercises outside the Norwegian coast? What share of its
GDP will Norway spend on defence? If it is possible to predict the outcome of questions such as
these, we can also be relatively certain about the future development of key topics. FFI’s tournament
included 240 such questions about armed conflict, Russia, the US, Europe, economy and
technology. In total, the dataset consists of 465,673 predictions from 1,375 participants.
FFI’s tournament was inspired by the Good Judgment Project (GJP)’s tournament (2011–2015).
In fact, FFI’s participants have been measured on almost all of the same individual variables as
in GJP. Thus, FFI’s tournament can be used to re-examine key findings from GJP, based on a
comparably sized dataset with a completely different set of participants and questions.
On the one hand, the results from FFI’s tournaments find that the ability to predict international
politics correlates with many of the same individual characteristics as in GJP, especially cognitive
control, numeracy, knowledge, open-minded thinking and time used per question, but not
with cognitive styles such as the need for cognitive closure or fox- vs. hedgehog-like thinking.
However, these findings are nuanced through questionnaires with FFI’s participants, which
show that the specific cognitive styles participants used when the actually predicted were still
important. In fact, specific approaches reflecting need for cognitive closure and the distinction
between foxes and hedgehogs are both associated with lower accuracy in FFI’s tournament,
even though the participants’ general scores on tests of these styles are not.
On the other hand, FFI’s participants are significantly less accurate than GJP’s. However, this
gap is mainly due to differences in how the tournaments were organised. First, GJP’s participants
could update their forecasts every day until question closure, while FFI’s could only make
predictions during the first week after the questions were published. While the former way of
forecasting is relevant to intelligence, the latter is more representative of how prediction is done
during defence planning processes. Second, the accuracy of GJP’s participants was improved
through training and participation in collaborative teams, while FFI’s participants predicted alone
with no training. When these two differences are taken into account, the gap is greatly reduced.
Yet, the most important finding is that the best participants («superforecasters») were about
equally accurate in both tournaments when based on the same time of prediction, even though
all of GJP’s superforecasters were both trained and part of collaborative teams. This raises a
question of whether there is an «upper limit» of how accurate it is possible to predict politics and
that this level of precision can be achieved simply by identifying the right people using forecasting
tournaments. In fact, FFI’s and GJP’s superforecasters share a set of common characteristics,
which makes it possible to identify them in advance.