Evaluering av OpenAlex
Notat
|Publisert
Vi undersøkte om det kan være ressursbesparende å erstatte de tradisjonelle søkekildene med OpenAlex.
Last ned
Hovedbudskap
For kunnskapsoppsummeringer er det et mål at litteratursøket identifiserer alle relevante studier. En ny søkekilde for å identifisere studier er
OpenAlex, som er en videreføring av datasettet Microsoft Academic Graph (MAG). OpenAlex høster referanser fra noen av kildene som bibliotekarer tradisjonelt søker i, og i andre kilder. Vi undersøkte derfor om det kan være ressursbesparende å erstatte de tradisjonelle søkekildene med OpenAlex.
Undersøkelsen vår var todelt. Vi kartla og beskrev studier som har undersøkt litteratursøk i OpenAlex eller MAG (del 1). I tillegg sammenlignet vi søkene i publiserte kunnskapsoppsummeringer fra Folkehelseinstituttet, der det var utført både et tradisjonelt søk òg søk i OpenAlex/MAG (del 2).
For del 1 (kartleggingen) utførte vi et litteratursøk i september 2023. Vi inkluderte 19 studier. Ingen av studiene sammenlignet et tradisjonelt søk med søk i OpenAlex. For del 2 (sammenligningen) inkluderte vi tre kunnskapsoppsummeringer med totalt 860 inkluderte studier. Resultatene viste at hverken søket i OpenAlex/MAG eller det tradisjonelle søket identifiserte alle de inkluderte studiene. Vi fant at 24 (3 %) av de 860 inkluderte studiene ikke finnes i OpenAlex, og 700 (81 %) av de 860 inkluderte studiene ble ikke identifisert av søket i OpenAlex/MAG.
Våre resultater viser at OpenAlex ikke kan brukes som eneste søkekilde, hvis målet er å identifisere så mange relevante studier som mulig. Bruk av OpenAlex i tillegg til tradisjonelle søkekilder for søk til kunnskapsoppsummeringer vil ikke være ressursbesparende.
Sammendrag
Innledning
I 2023 publiserte en prosjektgruppe i Område for helsetjenester ved FHI rapporten «Mål, funn og forslag til satsningsområder for automatisering av informasjonsgjenfinning: sluttrapport 2022». Prosjektgruppen kartla og vurderte 82 digitale verktøy med elementer av maskinlæring. De fant at fire av verktøyene kunne være aktuelle for å effektivisere, og kanskje endre deler av søkeprosessen for kunnskapsoppsummeringer. Prosjektgruppen konkluderte likevel med at ingen av verktøyene kunne effektivisere søkeprosessen i vesentlig grad, og foreslo å fortsette å undersøke muligheter for å automatisere, og muligens effektivisere, informasjonsgjenfinning til kunnskapsoppsummeringer. Katalogen (datasettet) OpenAlex, som også benytter maskinlæring, omtales i rapporten, men ble ikke vurdert. OpenAlex er søkbar fra egen hjemmeside, og via EPPI-Reviewer, enten ved bruk av kjerneartikler eller en kombinasjon av søketermer. EPPI-Reviewer er EPPI Centre sitt nettbaserte verktøy for utarbeidelse av kunnskapsoppsummeringer. OpenAlex er en videreføring av Microsoft Academic Graph (MAG) som ble opprettet i 2015 og avsluttet i 2021.
I arbeidet med kunnskapsoppsummeringer (for eksempel systematiske oversikter, metodevurderinger og kartleggingsoversikter), utarbeider en informasjonsspesialist (bibliotekar) systematiske litteratursøk for å identifisere så mange relevante studier som mulig på en gitt problemstilling. Når vi utfører et litteratursøk for kunnskapsoppsummeringer, prioriterer vi vanligvis sensitivitet. Det betyr at vi tolererer støy (irrelevante treff) for å redusere faren for å gå glipp av relevante studier. Arbeidet med kunnskapsoppsummeringer er ressurskrevende, og vi må ofte vurdere mange tusen referanser fra søkeresultatet.
OpenAlex høster referanser fra noen av kildene som vi tradisjonelt søker i. I tillegg innhenter OpenAlex referanser fra kilder som kan inneholde andre dokumenttyper enn de vi vanligvis finner i de tradisjonelle kildene. Vi har derfor undersøkt om det kan være ressursbesparende å erstatte de tradisjonelle kildene med OpenAlex.
Hensikt
Vi ønsket å undersøke om vi, ved å søke i OpenAlex i stedet for å utføre et tradisjonelt litteratursøk, kan bruke mindre tid på søkeprosessen for kunnskapsoppsummeringer, om OpenAlex inneholder de inkluderte studiene i kunnskapsoppsummeringene vi har undersøkt, og om de inkluderte studiene ble identifisert av søket i OpenAlex.
Vi hadde som mål å:
- Identifisere og kartlegge studier som har undersøkt litteratursøk i OpenAlex/MAG, og presentere resultatene fra slike studier.
- Undersøke publiserte kunnskapsoppsummeringer fra klynge for vurdering av tiltak som både har gjennomført tradisjonelt litteratursøk òg søkt i OpenAlex/MAG, for dermed å vurdere: 1) om de to søkemetodene hver for seg identifiserer alle de inkluderte studiene, 2) om alle de inkluderte studiene finnes i OpenAlex, 3) hva som kjennetegner de inkluderte studiene som eventuelt ikke finnes i OpenAlex, 4) eventuell forskjell i antall treff til screening mellom de to søkene, og 5) om søkene har ulik presisjon.
Del 1: Kartlegging av tidligere studier
Metode
Vi utførte et litteratursøk i ulike kilder i september 2023. Inklusjonskriteriene var at studiene måtte ha undersøkt litteratursøk i OpenAlex/MAG, og være publisert på engelsk eller skandinavisk etter 2015.
Resultater
Vi inkluderte 19 studier fordelt på 20 publikasjoner. Ingen av studiene sammenlignet søk i OpenAlex/MAG med tradisjonelle litteratursøk tilsvarende vår undersøkelse. Av de 19 studiene undersøkte 17 studier MAG. Femten studier rapporterte at MAG har god dekningsgrad, men at den ikke kan brukes som eneste kilde hvis målet er å identifisere så mange relevante studier som mulig. To studier konkluderte med at MAG kan brukes som eneste kilde for et levende forskningskart. To pågående studier skal sammenligne søk i OpenAlex med tradisjonelt søk.
Diskusjon og konklusjon
Vi utførte litteratursøk i mange kilder, og kontaktet andre som utarbeider kunnskapsoppsummeringer. Det er likevel mulig at vi har gått glipp av relevante studier.
Alle de 17 publiserte studiene rapporterte at MAG har god dekningsgrad, men bare to studier konkluderte med at MAG kan brukes som eneste kilde hvis man ønsker å identifisere så mange relevante studier som mulig.
Del 2: Sammenligning av søk i OpenAlex/MAG med tradisjonelt søk
Metode
Vi brukte datamateriale fra publiserte kunnskapsoppsummeringer som har beskrevet og utført et tradisjonelt litteratursøk, og et søk i OpenAlex/MAG, hver for seg, søkt i minst to kilder i det tradisjonelle søket, og gjort det mulig å identifisere referansene fra de to søkene hver for seg. Fra de inkluderte studiene i kunnskapsoppsummeringene vi inkluderte, trakk vi ut følgende data: dokumenttype og tema (fagområde), antall studier som fantes i OpenAlex, antall studier som ble identifisert av søk i OpenAlex/MAG og antall studier som ble identifisert av det tradisjonelle søket. Vi brukte informasjonen til å beregne sensitivitet i søket i OpenAlex og presisjon i søket i både OpenAlex og tradisjonelt søk.
Resultater
Vi inkluderte tre kunnskapsoppsummeringer med totalt 860 inkluderte studier; 802 i Ames (2022), 25 i Bergsund (2023), 33 i Johansen (2023). Hver for seg identifiserte hverken søket i OpenAlex/MAG eller det tradisjonelle søket alle de inkluderte studiene. Vi fant at 24 (3 %) av de totalt 860 inkluderte studiene ikke finnes i OpenAlex; 700 (81 %) av de 860 inkluderte studiene ble ikke identifisert av søket i OpenAlex/MAG. Totalt ga de tradisjonelle søkene 24 870 treff, og søkene i OpenAlex/MAG 4308 treff. Søkene i OpenAlex hadde høyere presisjon enn det tradisjonelle søket.
Diskusjon og konklusjon
Kun tre kunnskapsoppsummeringer oppfylte inklusjonskriteriene våre, og alle var publisert før denne studien ble planlagt. Vi fant at ingen av de to søkene (OpenAlex/MAG og tradisjonelt litteratursøk) i disse kunnskapsoppsummeringene identifiserte alle de inkluderte studiene hver for seg. Vår undersøkelse viser at søk i OpenAlex/MAG og tradisjonelt søk utfyller hverandre. For å identifisere så mange relevante studier som mulig, bør man derfor søke både i OpenAlex og tradisjonelle kilder. Siden OpenAlex kun bør brukes i kombinasjon med et søk i tradisjonelle kilder, og ikke som eneste kilde, vil det ikke være ressursbesparende å søke i OpenAlex. Vi kan derfor ikke anbefale å endre dagens praksis.