Diagnostikk
Publisert
Diagnostiske tester har til formål å skille personer som har en viss tilstand fra de som ikke har tilstanden. Det kan dreie seg om fysisk eller mental sykdom, skade, eller sosiale problemer. Systematiske oversikter som evaluerer nøyaktighet av diagnostiske tester, kan veilede beslutninger om hvordan man skal bruke en diagnostisk test i klinisk praksis (1).
Diagnostiske tester kan omfatte sykehistorie, kliniske undersøkelser, spørreskjemaer, fysiske målinger, laboratorieprøver, radiologiske undersøkelser, optisk bildebehandling og risikoskår (2).
I dette kapittelet retter vi oppmerksomheten mot diagnostisk nøyaktighet. Vi vil beskrive «companion diagnostics» i et eget kapittel.
Diagnostisk nøyaktighet
Nøyaktigheten til en diagnostisk test (ofte kalt indekstest) vurderes opp mot en referansetest (også kalt «gullstandard») som antas å klassifisere tilstanden på en riktig måte. I de tilfeller en etablert referansetest ikke er tilgjengelig er det flere muligheter: man kan bruke en kombinasjon av tester, konsensus fra et ekspertpanel, statistiske modeller, eller prøve å validere testresultatet i oppfølgingsstudier (3).
Når vi vurderer diagnostisk nøyaktighet av en test er vi interessert i testens evne til å korrekt identifisere både de som har og ikke har en gitt tilstand. I denne sammenhengen bruker vi begrepene sensitivitet og spesifisitet. Sensitiviteten viser andelen sanne positive som indekstesten finner (sammenlignet med referansetesten). Spesifisiteten viser andelen ekte negative som indekstesten finner (sammenlignet med referansetesten).
Trinnene i en systematisk oversikt om diagnostisk nøyaktighet
Framgangsmåten for å lage en systematisk oversikt om diagnostisk nøyaktighet følger de samme trinnene som beskrevet i kapitlet Framgangsmåte. Innholdet i trinnene skiller seg hovedsakelig med henblikk på hvordan vi formulerer spørsmålet, hvilke verktøy vi bruker for å vurdere risiko for systematiske skjevheter, og hvordan vi sammenfatter og vurderer tilliten til resultatene fra inkluderte studier. Vi beskriver disse trinnene nærmere i dette kapittelet. Der fremgangsmåten er den samme som i en systematisk oversikt generelt, lenker vi til aktuelt kapittel.
Formulere spørsmål og skrive prosjektplan
Framgangsmåten er beskrevet i eget kapittel Formulere spørsmål og skrive prosjektplan
Før vi formulerer spørsmålet er det nyttig å beskrive hvilken rolle testen skal ha i diagnostikken, og det kliniske forløpet for tilstanden der testen skal brukes.
Testens rolle i diagnostikken (1, 4) kan være
- å erstatte en annen test
- et ekstra trinn før eventuelt en annen test (triage)
- å legge til etter en eksisterende test (add-on)
Når vi beskriver det kliniske forløpet (1), bør vi ta med
- hvilken setting og hvilke pasienter det gjelder
- hvilken eller hvilke indekstest(er) vi skal evaluere
- hva som vil skje hvis indekstesten(e) er henholdsvis positive og negative
Hvis indekstesten kan brukes til forskjellige formål (for eksempel diagnostikk og screening) eller testen kan ha ulike roller i diagnostikken, kan det være nyttig å beskrive flere versjoner av det kliniske forløpet for å avklare endringer i klinisk nøyaktighet ved forskjellig bruk av testen.
Formulere spørsmål
Vi formulerer spørsmål om diagnostisk nøyaktighet basert på testens rolle i diagnostikken og det antatte kliniske forløpet. Hvis det kun er en indekstest som skal vurderes bruker vi formatet PIRO (4):
P – Populasjonen det gjelder
I – Indekstesten som skal evalueres
R –Referansetesten som indekstesten skal sammenlignes med
O – Outcome (Utfall)
Hvis vi ønsker å sammenligne to indekstester (for eksempel hvis en test skal erstattes av en annen) bruker vi formatet PICRO:
P – Populasjonen det gjelder
I – Indekstesten som eventuelt skal erstatte en annen test
C – Indekstesten som eventuelt skal erstattes
R – Referansetesten som indekstestene skal sammenlignes med
O – Outcome (Utfall)
Hvordan vi skal definere utfall avhenger av om de inkluderte studiene har brukt én eller flere terskelverdier. Dette er nært forbundet med hvordan resultatene kan sammenfattes, og er beskrevet i avsnittet «Hente ut data, sammenfatte og gradere» nedenfor.
Inklusjons- og eksklusjonskriterier
Etter at vi har formulert spørsmålet kan vi formulere inklusjons- og eksklusjonskriterier for den systematiske oversikten (1).
Inklusjons- og eksklusjonskriteriene skal spesifisere
- foretrukket/foretrukne studiedesign
- populasjon og setting
- indekstest(er)
- referansetest
Søke etter litteratur
Vi søker etter litteratur på samme måte som når vi oppsummerer kunnskap om andre kjernespørsmål. Vi anbefaler ikke å bruke spesielle filtre for spørsmål om diagnostisk nøyaktighet siden kvaliteten på slike filtre er usikker. En systematisk oversikt fra Cochrane Collaboration som evaluerte 70 filtre viste at ingen av filtrene kombinerte den grad av sensitivitet som trengs for en systematisk oversikt med akseptabel presisjon (5).
Velge ut studier
Vurdere inkluderte studier
Vi bruker sjekklisten QUADAS-2 (6) når vi vurderer risiko for systematiske skjevheter og anvendbarhet. Sjekklisten har tre hoveddomener for vurdering av risiko for systematiske skjevheter og anvendbarhet ved populasjon, indekstest og referansetest. I det fjerde hoveddomenet, tid og flyt, vurderer vi testen med henblikk på om alle deltakere har gjennomgått både indeks- og referansetest, og tidsaspekter ved testen. Til hvert domene hører et antall spørsmål som vi skal besvare for å gi en samlet vurdering av risiko for systematiske skjevheter (høy, lav eller uklar) og anvendbarhet (høy, lav eller uklar). Se Veiledning for vurdering med QUADAS-2.
Sjekklisten QUADAS-C (7) er en utvidelse av QUADAS-2 som vi bruker når vi sammenligner diagnostisk nøyaktighet hos to eller flere indekstester. Se Veiledning for vurdering med QUADAS-C.
To forfattere vurderer risiko for systematiske skjevheter uavhengig av hverandre og sammenligner deretter sine vurderinger. Dersom forfatterne ikke blir enige om en vurdering kan de kalle inn en tredje forfatter for å løse uenigheten.
Hente ut data, sammenfatte og gradere
Metaanalyser av diagnostiske data er mer kompliserte enn metaanalyser av effekt og sikkerhet. Vi anbefaler derfor at en statistiker er med på team som skal gjøre slike analyser eller at teamet samarbeider med en statistiker.
For å vurdere nøyaktigheten av en indekstest, trenger vi fire tall, som vist i figur 1:
Figur 1 |
||||
|
Sykdomsstatus (målt med referansetest) |
|
||
Positiv (Syk) |
Negativ (Frisk) |
Total |
||
Testresultat (målt med indekstest) |
Positiv |
a |
b |
a+b |
Negativ |
c |
d |
c+d |
|
|
Total |
a+c |
b+d |
a+b+c+d |
Figur 1. De fire tallene for diagnostisk nøyaktighet
Sann positiv (TP): a
Falsk positiv (FP): b
Falsk negativ (FN): c
Sann negativ (TN): d
Fra disse fire tallene beregner man en rekke mål eller egenskaper ved tester:
Sensitivitet, Se TP/(TP + FN) er andelen syke som testen fanger opp (andelen sanne positive av alle syke/av alle med positiv referansetest), eller sannsynligheten for positiv test gitt at individet har sykdommen/tilstanden som det testes for.
Spesifisitet, Sp TN/(TN + FP) er andelen friske som testen finner (andelen sanne negative av alle friske/av alle med negativ referansetest), eller sannsynligheten for negativ test gitt at individet ikke har sykdommen/tilstanden som det testes for.
Positiv prediktiv verdi TP/(TP+FP) er sannsynligheten for at individer med et positivt testresultat har sykdommen eller tilstanden som det testes for.
Negativ prediktiv verdi TN/(TN+FN) er sannsynligheten for at individer med et negativt testresultat ikke har sykdommen eller tilstanden som det testes for.
Positiv sannsynlighetsratio Se/(1 − Sp) er sannsynligheten for positiv test hos en pasient som har sykdommen vi tester for, dividert med sannsynligheten for positiv test hos en person som ikke har sykdommen. Sagt på en annen måte er positiv sannsynlighetsratio et uttrykk for hvor mye mer sannsynlig det er å få positiv test hos en syk person, sammenlignet med hos en frisk person.
Negativ sannsynlighetsratio (1 − Se)/Sp er sannsynligheten for å få negativt prøvesvar hos en syk person, delt på sannsynligheten for negativt prøvesvar hos en frisk person. Negativ sannsynlighetsratio er et uttrykk for hvor mye mindre sannsynlig det er å få en negativ test hos en syk person, sammenliknet med hos en frisk person.
Diagnostisk odds ratio (DOR) (TP/FN)/(FP/TN) er et globalt mål for diagnostisk nøyaktighet, DOR er oddsen for positiv test hos en syk person delt på oddsen for positiv test hos en frisk person.
Arealet under kurven (AUC) er et annet mål på en tests nøyaktighet. Figur 2 illustrerer dette målet i et plott med ROC-kurver (receiver operating characteristic kurver). AUC på 0,5 betyr at testen ikke gir noen informasjon om en person har en tilstand. AUC=1 betyr at testen klassifiserer alle friske og alle syke helt korrekt.

Figur 2. Arealet under kurven.
Et diagnostisk balansediagram skiller seg fra et balansediagram om effekt av tiltak ved at førstnevnte har to utfall (sensitivitet og spesifisitet). De er vanligvis korrelerte, slik at når sensitiviteten øker, så synker spesifisiteten og omvendt. En diagnostisk metaanalyse må ta hensyn til denne kovariansen. Figur 3 viser et eksempel på hvordan et diagnostisk balansediagram (coupled forest plot) kan se ut. Her er sensitiviteten sortert fra høyest til lavest. Spesifisiteten stiger når sensitiviteten synker, men ikke på en entydig måte.

Figur 3. Eksempel på dobbelt balansediagram (coupled forest plot) over diagnostisk nøyaktighet.
I en systematisk oversikt har man to datanivåer, personer i studier og studier i metaanalysen. De to vanligste modellene som brukes for å analysere dataene er «bivariate random-effects meta-analysis» modellen (BRMA) og «hierarchical summary receiver operating curve» modellen (HSROC). Den første er en såkalt «linear mixed model». Den bivariate modellen brukes dersom det finnes en felles terskelverdi og man vil beregne et «summary point». HSROC-modellen er en «non-linear mixed model». Den hierarkiske modellen er aktuell dersom det er brukt flere terskelverdier i de inkluderte studiene. Da gir det ikke mening å beregne ett «summary point». Isteden beregner man en HSROC-kurve (hierarchical summary operating curve). De to modellene er matematisk ekvivalente dersom det ikke er noen kovariater.
I diagnostiske analyser må vi skille mellom tester som i stor grad baserer seg på objektive og dikotome utfall (for eksempel graviditetstester og hurtigtester for covid-19) og tester der utførelse eller fortolkning avhenger av subjektive vurderinger og/eller bruk av terskelverdier (for eksempel genpaneler). Hvis subjektivitet og forskjeller i terskelverdier ikke anses som en utfordring kan man beregne et sammenslått estimat for sensitivitet og spesifisitet på tvers av studier. Dersom studier baserer seg på ulik fortolkning av tester eller benytter ulike terskelverdier gir det ikke mening å beregne sammenslått estimat for sensitivitet og spesifisitet, og man må heller bruke tilgjengelig data til å beregne summary receiver operating curve (SROC).
Figur 4 viser et eksempel på HSROC plot. Hvert punkt viser en studie med tilhørende spesifisitet og sensitivitet. Studier med høy diagnostisk nøyaktighet vil vise seg i eller i nærheten av det øvre venstre hjørnet (høy sensitivitet og spesifisitet). Det øvre venstre hjørnet har også de høyeste verdiene av AUC. Området begrenset av den stiplede linjen er en 95 prosent konfidensregion. Dette er en todimensjonal generalisering av et konfidensintervall. Dersom beregning av sensitivitet og spesifisitet ble gjort mange (uendelig antall) ganger og en konfidensregion ble beregnet hver gang, så ville i 95 prosent av tilfellene denne regionen inneholde de sanne verdiene av sensitivitet og spesifisitet. En prediktiv region har 95 prosent sannsynlighet for å inkludere den sanne sensitiviteten og spesifisiteten i en ny studie. I figuren er 11 av 13 (85 %) innenfor regionen. Med et større antall studier ville vi forvente at andelen studier innenfor den prediktive regionen ville nærme seg 95 prosent. HSROC-kurven er beregnet ved hjelp av punktene og viser det beste samsvaret mellom ulike verdier av sensitivitet og spesifisitet basert på de inkluderte studiene. Figuren viser også et beregnet «summary point» som viser sensitivitet og spesifisitet på tvers av studier og terskelverdier. Det vil variere hvor informativt et slikt punkt er, og dersom det inngår mange ulike terskelverdier i dataene, vil dette punktet bare angi sensitivitet/spesifisitet for et gjennomsnitt av de anvendte terskelverdiene og slik sett gi liten mening.

Figur 4. HSROC plot.
Ulike programvarer for metaanalyser av diagnostiske studier
RevMan (8) kan beregne sensitivitet og spesifisitet og balansediagram for disse, men modellene er eksplorative og ikke helt korrekte. For å lage konfirmatoriske modeller i RevMan, er det nødvendig å beregne noen parametere i andre programmer som R og STATA. Dette skyldes at RevMan ikke tar hensyn til kovariansen mellom sensitivitet og spesifisitet. Dersom man beregner de nødvendige parameterne utenfor RevMan, kan disse legges inn i RevMan, og man får de korrekte modellene.
For å bruke R og STATA, må man ha kompetanse på disse programpakkene og kunne bruke programkode. Et alternativ til RevMan + STATA/R er å bruke et program kalt MetaDTA (https://crsu.shinyapps.io/dta_ma/). MetaDTA er menybasert og brukervennlig (selv om R jobber i bakgrunnen, så trenger man ikke skrive programkode). MetaDTA kan blant annet generere en visuell fremstilling av hvordan det går med de som tar testen som i Figur 5.

Figur 5. Fremstilling ved hjelp av MetaDTA av hvordan det går med 1000 pasienter ut fra resultatene fra den diagnostiske metaanalysen (med 95 % konfidensintervaller)
Vurdering av tillit til resultatene
For å vurdere tilliten til resultatene av studier med diagnostiske tester, bruker vi GRADE slik som i resten av metodeboken. Vi viser til GRADE handbook, men diagnostiske tester har noen spesielle utfordringer som vi beskriver her.
Grunnen til at man gjør diagnostiske tester er at man ønsker å forbedre utfallene for pasientene. Dersom man for eksempel ønsker å innføre en ny test som erstatning for en gammel test, er man opptatt av om bruk av den nye testen fører til bedre utfall for pasientene enn bruk av den gamle testen. Da kan man bruke randomiserte studier eller ikke-randomiserte kontrollerte studier og bruke GRADE på vanlig måte som for effektstudier, fordi spørsmålet da gjelder å sammenlikne pasientutfall ved bruk av to diagnostiske tester - altså et spørsmål om effekt. Som regel finnes ikke denne typen diagnostiske studier med utfall som er direkte relevante for pasientene. Ofte foreligger det bare studier av diagnostiske testers nøyaktighet. Da må man vurdere indirekte hvordan resultatene av disse studiene vil påvirke pasientene. Testens nøyaktighet blir altså et surrogatmål på utfall som er viktige for pasientene.
Da har vi tre nøkkelspørsmål:
- Hvilke utfall kan de som blir betegnet som kasus og de som blir betegnet som å ikke ha en sykdom forvente, basert på kunnskapen om den beste behandlingen?
- Vil det bli en reduksjon i falske negative (uoppdaget sykdom) eller falske positive sammen med en tilsvarende økning i ekte positive og ekte negative?
- Hvor like (eller ulike) er mennesker som blir testet og klassifisert nøyaktig av de alternative teststrategiene de som har blitt evaluert i studier?
Selv om studier av testers diagnostiske nøyaktighet starter på høy tillit i vurdering av tilliten til dokumentasjonen om diagnostisk nøyaktighet i GRADE, må tilliten ofte nedgraderes blant annet på grunn av at diagnostisk nøyaktighet er indirekte dokumentasjon for utfall som er viktige for pasientene. Tabell 1 gir en oversikt over de ulike faktorene i GRADE og hvordan gradering av tilliten til resultatene i systematiske oversikter av studier om testers diagnostiske nøyaktighet skiller seg fra gradering av resultater fra studier om effekt av tiltak.
Tabell 1. Faktorer som reduserer tilliten til dokumentasjonen for studier av diagnostisk nøyaktighet og hvordan de skiller seg fra studier om effekt av tiltak (fra GRADE Handbook). |
|
Faktorer som bestemmer og kan redusere tilliten til dokumentasjonen/resultatene |
Forklaringer om hvordan faktoren kan skille seg fra kvaliteten på dokumentasjonen for andre typer studier |
Studiedesign |
Forskjellige kriterier for tester av diagnostisk nøyaktighet sammenliknet med effektstudier Tverrsnittsstudier eller kohortstudier av pasienter med diagnostisk usikkerhet og direkte sammenlikning av testresultater med en passende referansestandard regnes som høy kvalitet og kan nedgraderes til moderat, lav eller svært lav kvalitet avhengig av andre faktorer. |
Systematiske skjevheter (begrensninger i studiedesign og gjennomføring) |
Forskjellige kriterier for tester av diagnostisk nøyaktighet sammenliknet med kriterier for effektstudier
|
Indirekthet (pasientpopulasjon, diagnostisk test, sammenligningstest og indirekte sammenlikning av tester) |
Tilsvarende kriterier som for effektstudier Kvaliteten på dokumentasjonen kan bli nedgradert hvis (1) det er viktige forskjeller mellom populasjonene som er studert og de som testen skal brukes på (med hensyn til tidligere testing, sykdomsspekter og samsykelighet), (2) det er viktige forskjeller i testene som studeres og den diagnostiske ekspertisen hos de som administrerer dem i studiene sammenliknet med de settingene hvor testen skal brukes, eller (3) testene er sammenliknet med en referansestandard i ulike studier og ikke sammenliknet med hverandre i samme studie. Når vi skal vurdere diagnostiske tester mangler vi ofte god dokumentasjon om innvirkning av testresultat på utfall som er viktige for pasienten. Vi må trekke slutninger fra studier av diagnostisk nøyaktighet når det gjelder antatt påvirkning på pasientviktige utfall av eventuelle forskjeller i sanne og falske positive og sanne og falske negative prøvesvar på nytte, komplikasjoner og kostnader av testen. Derfor har vi vanligvis lav tillit til studier av diagnostisk nøyaktighet når vi skal gi anbefalinger, på grunn av indirekte utfall, som ved surrogatutfall for studier av effekt av behandlinger. |
Viktig inkonsistens i studieresultater |
Tilsvarende kriterier som for effektstudier For studier av diagnostisk nøyaktighet kan uforklart inkonsistens i sensitivitet, spesifisitet eller sannsynlighetsratio (heller enn relativ risiko eller gjennomsnittlig forskjell) føre til nedgradering |
Upresise resultater |
Tilsvarende kriterier som for effektstudier For studier av diagnostisk nøyaktighet, kan brede konfidensintervaller for estimater av diagnostisk nøyaktighet, eller sensitivitet og spesifisitet føre til en nedgradering av tilliten til dokumentasjonen |
Høy sannsynlighet for publikasjonsbias |
Tilsvarende kriterier som for effektstudier Høy risiko for publikasjonsbias (f.eks. resultater bare fra små studier som støtter en ny test eller asymmetri i et trakteplott (funnel plot på engelsk)) kan medføre nedgradering av tilliten til dokumentasjonen |
Gradere opp for dose-effekt, stor effekt, og forvekslingsfaktorer som kan redusere en effekt eller skape en falsk effekt |
Tilsvarende kriterier som for effektstudier For alle disse faktorene gjelder det imidlertid at metodene ikke er godt utviklet. |
Vi anbefaler å bruke instrumentet QUADAS-2 for å vurdere risiko for systematiske skjevheter i studier av diagnostisk nøyaktighet.
Vi vurderer indirekthet ut fra populasjonen, settingen, intervensjonen (den nye testen eller indekstesten), sammenlikningen (en annen test eller referansetest) samt utfallene som er viktige for pasienten. Hvis studiene bare har informasjon om testens nøyaktighet, vil vurdering av indirekthet innebære å vurdere hvordan korrekt eller feil klassifisering av pasienter når det gjelder om de har en sykdom eller ikke er relatert til viktige pasientutfall.
Vi vurderer inkonsistens, manglende presisjon, publikasjonsskjevhet og oppgradering for dose-effekt, høy grad av diagnostisk nøyaktighet og gjenværende plausibel forvekslingsfaktor på tilsvarende måte som for studier av effekt av tiltak.
Selv om kriteriene inkonsistens, manglende presisjon, publikasjonsskjevhet og oppgradering for dose-effekt, høy grad av diagnostisk nøyaktighet og gjenværende plausibel forvekslingsfaktor gjelder for dokumentasjon av studier for diagnostisk testnøyaktighet, så er metodene for å bestemme om et kriterium er oppfylt mindre utviklet sammenliknet med dokumentasjon for effekten av terapeutiske tiltak. Det er behov for videre teoretisk og empirisk arbeid for å gi veiledning om hvordan disse kriteriene skal vurderes.
Tabell 2 er et eksempel på hvordan en oppsummeringstabell for studier om diagnostisk testnøyaktighet kan se ut. Tabellen er hentet fra en rapport om screeningverktøy for kognitiv funksjon og bilkjøring (9).
Tabell 2. Eksempel på oppsummeringstabell. Bør SDSA (Stroke Driver’s Screening Assessment) brukes til å diagnostisere manglende kjøreevne hos personer med mistenkt kognitiv svikt? Setting: Trafikkstasjoner etc. |
||||
Testresultat |
Antall per 1000 personer som testes (95 % KI) |
Antall deltakere (studier) |
Kvalitet på dokumentasjonen (GRADE) |
Kommentarer |
Prosent stryk på praktisk kjøretest: 46.6 % |
||||
Sanne positive (personer uten kjøreevne) |
140 til 410 |
238 (9) |
⨁⨁◯◯ LAV 1 2 |
Hvis 1000 personer testes, forventes mellom 140 og 410 av dem å både stryke på screeningtestene og på praktisk kjøretest |
Falske negative (personer feilaktig klassifisert med evne til å kjøre) |
56 til 326 |
Mellom 56 og 326 av 1000 dårlige bilførere vil ikke bli oppdaget. |
||
Sanne negative (pasienter korrekt klassifisert med evne til å kjøre) |
246 til 518 |
272 (9) |
⨁⨁◯◯ LAV 1 2 |
Mellom 246 og 518 av 1000 gode bilførere vil bli oppdaget |
Falske positive (pasienter feilaktig klassifisert som å ikke ha kjøreevne) |
16 til 288 |
Mellom 16 og 288 av 1000 gode bilførere vil bli vurdert til å mangle kjøreevne. |
- Sensitivitet varierer mellom 0,30 og 0,88. Spesifisitet varierer mellom 0,46 og 0,97
- Gradert ned for brede konfidensintervaller
Skrive oversikten
- Beskrevet i eget kapittel om hvordan skrive rapporten.
Fagfellevurdere, godkjenne og publisere
- I et eget kapittel beskriver vi rutiner for å fagfellevurdere, godkjenne og publisere.