Strategimøte 2017
Kvalitetskontroll av genteknologiske metoder
Rapport
|Publisert
Rapport fra strategimøte 2017 om kvalitetssikring av genteknologiske metoder, i regi av «Referansegruppe for ekstern kvalitetssikring i virologi og serologi». På møtet ble det gitt detaljerte anbefalinger om validering/verifisering av kvalitative og kvantitative analyser, internkontroller, black box-systemer, løpende vurdering av ytelse og opprettholdelse av kvalitet i den daglige rutine.
Sammendrag
Oppsummering og anbefalinger:
Design av tester
Vurdering av primere og probers design samt temperaturprofil og reagenskonsentrasjoner er selvsagte elementer i kvalitetsvurderingen av egenutviklede PCR-tester, men er også helt nødvendige trinn i vurderingen av publiserte og kommersielle tester. Unntak kan gjøres for kommersielle tester der reagenser og sekvenser er bedriftshemmeligheter, men referansegruppen anser ikke dette som en gunstig situasjon. Åpenhet rundt PCR-testers design fremmer faglig utveksling, øker mulighetene for å finne feil og bidrar dermed i siste instans til god diagnostisk kvalitet.
Grad av sekvenslikhet mellom primere/prober og målsekvens vurderes ved hjelp av databasesøk som f.eks. BLAST-søk. Søkemåte og valg av databaser er avgjørende. Vær oppmerksom på at feil forekommer både i databaser og i publiserte sekvenser. NCBI’s genbank er den mest omfattende og mest brukte av databasene. Spesifisitet, men også til en viss grad sensitivitet, kan bedømmes elektronisk (in silico) ved slike analyser.
Sjekkliste for design av primere og prober:
- Primere er vanligvis rundt 20 baser lange, prober noe lengre
- Smeltetemperatur for primere ligger oftest i området 50-60 grader
- For prober er det vanlig å legge smeltetemperaturen 5-10 grader høyere
- Arbeidstemperatur («annealing»-temperatur) er oftest 2-5 grader lavere enn smeltepunktet for primere
- Primer-dimerer bør unngås (spesielt i 3’ ende)
- Hårnålsformasjoner bør også unngås, men tolereres i større grad enn dimerer
- Repeterende sekvenser bør unngås (maksimum fire di- eller mononukleotider etter hverandre)
- G/C-andelen i 3’ ende bør være lav (helst færre enn tre blant de siste fem nukleotidene)
- Degenererte primere bør brukes med forsiktighet, og generelt ikke overstige to til tre degenererte posisjoner per primer-/probesekvens
- Det er stort slingringsmonn når det gjelder PCR-produktets størrelse, men det er vanlig å legge seg på 100-300 basepar for real-time-PCR’er.
Et godt utvalg av programvare er tilgjengelig for sekvens- og strukturanalyser av primere og prober. Det må for øvrig nevnes at tilsynelatende dårlige primere likevel kan fungere ypperlig i praksis.
I dag foretrekkes real-time-formatet i de aller fleste sammenhenger, og deteksjonssystemene TaqMan og FRET dominerer. Sistnevnte muliggjør smeltepunktsanalyser. Fluorescerende fargestoffer som binder seg til dobbelttrådet DNA (f.eks. SYBR Green) kan også benyttes som deteksjonssystem, men denne metoden benyttes stadig mindre. Den kan være nyttig til feilsøk ved spørsmål om probesvikt eller til analyser der probe ikke er aktuell som f.eks. 16S-DNA-PCR. Slike fargestoffer er velegnet til smeltepunktsanalyser.
Alternative prinsipper som kan bidra til optimalisering av primer- og probedesign er dual priming oligonucleotide (DPO), locked nucleic acid (LNA) eller peptide nucleic acid (PNA).
Måling av en PCR’s effektivitet er en essensiell del av kvalitetsvurderingen av en PCR. En effektivitet på 90-110 % tilstrebes. Ved lav effektivitet forsøkes først optimalisering av reaksjonsbetingelsene. Spesielt endringer i annealing-temperatur eller MgCl-konsentrasjon kan ha stor betydning. Ved fortsatt lav effektivitet må redesign av primere og prober vurderes.
Validering og verifisering – kvalitative analyser
Ved en validering dokumenterer man at en metode eller test er egnet for sitt formål. Verifisering er mindre omfattende og innebærer at man dokumenterer at testen fungerer i det enkelte laboratorium. Dette vil forutsette at en validering er utført et annet sted.
Genteknologiske metoder for påvisning av mikrobiologiske agens er i dag i stor grad egenutviklede. For slike tester må laboratoriet selv gjøre valideringen. For kommersielle tester eller tester utviklet ved andre laboratorier vil en verifisering være tilstrekkelig. Publikasjoner i vitenskapelige tidsskrifter kan brukes som grunnlag i en validering og vil i så fall kunne redusere omfanget av valideringen.
En validering bør omfatte minimum 40-50 prøver (25% positive, 25% svakt positive og 50% negative). Ved en verifisering kan det være tilstrekkelig med halvparten. Ved validering eller verifisering av tester for sjeldne eller lite kjente agens kan det hende man må klare seg med et lavere antall. Både positive og negative prøver må være av den typen prøvematerialer som testen normalt vil anvendes på.
En detaljert plan må lages på forhånd for både valideringer og verifiseringer og må omfatte metodebeskrivelse, aktuelle prøvematerialer, kontroller, opplæring, kontinuerlig oppfølging, besvarelse i datasystemet, og krav til parametere som skal være tilfredsstilt for en godkjenning. Ved en validering bør parameterne omfatte analytisk spesifisitet, diagnostisk sensitivitet, nøyaktighet, presisjon (repeterbarhet og reproduserbarhet), deteksjonsgrense og linearitet (sistnevnte kun for kvantitative metoder). Presisjon kan tallfestes med Cohen’s kappa-koeffisient som bør være > 0,75. Ved en verifisering vil det vanligvis være tilstrekkelig med nøyaktighet og presisjon.
En validerings- eller verifiseringsrapport må skrives i etterkant. I denne skal testens ytelse vurderes opp mot kravene som ble stilt på forhånd, og rapporten skal ende med konklusjonen godkjent/ikke godkjent. Referansegruppen oppfordrer til utveksling av valideringsrapporter mellom laboratorier som vurderer identiske tester. Dette vil være betydelig arbeidsbesparende for mottakerlaboratoriene.
Det er i dag krav om CE-merking av egenproduserte PCR-tester. Vi viser i den forbindelse til «Guide for validering og CE-merking av egenutviklede molekylærbiologiske diagnostiske tester». Denne er laget av en arbeidsgruppe for de mikrobiologiske laboratoriene i Norge, og finnes på MikInfo.
Internkontroller
En internkontroll bør være en kontroll som dekker alle trinn i en diagnostisk test, inklusive ekstraksjonen. Dette kan oppnås ved å tilsette kontrollen før ekstraksjonstrinnet (eksogen kontroll) eller ved å undersøke for humant genmateriale som allerede finnes i materialet (endogen kontroll).
DNA-kontroller benyttes for bakterier og DNA-virus. RNA-kontroller benyttes for RNA-virus. RNA-kontroller vil vanligvis være eksogene transkripter, men endogene RNA-kontroller kan også designes. Disse bør inkludere et splicing-sete. Dette vil hindre konkurranse med humant genomisk DNA, som vil inkludere et intron og ikke la seg amplifisere på grunn av den store avstanden mellom primerne.
Bruk av endogene kontroller er praktisk og enkelt ettersom man slipper å preparere og tilsette ekstra materiale. I tillegg får man en kontroll på prøvetakingen. Dette er mest aktuelt for penselprøver og skyllematerialer der kvaliteten på prøvetakingen kan variere betydelig. Endogene kontroller er ikke egnet til cellefattige materialer der mengden humant genmateriale er liten, slik som f.eks. spinalvæsker. I slike tilfeller må man tilsette eksogene kontroller.
Eksogene kontroller har ellers den fordel at konsentrasjonen kan reguleres. Dermed kan man angi et område (Ct-verdi-intervall) som signalet forventes å havne innenfor. Dette øker muligheten til å avdekke partiell inhibisjon, noe som er mest aktuelt for prøvematerialer med stabil kvalitet. En eksogen kontroll vil derfor være hensiktsmessig for materialer som blod, spinalvæsker, serum og leddvæsker. Det samme gjelder for prøvematerialer der hemming er et velkjent problem som for eksempel feces. For kvantitative tester er eksogene kontroller helt nødvendig ettersom disse testene må kalibreres mot kontroller med et definert og stabilt kopitall.
Eksogene kontroller bør tilsettes lyseringsbufferen der dette er mulig. For DNA-kontroller kan man alternativt gjøre tilsettingen i ekstraksjonsmiksen.
Vær oppmerksom på at en internkontroll som kjøres i multiplex med diagnostisk PCR kan konkurrere om nukleotider og enzymer og dermed hemme den diagnostiske PCR-reaksjonen. Dette problemet kan løses ved å bruke lave konsentrasjoner av kontroll-primere og/eller selve kontrollen. Et annet alternativ er å benytte GC-rike kontroller med høyere smeltepunkt enn diagnostisk målsekvens. Med dette favoriserer man diagnostisk PCR. Kontrollreaksjonene får da suboptimale forhold og forbruker mindre reagenser. På den annen side må man passe på å justere forholdene slik at man likevel oppnår robust amplifikasjon. Kontroll-PCR’ene kan alternativt kjøres separat for slik å unngå konkurranse.
Designede kontroller med bindingssteder for testens primere i hver ende, men med ulik sekvens for probe (homologe kontroller), er svært velegnede som inhibisjonskontroller samt som kontroller i kvantitative tester. Her må man dog være spesielt oppmerksom på konkurranse. Reaksjonene vil konkurrere også om primere (ikke bare nukleotider og enzymer).
Internkontroller er ikke nødvendige for PCR’er benyttet til genotyping. Dette er supplerende PCR’er som gjøres på materiale som allerede er konfirmert positive for aktuelle agens. Enda en kontroll ansees unødvendig.
Det bør være et mål at alle nye analyser som innføres har en adekvat internkontroll og at man på sikt også innfører dette på eldre analyser som mangler internkontroll. Tilgjengeligheten på kommersielle kontroller med angitt kopitall blir i dag stadig bedre.
Black box-systemer
Med begrepet «black-box-systemer» menes her kommersielle testsystemer med bedriftsinterne komponenter. Dette innebærer at brukere ikke har innsyn i sentrale prosesser. Ofte er primer- og probesekvenser hemmelige og fluorescenskurver utilgjengelige. Dette har blitt vanligere i de senere årene og skaper problemer for medisinsk mikrobiologiske laboratorier. Ved vurdering av enkeltresultaters kliniske betydning er man ofte avhengig av slike data. Dette er spesielt aktuelt ved uventede eller avvikende resultater. Med slike systemer overfører man i praksis deler av det medisinske ansvaret til produsenten. Dette mener vi er uheldig, og vi anbefaler derfor at testprodusenter tilgjengeliggjør primer- og probesekvenser, fluorescenskurver og informasjon om ekstraksjonsmetodikk. Ved anskaffelser av nye kommersielle tester anbefaler vi i tillegg at medisinsk mikrobiologiske laboratorier velger åpne systemer med tilgang på amplifikasjonskurver og sekvensdata der dette er mulig. Egenutviklede tester bør av samme grunner foretrekkes der dette er hensiktsmessig.
Resultater fra black box-systemer bør regelmessig kontrolleres med egenutviklede metoder. Løpende bioinformatisk overvåking av treffsikkerheten til alle primere og prober (både tilgjengelige kommersielle og egenutviklede) bør også innføres.
Løpende vurdering av ytelse basert på driftskontroll
Kontinuerlig overvåking av en kvalitativ tests nøyaktighet og presisjon baseres på en positiv driftskontroll med kjent signalstyrke. Det er tilstrekkelig med én kontroll per oppsett. For kommersielle tester kan leverandøruavhengig kontroll benyttes i hvert oppsett, eller som et minimum, ved testing av hver nye batch fra leverandør.
Det er vanlig å fortynne kontrollen slik at den legger seg midt i lineært område for testen med Ct-verdier rundt 28-30. Den positive kontrollen kan være et plasmid eller kun en kjent positiv prøve. Plasmider foretrekkes da disse er lettere å standardisere samt gir mengder nok til å vare i årevis.
Avvikskriteriene er som for serologiske tester og baseres på Westgards regler (se rapporten Kvalitetskontroll av infeksjonsserologiske metoder fra 2016). Erfaring viser dog at en aksjonsgrense på 2 standardavvik ofte er for streng. Variasjonen fra kjøring til kjøring er for stor for kvalitative PCR-analyser, og det har blitt alminnelig å basere seg på ±2 sykluser (Ct-trinn) i stedet. En like pragmatisk tilnærming vil være å sette minimum CV % til 2,5 %. Dvs. dersom CV % måles til mindre enn 2,5 % i en validering/verifisering så erstattes denne av 2,5 %, som så benyttes til å sette opp aksjonsgrensene. Dette vil gi omtrent samme slingringsmonn som ±2 Ct-trinn i optimal sone (Ct-verdier mellom 25 og 30), og større slingringsmonn ved svake signaler – noe som kan være gunstig. Her kan man velge den metoden som passer best inn i lokale rutiner og til laboratoriets programvare.
Brudd på Westgards regler bør føre til omkjøring, men man må bruke skjønn. Ved f.eks. for sterk positiv kontroll kan negative resultater godkjennes. Ved hyppige alarmer kan det være aktuelt å gjøre en ny beregning av standardavvik og CV % basert på et større materiale for slik å fange opp mer av den naturlige variasjonen.
I tillegg hører det med en negativ kontroll som mangler templatsekvensen i hvert oppsett. Ethvert utslag i denne kontrollen ansees som avvik.
Løpende bioinformatisk kontroll av primere og prober bør innføres. Jf. avsnittet over om black box-systemer.
Kvantitative analyser
Validering og løpende vurdering av kvantitative genteknologiske analyser følger de samme prinsippene som for kvalitative analyser, men det stilles spesielle krav til beregningene. De forhold som gjelder spesifikt for kvantitative analyser vil bli omtalt her.
Kvantitative genteknologiske analyser er mest aktuelle på materialer som fullblod og plasma. Dette er materialer som det er lett å ta standardiserte prøver av. Analysene anvendes til monitorering av sykdomsforløp eller behandlingseffekt ved infeksjoner med f.eks. HBV, HCV, HIV, CMV eller EBV. For andre materialer som f.eks. luftveismateriale eller biopsier kan såkalt normalisering benyttes. Dette vil ikke bli nærmere omtalt i denne rapporten.
Det er viktig å merke seg at PCR-resultater med benevningene IU/ml eller kopier/ml ikke er normalfordelte når de uttrykkes på vanlig aritmetisk skala. Fordelingene blir tilnærmet normalisert etter logaritmisk transformasjon og det anbefales derfor at man gjør en log10-transformasjon før man gjør statistiske beregninger. Ct-verdier representerer tilnærmet log2-transformerte verdier av nukleinsyrekonsentrasjoner og egner seg derfor faktisk også bedre til statistiske beregninger enn aritmetiske konsentrasjonsverdier, men man mister da korreksjonen fra standardkurven. Logtransformerte konsentrasjonsverdier er derfor å foretrekke.
Validering
Presisjon (reproduserbarhet og repeterbarhet) bør oppgis som log10SD. Den bør dessuten oppgis for tre nivåer (sterkt positiv, svakt positiv og nær deteksjonsgrensen). SD < 0,19 log10kan aksepteres.
Linearitet beregnes på en fortynningsserie (ofte over et område på 6-7 log10) og angis med korrelasjonskoeffisienten R2(bør være nær 1, minimumsgrense 0,7). Deteksjonsgrensen samt øvre kvantiteringsgrense i lineært område beregnes også i en slik analyse.
Måleusikkerhet avhenger av presisjon beregnet under validering og bør oftest inkluderes i valideringsrapporten til kvantitative analyser. Beregningen baseres på størst påviste standardavvik i testens måleområde og angis som 95 % konfidensintervall. Merk at det endelige konfidensintervallet hvis man rapporterer verdier på en aritmetisk skala vil være asymmetrisk etter log10/exp10-transformasjon.
Løpende vurdering av ytelse
Alarmgrensene for driftskontrollen i Lewey-Jennings- eller Westgard-plot bør beregnes etter log10-transformasjon før de evt. transformeres tilbake som beskrevet over hvis man ønsker å operere med verdier på aritmetisk skala. Omregning av alarmgrensene til Ct-verdier eller kopitall kan gjøres avhengig av laboratoriets rutiner og datasystem. Ettersom kvantitative analyser relateres til en standard kan Westgards regler benyttes. Som nevnt over er disse kriteriene ofte for strenge for kvalitative analyser.
Kvalitet i den daglige rutine
Den daglige vurdering av testresultater sammenholdt med kliniske opplysninger og supplerende undersøkelser er et viktig siste trinn i kvalitetskontrollen av genteknologiske metoder.
Et hyppig problem er svært svake signaler med Ct-verdier rundt 40. Disse kan representere uspesifikke reaksjoner eller svært lav mengde av målsekvens i prøven. Svake uspesifikke reaksjoner kan ellers skyldes probesvikt (såkalt «drop off» eller degradering) som fører til uspesifikk aktivering av fluoroforen. Uspesifikk amplifikasjon av humant genmateriale er en annen mulighet. Det har vært diskutert om man bør innføre gråsoner for PCR-analyser på tilsvarende måte som for serologiske tester. Formen på amplifikasjonskurven, klinisk bilde, type prøvemateriale og tidligere prøveresultater har stor betydning ved vurderingen av slike resultater, og det er derfor vanskelig å holde på et like strengt gråsonesystem som for serologiske tester. Vi anbefaler heller at resultater med Ct-verdier i området 38 og oppover vurderes med spesiell årvåkenhet, og at man har lav terskel for å kjøre slike prøver om igjen. Generelt bør man være forsiktig med å godta positive resultater med Ct-verdier over 40, i alle fall ikke for Taqman-prober som er mest utsatt for probesvikt.
En negativ internkontroll og samtidig negativt resultat bør føre til at aktuelle prøve undersøkes på nytt. Et negativt resultat for positiv kontroll bør føre til at alle negative prøver i et oppsett kjøres på nytt. Positive resultater kan gis ut. Ved andre avvik vil det variere hvorvidt hele eller bare deler av oppsettet bør kjøres om igjen.
Hvis reanalyse ikke løser problemet må man legge en plan for utvidet feilsøk. Vær oppmerksom på at negative internkontroller kan skyldes andre forhold enn inhibitorer i prøvematerialet. Valg av forsendelsesmedium og fortynningsbuffer kan for eksempel påvirke ekstraksjonens effektivitet da enkelte ekstraksjonsmetoder er sensitive for endringer i pH eller saltkonsentrasjoner. Tilstedeværelse av inhibitorer i prøvematerialet kan avdekkes ved å fortynne prøven 1/10 og undersøke denne parallelt med ufortynnet prøve. Dersom den fortynnede prøven gir sterkest signal tyder dette på inhibisjon. Den beste kvalitetskontrollen i daglig rutine er en eksogen internkontroll som tilsettes før ekstraksjon og der man har vurdert og definert et intervall som denne må falle innenfor. Dersom man aksepterer en hvilken som helst Ct-verdi for internkontrollen vil man miste muligheten til å oppdage partiell inhibisjon.
Amplikon-forurensning er i dag et langt mindre problem enn for få år siden. Dette skyldes innføring av real time-teknologi og bruk av uracil N-glykosylase (UNG). Problemet er likevel ikke eliminert, og det er viktig å opprettholde gode laboratorierutiner for å unngå forurensning. Lavgradige forurensninger kan være vanskelige å oppdage og krever årvåkenhet av bioingeniører og leger. Tegn på forurensning kan være positive utslag i negative kontroller, påfallende mange svakt positive prøver per oppsett eller flere positive prøver fra pasienter med lite relevant klinikk. Ved mistanke om forurensning bør første tiltak være å teste et oppsett med kjente negative prøver. Laboratoriet må ha etablerte rutiner for tiltak ved bekreftet forurensning.
Krysskontaminering under prøvebehandling eller PCR-oppsett kan forekomme både i automatiserte og manuelle arbeidsflyter. Tegn på krysskontaminering vil være de samme som for amplikon-forurensing. Ved mistanke om krysskontaminering i automatiserte oppsett bør man kjøre et testoppsett med vekselsvis positive og negativ prøver (sjakk-mønster). Ved spørsmål om krysskontaminering av enkeltprøver bør prøven ekstraheres på nytt før omkjøring av PCR, for slik å kontrollere for krysskontaminering også i trinnene før og under ekstraksjon.
Falskt positive resultater i et real time-PCR-oppsett kan som nevnt ha mange årsaker. Avvikende amplifikasjonskurver er hyppig ved uspesifikke reaksjoner (manglende eksponentiell fase er typisk). Alle amplifikasjonskurver bør derfor inspiseres. Det varierer mellom laboratorier hvorvidt det er leger, bioingeniører eller molekylærbiologer som gjør dette. Det varierer også hvorvidt kurver vurderes av én eller to personer. Det avgjørende er at informasjon om avvikende amplifikasjonskurver når fram til legen som gjør den helhetlige medisinske vurderingen.
Det varierer også fra laboratorium til laboratorium om man kjører enkeltprøver eller dubletter for utvalgte materialer. Vi anbefaler at spinalvæsker fra pasienter med reel mistanke om meningitt eller encefalitt kjøres som dubletter. Ved diskrepans mellom dublettene må begge kjøres på nytt fortynnet og ufortynnet. Negativt resultat i alle paralleller ved omkjøring tolkes som uspesifikt resultat i første kjøring. Dublettkjøring øker den diagnostiske presisjon noe, men denne gevinsten må veies opp mot den økte ressursbruken. Strategien er derfor mest aktuell i tilfeller med alvorlig sykdom der resultatet gir behandlingsmessig konsekvens. I de fleste andre tilfeller kan man nøye seg med omkjøring ved usikre resultater, alternativt kan man be om ny prøve.