Maskinlæring i kreftforsking
Artikkel
|Sist endret
Maskinlæring har vorte svært populært fordi tilgjengelege datamengder veks raskt. Det er òg store datamengder i forskingsprosjekta til Kreftregisteret, og det gjer at vi tek i bruk maskinlæring i stadig fleire prosjekt.
Kunstig intelligens og maskinlæring har gjort store framskritt dei siste åra. Store datamengder, sterke rekneressursar og utvikling av betre algoritmar har bidrege til utviklinga.
Maskinlæring er ei form for kunstig intelligens der maskinene lærer på eiga hand. Dette kan vere både 'veiledning' – der maskinene får fasit, eller 'ikkje-veiledning' – der maskinene leitar etter mønster. Desse metodane har fleire bruksområde innan kreftforsking, og i Kreftregisterets strategi er maskinlæring innan både epidemiologi og screening spesielt nemnt som sentrale satsingsområde.
Klassifisering av kreftbiomarkørar
Ved «veiledning» vert algoritmar brukt på datasett som inneheld både spørsmål og svar, der modellen lærer å forutse rett svar, ofte basert på store mengder data. Ei form for veiledning er klassifikasjon, som er evna til å kategorisere eit resultat, til dømes å klassifisere ulike kliniske grupper; friske personar, forstadium, eller kreft. I ei studie er klassifikasjonen basert på transkripsjonsmønster frå små-RNA-analyser, og i ei anna er klassifikasjonen basert på tarmbakterieprofilar hos deltakarar i tarmscreening. Dei mønstera som skil best mellom dei kliniske gruppene er potensielle biomarkørar for tidleg oppdaging av kreft.
Det er viktig å skilje reelle biomarkørar frå tilfeldige mønster, difor vert datatypane delt opp i tilfeldige trenings- og testsett fleire gonger. Ved å repetere læringa, og så teste resultatet på den attverande delen av datasettet får vi robuste resultat som kan prøvast vidare i andre studiepopulasjonar.
Vi har òg brukt såkalla ikkje-veiledning (der maskinene skal leite etter mønster i data utan noko eksakt og rett svar), til å identifisere små RNA transkripsjonsmønster i serum frå lunge-, bryst- og tarmkreftpasientar tiår før diagnose. Dette viste seg klarest i lungekreft, og stadfestar tidlegare studie som viser at slike mønster i lungekreft er dynamiske i tiåret før diagnose.
Mammografiscreening
Også innan mammografiscreening er potensialet for maskinlæring stort. Mammografiseksjonen ved Kreftregisteret er med på fleire prosjekt for å skaffe kunnskap om fordelar og ulemper ved bruk av maskinlæring i Mammografiprogrammet, før desse metodane eventuelt kan bli godkjende for bruk i framtida.
Ulike bruksområde er aktuelle, til dømes veit vi at nokre forandringar på screeningbileta vert vurdert som normale av røntgenlegane, men viser seg seinare å vere brystkreft. Om maskinlæring kan hjelpe oss til å verte endå betre på å finne desse svulstane, er noko av det vi vil finne ut av. Og om ein finn fleire svulstar, må vi òg få kunnskap om kva slags svulstar dette er.
Maskinlæring kan òg hjelpe radiografane i screeningarbeidet, til dømes i vurdering av den radiografiske bildekvaliteten. Vi må i tillegg ha kunnskap om etiske og juridiske aspekt knytt til implementering av dette i Mammografiprogrammet.
Det norske Mammografiprogrammet har eit stort og unikt datagrunnlag, med screeningbilete frå over fire millionar undersøkingar, og tilhøyrande informasjon om sjølve undersøkinga og eventuelle brystkrefttilfelle. Vi er difor i ein svært god posisjon til både å teste allereie utvikla system og utvikle eigne maskinlæringssystem tilpassa norske kvinner.
Livmorhalsscreening
For å sjå om ein kan betre livmorhalskreftscreeninga og gjere ho meir persontilpassa, vert maskinlæring brukt til å analysere store datamengder frå ulike kjelder. Frå Kreftregisteret får ein screeninghistorikk, som svar frå prøver og etterundersøkingar, data om behandlingar, HPV-vaksinasjonsstatus og kreftdiagnose. Frå spørjeundersøkingar får ein informasjon om røyking, alkohol, reproduksjonshistorie og seksuell helse. I tillegg vert klinisk informasjon om kva HPV-typar som infiserer livmorhalsen samla inn.
Fleire ulike maskinlæringsmetodar vert brukt for å finne ut kva modell som best predikerer individuell risiko for livmorhalskreft. Ut frå denne modellen ønsker ein å fastsette meir individualiserte tidsintervall for livmorhalsscreening. Målet med forskinga er altså å gå bort frå ei standardisert kreftscreening som er lik for alle, til ei meir persontilpassa screening. Denne forskinga skjer i tett samarbeid mellom forskingsavdelinga, avdeling for registerinformatikk og Livmorhalsprogrammet.
Pågåande prosjekt
FLORENCE – føderert læring på kreftdata
IT-verktøy (beslutningsstøtteverktøy) som kan brukast av spesialistar for å hjelpe med val av behandling for tarmkreftpasientar.
JanusRNA – Identifisering av tidlege biomarkørar for kreft
Studien brukar maskinlæring som verktøy for klassifisering av små ikkje-kodande RNA som potensielle tidlege biomarkørar for ulike krefttypar (lunge, prostata, bryst, eggstokk, tjukk- og endetarm, testikkel, galleblære og livmorkreft). Studien er basert på sekvenseringsdata frå prediagnostiske prøvar frå Janus Serumbank.
Tarmbakteriar og livsstil ved tarmscreening (CRCbiome)
Studien undersøkjer om det er ein samanheng mellom tarmbakteriar, livsstil og tarmkreft. Maskinlæring skal brukast blant anna til å klassifisere prøvar frå friske personar, forstadium eller kreft.
Persontilpassa screening mot livmorhalskreft
I dette prosjektet arbeidar vi med å skape meir fleksibel kreftførebygging ved å gå frå standardiserte tilrådingar til tilrådingar basert på personleg risikovurdering. Ved å kombinere kunnskap frå den medisinske og den datateknologiske verda utviklar vi ein algoritme som med helsedata skreddarsyr tilrådingar om screening for livmorhalskreft, ut frå den enkelte sin risikoprofil.
Utvikling av KI-algoritmar i Mammografiprogrammet
Eit forskingsprosjekt i samarbeid med Norsk Regnesentral, der ein brukar data frå Mammografiprogrammet for å utvikle eit eige maskinlæringssystem.
Fordelar og ulemper ved kunstig intelligens i Mammografiprogrammet
Gjennom retrospektive studiar skal vi undersøkje fordelar og ulemper ved å bruke kunstig intelligens i vurdering av screeningbilete i Mammografiprogrammet.
BADDI-prosjektet
Dette prosjektet skal etablere kunnskap om maskinlæring si evne til å oppdage brystkreft på screening med tomosyntese og standard mammografi, ved hjelp av data frå Tomosyntesestudiane i Bergen (To-Be).
AIMS NORWAY – Ein randomisert kontrollert studie
I denne studien skal vi undersøkje om kunstig intelligens i kombinasjon med røntgenlegar kan fungere minst like bra til å påvise brystkreft som dagens standardprosedyre i Mammografiprogrammet, der to røntgenlegar vurderer bileta.
Bruk av datamodellen OMOP
Tilgjengeleggjering av data er ein viktig del av arbeidet til Kreftregisteret. OMOP er utvikla gjennom eit internasjonalt prosjekt som arbeider med å standardisere data til eit felles format.