Om maskinlæringsprosjektet
Artikkel
|Publisert
Regjeringens ambisjon er å skape en pasientens helsetjeneste, der pasientenes stemme skal bli hørt, inkludert å styrke pasientenes involvering i beslutningsprosesser, utvikling og evaluering av helsetjenestene. Innovasjonsprosjektet er finansiert av Norges forskningsråd (NFR) og har som formål å utvikle og teste verktøy for sentimentanalyse av pasientkommentarer på norsk.
Bakgrunn
Et viktig pasientrettet verktøy på nasjonalt nivå er det nasjonale systemet for måling av pasienterfaringer. Fritekstkommentarer fra disse undersøkelsene er svært relevante for klinikere og ledere i arbeid med kvalitetsforbedring. Imidlertid er de stort sett ubrukt på grunn av tid og ressurser som kreves for å analysere pasientkommentarer.
Natural Language Processing (NLP) representerer en gren av datavitenskap og kunstig intelligens som fokuserer på automatisert analyse av menneskelig språk ved hjelp av maskinlæringsmodeller. Sentimentanalyse er en av disse modellene, og den har som mål å identifisere subjektive holdninger i en tekst: om meningen er positiv eller negativ, og hvem eller hva meningen refererer til. Innenfor aspektbasert sentimentanalyse går man et skritt videre ved å koble de identifiserte målene til bredere emnekategorier.
Sentimentanalyse har blitt introdusert som en måte å analysere kommentarer fra pasienter i helsetjenesteforskning internasjonalt, men disse verktøyene er både domene- og språkspesifikke og er ikke utviklet for norsk tekst på helsefeltet. Dette prosjektet vil derfor utvikle og evaluere ressurser og verktøy for aspektbasert sentimentanalyse av fritekstkommentarer på norsk. Vi vil benytte pasientkommentarer fra Folkehelseinstituttets (FHI) nasjonale pasienterfaringsundersøkelser som datakilde når vi utvikler modellen.
Resultatene fra dette prosjektet vil være av stor verdi for undersøkelser utført av det nasjonale systemet for pasienterfaringsundersøkelser, i tillegg til andre deler av FHI og offentlig sektor generelt. Automatisk analyse av kommentarer har bred anvendelse i offentlig sektor, og prosjektet vil også føre til effektivisering og kostnadsbesparelser.
Organisering
Innovasjonsprosjektet er formelt organisert i område for helsetjenester ved FHI, integrert i de nasjonale pasienterfaringsundersøkelsene. Flertallet ansatte i fagområdet for surveyer og brukeropplevd kvalitet ved FHI vil være involvert i arbeidet. Universitetet i Oslo, Forskningsgruppen for språkteknologi er samarbeidspartner i prosjektet. Ulike aktører i helsetjenesten vil bli involvert for å sikre at resultatene blir mest mulig relevante for tjenestene.
Arbeidspakke 1
Målet er å tilpasse en maskinlæringsmodell som kan automatisere klassifiseringen av ustrukturerte pasientkommentarer som positive eller negative, og graden av polaritet. For å oppnå dette, kreves tilgang til gullstandarddata for både opplæring og testing. Gullstandarddata er kommentarer som er manuelt annotert med hensyn til polaritet på både setnings- og kommentarnivå. Den første fasen vil innebære manuell annotering av kommentarene for polaritet, som deretter vil brukes til å konstruere opplærings- og testsett. Nevrale modeller, inkludert store språkmodeller for norsk, vil være utgangspunktet for å tilpasse modellen til oppgaven og domenet (1).
Arbeidspakke 2
Denne fasen involverer utvikling og testing av algoritmer for automatisk klassifisering av innholdet i kommentarene i hovedtemaer og undertemaer gjennom aspektbasert sentimentanalyse. Aspektbasert sentimentanalyse vil bidra til å klassifisere pasientenes erfaringer i ulike aspekter av helsetjenestene, for eksempel diagnostisering og oppfølging. Den første fasen innebærer manuell annotering av fritekstkommentarer mot den konseptuelle rammen for hvert spørreskjema (2,3), og deretter utarbeide en domenespesifikk oversikt over ulike aspekter og utføre en finmasket annotering. Den annoterte dataen vil bli brukt til både trening og evaluering av modellen. Vi vil også her prøve ut store språkmodeller (1,4) og bruke dem som utgangspunkt for modellen.
Arbeidspakke 3
Modellen som er utviklet for analyse av polaritet og aspekter (arbeidspakke 1 og 2) vil brukes i arbeidet med å lage en første versjon av rapporter på leverandørnivå. Disse rapportene vil primært rettes mot ulike helsetjenesteleverandører, i første omgang fastleger. Evalueringen vil inkludere undersøkelser av hvordan de nye resultatene fra sentimentanalyse blir brukt i praksis, og hva som fremmer eller hemmer bruk av pasienterfaringer for kvalitetsforbedring. Dette vil involvere kvalitative intervjuer med helsepersonell og digitale spørreundersøkelser.
Arbeidspakke 4
De nye datakildene, metodene og verktøyene som utvikles, vil bli dokumentert i en rapport. Dette vil legge grunnlaget for integrasjon med systemet for nasjonale pasienterfaringsundersøkelser og muligheten for tilpasning til andre offentlige applikasjoner. Dokumentasjonsprosessen vil omfatte workshops med hele forskningsteamet ved FHI og møter med alle samarbeidspartnerne i prosjektet. Brukerdeltakelse vil være en sentral faktor gjennom hele prosessen for å sikre relevans og nytteverdi for hovedmålgruppen.
Publisering
Innovasjonsprosjektet vil bli dokumentert i en dokumentasjonsrapport, kronikker og populærvitenskapelige artikler. I tillegg vil vi publisere resultater i vitenskapelige artikler i internasjonale tidsskrifter.