een grote hoeveelheid letters in 3D die op, door en over elkaar liggen.

Mogelijkheden van tekstmining voor zorgonderzoek onderzocht met PRADO

PRADO, de landelijke database waarin consulten over palliatieve zorg wordt vastgelegd , bevat een schat aan informatie over de palliatieve zorg in Nederland. Deze database bevat niet alleen gestructureerde data, maar ook ongestructureerde data, in de vorm van vrije tekstvelden. Eerder was het lastig vrije tekstvelden in grote getalen te analyseren, maar met de komst van natural language processing-technieken, zoals tekstmining, wordt dit steeds makkelijker. Maarten Grootendorst, data scientist, en onderzoeker dr. Linda Brom (beiden IKNL) vertellen hun exploratieve onderzoek met PRADO-data en welke mogelijkheden tekstmining te bieden heeft.

PRADO als proeftuin voor tekstmining

Grootendorst begint: ‘We waren benieuwd wat natural language processing als techniek ons te bieden had. Het lag voor de hand om PRADO te gebruiken, aangezien dit een bestaande database is die naast een hoop gestructureerde data ook veel informatie in vrije tekstvelden bevat die niet eerder uitgebreid bekeken is.’ Brom vertelt: ‘Eerder maakten we jaarlijkse verslagen op basis van de gestructureerde data in PRADO, de vakjes die consulenten aan kunnen vinken over problemen en symptomen. Maar we wisten dus niet wat voor informatie die vrije tekstvelden bevatten en wat we met zulke data zouden kunnen.’ En dus gingen Grootendorst en Brom aan de slag met tekstmining. Grootendorst: ‘Tekstmining, ook wel natural language processing, is een techniek waarmee je ongestructureerde data, zoals grote hoeveelheden tekst, om probeert te zetten naar gestructureerde bruikbare data. Het maakt niet uit of dat nou mdo’s zijn, of tweets, of PRADO-verslagen.’ Een klassiek voorbeeld van tekstmining is classificatie, aldus Grootendorst. ‘Zo wordt bijvoorbeeld bepaald of een mail spam is of niet, door te kijken of er bepaalde woorden in voorkomen die een beetje raar zijn in de context van het bericht.’

Van data naar hypothese

Brom: ‘We hebben het niet via de traditionele manier aangepakt, waarbij je een onderzoeksvraag of hypothese formuleert. We zijn juist exploratief te werk gegaan, hebben de data laten spreken.’ Met behulp van classificatie deden Grootendorst en Brom een eerste verkenning. Grootendorst: ‘We hebben 90.000 consultverslagen tot onze beschikking, dus het was belangrijk eerst een overkoepelend beeld te krijgen van wat er in die verslagen staat. Dat hebben we gedaan door middel van topic modeling. Zo konden we de onderwerpen in de verslagen identificeren en categoriseren, zonder daarbij zelf alle verslagen door te hoeven lezen.’ Met al deze onderwerpen konden Grootendorst en Brom bijvoorbeeld de trends in frequentie van onderwerpen analyseren. ‘Het mooie is natuurlijk dat we al die gestructureerde data er al bij hebben. We weten wanneer consulten plaatsvonden, welke problemen en symptomen aan de vraag gekoppeld zijn,’ vertelt Grootendorst. ‘Dus we kunnen zien of een onderwerp als mobiliteit vaker terugkomt over tijd, of dat palliatieve chemotherapie minder vaak terugkomt. Of we zien onderwerpen die we juist helemaal niet verwacht hadden.’

Brom: We hebben het niet via de traditionele manier aangepakt, waarbij je een onderzoeksvraag of hypothese formuleert. We zijn juist exploratief te werk gegaan, hebben de data laten spreken.

Specifiek zoeken naar concepten met getraind algoritme

De ontdekte onderwerpen geven een goed beeld van de data die in de verslagen verscholen ligt, maar Grootendorst en Brom wilden specifieker kunnen zoeken. Dat dezen ze aan de hand van een intelligente zoekmachine. Deze zoekmachine kan specifieke woorden, maar ook verkeerd gespelde termen vinden, of termen die semantisch sterk op elkaar lijken, en deze aan elkaar koppelen. Deze techniek maakt het daardoor mogelijk om van ongestructureerde data, zoals tekst, naar gestructureerde data te gaan. Vervolgens konden Brom en Grootendorst zien hoe vaak een bepaald concept, zoals het medicijn gabapentine, voorkwam bij welke problemen en symptomen. De laatste techniek die Grootendorst en Brom in hebben gezet om de PRADO-data te analyseren, is named entity recognition. Met deze techniek konden Grootendorst en Brom, door de inzet van een op grammaticale structuur getraind algoritme, op zoek naar concepten die niet zo duidelijk beschreven zijn dat ze te vinden zijn met de intelligente zoekmachine. Grootendorst: ‘Het benoemen van medicatie volgt in teksten vaak een patroon. Eerst een hoeveelheid, dan het gewicht, en vervolgens de medicatie zelf. Bijvoorbeeld "100 mg paracetamol". Door dit patroon in kaart te brengen kan het algoritme leren van deze structuur.’

Inzichten voor consultatie palliatieve zorg

Veel van de informatie die ze vonden, was te verwachten, vertelt Grootendorst. ‘Veel van de consultvragen zijn farmacologisch van aard, dus dan is het logisch dat in de antwoorden in die vrije tekstvelden medicatie vaak terugkomt.’ Met de informatie die ze aan de hand van topic modeling, de zoekmachine en named entity recognition verzamelden, konden Grootendorst en Brom visualisaties maken om inzicht te bieden in de informatie die PRADO te bieden heeft. Brom: ‘Die visualisaties deelden we met onze klankbordgroep, die we hadden samengesteld om te toetsen of ons werk en de daaruit voortgekomen inzichten relevant waren voor de consulenten palliatieve zorg. Maar we hebben ook breder naar de bruikbaarheid van deze data gekeken, bijvoorbeeld door met PZNL te kijken of de inzichten zouden kunnen helpen in het verder vormgeven van de palliatieve consultatie in Nederland.’

Gebruik tekstmining in zorgonderzoek

Brom: ‘Het nadeel in dit project was dat er een bepaalde mate van urgentie mist, omdat er geen directe vraag vanuit het veld was die we probeerden te beantwoorden . Het was vooral een verkenning van de mogelijkheden die tekstmining te bieden heeft. ’ Maar er zijn ook voordelen, vertelt Grootendorst. ‘De analyses hebben nieuwe inzichten opgeleverd en maken meer en diepere analyses mogelijk. Maar als we hierin verder gaan, moeten we wel een duidelijk afgebakende vraagstelling hebben.’ Ook ziet Grootendorst meer toepassingsmogelijkheden voor tekstmining binnen het zorgveld. ‘Je kan door middel van tekstmining bijvoorbeeld op een schaalbare manier gestructureerde informatie uit mdo-verslagen halen, of dat nou gaat over medicatiegebruik, symptomen, bijwerkingen. Het is een relatief nieuwe techniek, dus mensen weten nog niet goed hoe ze het zouden kunnen toepassen, welke vragen ze ermee kunnen beantwoorden. We hopen daarom dat dit project anderen ook kan inspireren, want tekstmining heeft veel te bieden.'

Meer informatie

Neem contact op met data scientist Maarten Grootendorst of post-doc onderzoeker Linda Brom. Bekijk ook de factsheet over tekstmining met PRADO.

Gerelateerd nieuws

Naasten vaak vergeten in zorgtraject: de impact van uitgezaaide kanker reikt verder dan de patiënt

patient met haar familie

Jaarlijks sterven er ruim 45.500 mensen aan de gevolgen van kanker. Dit is de groep met uitgezaaide kanker die palliatieve zorg ontvangt (Kerncijfers palliatieve zorg). De diagnose uitgezaaide kanker heeft een grote impact op de kwaliteit van leven van zowel patiƫnten als hun naasten. Ongeneeslijk ziekzijn en sterven treft gemiddeld vier tot vijf naasten, die allemaal hun eigen vragen, onzekerheden en (toekomstig) verlies dragen. Uit onderzoek blijkt dat naasten te weinig aandacht ervaren voor hun welbevinden. Gelukkig komen er steeds meer initatieven die de zorg voor naasten inbedden in de formele en informele zorg.

lees verder

Kerncijfers palliatieve zorg nu uitgebreid met indicatoren potentieel niet-passende zorg

stervende man in ziekenhuisbed

De kerncijfers palliatieve zorg bevatten nu ook informatie over potentieel niet-passende zorg en de inzet van het team palliatieve zorg in het ziekenhuis. De informatie is per regio te bekijken met de filtermogelijkheden.

lees verder