Planeringsansökan med titeln Avidentifierad PatientKorpus (APK) till Vetenskapsrådet.

Syftet med planeringsprojektet med titeln Avidentifierad PatientKorpus (APK) är att tillgängliggöra en stor databas med över en miljon patientjournaler från Stockholm från åren 2006, 2007 och 2008 från över 2 000 kliniker från Stockholms läns landsting. Patientjournalerna innehåller både strukturerade data såsom kön, ålder, besökstider, diagnoskoder och läkemedel för patienterna men också löpande fritext, vilket är den största delen av journalen. Journalerna är skrivna på svenska av klinisk personal. Vi kallar denna databas för Stockholm EPR Corpus och det är den största kända databasen i Sverige, och kanske även i världen med patientjournaler. Vi önskar tillgängliggöra Stockholm EPR Corpus till en vidare grupp forskare inom medicin, hälsoinformatik, epidemiologi samt språkteknologi. Inom epidiomologi finns det möjlighet att direkt koppla individer i epidemiologiska register (tex Svenska Barncancerregistret och det Svenska tvillingregistret) med motsvarande patient i en patientjournal, men också att koppla biobanker direkt till klinisk data och på så sätt få ytterligare värdefull information för forskningen. Stockholm EPR-Korpus är också värdefull för språkteknologer som utvecklar så kallade textbrytningsverktyg för att kunna hitta nya och dolda samband mellan symptom, diagnoser, behandling, biverkningar i både den fria texten och i de strukturerade delarna av texten.
Patientjournalerna i Stockholm EPR-Korpus är avidentifierade med avseende på namn och personnummer, men innehåller fortfarande information, bland annat i fritextfältet, som skulle kunna identifiera patienterna. Det är etiskt mycket viktigt att denna information aldrig kommer ut och vi kommer därför att med hjälp av våra avidentifieringsverktyg avidentifiera texten innan Stockholm EPR Corpus görs tillgänglig. En fråga som då automatiskt dyker upp är hur mycket ska avidentifieras för att texterna ska kunna vara användbara samtidigt som vi behåller patientsekretessen detta mått måste räknas fram inom ramen för detta projekt. Vi kommer inom projektets ram även ta fram definitioner och riktlinjer för hur man kan skapa en avidentifierad patientkorpus.

Mina medsökande är Dr. Martin Hassel, Dr. Anette Hulth, Smittskyddsinstitutet och Professor Gunnar Nilsson, Karolinska institutet.

About Hercules

I am a professor working at DSV-Stockholm University, I perform research in natural language processing and information retrieval, the last ten years I have been working on text mining on electronic patient records to build useful tools to improve health. Hercules homepage
This entry was posted in Health Informatics, SYSLAB and tagged . Bookmark the permalink.