Theodora Zarmpou, a prior EMIS student (2006-2008), got accepted to present a scientific paper, initially done as her Master Thesis in DSV, at the 4th The Mediterranean Conference on Information Systems, MCIS 2009. The thesis work ended up in a publication with the title: Data migration between web content management systems, conducted in cooperation with associate professor Hercules Dalianis and Professor Maro Vlachopoulou (University of Macedonia, Thessaloniki, Greece).
Two papers accepted at RANLP 2009
Today I recieved notification that two papers where I am one of the authors have been accepted as posters at the international conference RANLP 2009 – Recent Advances in Natural Language Processing, which is in Borovets, Bulgaria in September 14-16.
Apart from being an exceptionally pleasant conference, RANLP is ranked among the most influential NLP conferences by the site Computer Science Conference Ranking. According to this list it is one of the top 67 conferences among 701 considered in the fields of Artificial Intelligence, Machine Learning,Robotics and Human Computer Interaction.
The two accepted papers are:
Identification of Parallel Text Pairs Using Fingerprints by Martin Hassel and Hercules Dalianis.
Global Evaluation of Random Indexing through Swedish Word Clustering Compared to the People’s Dictionary of Synonyms by Magnus Rosell, Martin Hassel and Viggo Kann.
Dr. Magnus Rosell and Professor Viggo Kann both reside at the School of Computer Science and Communication, KTH – Royal Institute of Technology.
Seminarium – Smartare kunskapssökning i journalen, Karolinska institutet, Huddinge, 13 maj 2009, kl 09.00-10.30
Tid: Onsdagen 13 maj kl 9-10.30
Plats: CeFam – Alfred Nobels allé 12, Flemingsberg, (rummet bredvid lunchrummet, plan 5)
Smartare kunskapssökning i journalen, Hercules Dalianis, Martin Hassel och Sumithra Velupillai
Vi kommer att beskriva en del av Stockholm EPR-korpus som består av över en miljon patientjournaler från 2 000 kliniker från Stockholm läns landsting, ur ett textlingvistiskt perspektiv. Vidare kommer vi att presentera några
preliminära resultat från experiment utförda på journaltexterna:
1) En annoteringsstandard och guldstandard för att kunna avidentifiera journalerna
2) Automatisk ICD-10 kodtilldelning (och validering av ICD-10 kodtilldelning) av journaltext.
3) Ett utforsknings- och hypotesgenereringsexperiment baserat på textklustringsverktyget Infomat, utförda på journaler från geriatriska kliniker.
Nyheter Centrum för Hälsoinformatik, Karolinska institutet
New Group on Research Mehodology
A new group on research methodology has been started by Danny Brash. The first posts address the role of theories in information systems research, the differences between behavioural sciences and design sciences, the relationships between research paradigms and research methods, the difference between “Information Systems” and “Business Informatics”, and much more. Please add your own comments, upload papers, and link to other sites.
Planeringsansökan med titeln Avidentifierad PatientKorpus (APK) till Vetenskapsrådet.
Syftet med planeringsprojektet med titeln Avidentifierad PatientKorpus (APK) är att tillgängliggöra en stor databas med över en miljon patientjournaler från Stockholm från åren 2006, 2007 och 2008 från över 2 000 kliniker från Stockholms läns landsting. Patientjournalerna innehåller både strukturerade data såsom kön, ålder, besökstider, diagnoskoder och läkemedel för patienterna men också löpande fritext, vilket är den största delen av journalen. Journalerna är skrivna på svenska av klinisk personal. Vi kallar denna databas för Stockholm EPR Corpus och det är den största kända databasen i Sverige, och kanske även i världen med patientjournaler. Vi önskar tillgängliggöra Stockholm EPR Corpus till en vidare grupp forskare inom medicin, hälsoinformatik, epidemiologi samt språkteknologi. Inom epidiomologi finns det möjlighet att direkt koppla individer i epidemiologiska register (tex Svenska Barncancerregistret och det Svenska tvillingregistret) med motsvarande patient i en patientjournal, men också att koppla biobanker direkt till klinisk data och på så sätt få ytterligare värdefull information för forskningen. Stockholm EPR-Korpus är också värdefull för språkteknologer som utvecklar så kallade textbrytningsverktyg för att kunna hitta nya och dolda samband mellan symptom, diagnoser, behandling, biverkningar i både den fria texten och i de strukturerade delarna av texten.
Patientjournalerna i Stockholm EPR-Korpus är avidentifierade med avseende på namn och personnummer, men innehåller fortfarande information, bland annat i fritextfältet, som skulle kunna identifiera patienterna. Det är etiskt mycket viktigt att denna information aldrig kommer ut och vi kommer därför att med hjälp av våra avidentifieringsverktyg avidentifiera texten innan Stockholm EPR Corpus görs tillgänglig. En fråga som då automatiskt dyker upp är hur mycket ska avidentifieras för att texterna ska kunna vara användbara samtidigt som vi behåller patientsekretessen detta mått måste räknas fram inom ramen för detta projekt. Vi kommer inom projektets ram även ta fram definitioner och riktlinjer för hur man kan skapa en avidentifierad patientkorpus.
Mina medsökande är Dr. Martin Hassel, Dr. Anette Hulth, Smittskyddsinstitutet och Professor Gunnar Nilsson, Karolinska institutet.
Project proposal submitted to VR: VESPTEC
Today I submitted a project proposal to the Swedish Research Council (Vetenskapsrådet) with the title “VESPTEC – Vector space representations of textual content”. Collaborating with me on this proposal are Magnus Rosell and Viggo Kann at KTH CSC as well as Jussi Karlgren at SICS and Hercules Dalianis here at DSV.
Abstract:
Since the 1960s vector space models have been used extensively for representation of semantics, especially in information-retrieval systems such as Google. These vector spaces are usually multi-dimensional and the terms and documents are represented by very large matrices. There is no greater regard to context. For instance, how a term occurs in a document is almost completely disregarded. Texts are thus viewed as mere bags-of-words. Much of the research so far has either focused on the application of these representations on specific tasks, or on the efficiency of this application by reducing the dimensionality of the original space in some way. This project proposes the study of vector space representations of textual content in a more systematic manner.
We have identified two main tasks. One is to explore the notion of intrinsic dimensionality and the spatial metaphor often used in describing “likeness” between documents. The other, and perhaps more intriguing task is that of moving from a bag-of-words representation to a more informed document space, modeling more than just the cooccurrence of lexical items within documents. These models will be systematically validated on a diverse array of text processing tasks and well established test sets with built-in success criteria. A better representation of textual content is interesting in itself, but will also lead to better underlying models that will improve applications, such as search engines and text summarization.
Presentation on eHealth by Monica Winge
Monica Winge from Vinnova talked today about challenges and opportunities in e-health. One of the main challenges in today’s health care is to realise patient centered work processes. This is a complex task as many different care providers need to cooperate. IT systems and services could be a major enabler for this purpose, but still they are insufficient as they are often based on the care provider’s organisational views and not the needs of the patient.
Monica Winge has worked for a number of years at Karolinska Institutet, and she is presently at Vinnova. Monica has been the project leader of several e-health projects. She has been elected as one of “the 25 most powerful people in e-health in Sweden“.
MobiSams
MobiSams Paul Johannesson
AAL
AAL Paul Johannesson
Presentation on Mendix
Staffan Qvist at Mendix Sweden gave a presentation on Mendix for universities. Mendix delivers a powerful, model-driven application platform providing tools and architecture to rapidly design, build, test, integrate, deploy, manage and optimize dynamic business applications in any existing business and IT environment. Mendix technology uses graphical models – instead of code – to build dynamic applications.
Mendix Academy
Mendix Academy Paul Johannesson Presentation of Mendix