Thomas Fober

30
Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lösungsansätze Thomas Fober

description

Datenbankgestützte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lösungsansätze. Thomas Fober. Abitur im Jahr 2000, anschließend Zivildienst - PowerPoint PPT Presentation

Transcript of Thomas Fober

Datenbankgesttzte Risikoidentifikation, Systematisierung und Bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten Informationstechnische Problemfelder und Lsungsanstze

Datenbankgesttzte Risikoidentifikation, -systematisierung und -bewertung auf Basis umgangssprachlicher Anwenderberichte zu Vorkommnissen mit Medizinprodukten

Informationstechnische Problemfelder und LsungsanstzeThomas Fober1Abitur im Jahr 2000, anschlieend Zivildienst

WS 2001/02 WS 2006/07: Studium der Informatik mit Nebenfach Betriebswirtschaftslehre an der Universitt Dortmund

seit Mai 2007 wissenschaftlicher Mitarbeiter am Fachbereich Mathematik und Informatik der Philipps-Universitt Marburg

Promotion in einem interdisziplinren Projekt mit dem Fachbereich Pharmazie: Verfahren zur Analyse von ProteinbindetaschenPharmakovigilanzBeobachtung von sich auf dem Markt befindlichen Arzneimitteln

01. Oktober 1957 27. November 1961: Contergan als (rezeptfreies) Beruhigungs- und Schlafmittel vertriebenhoher Anteil aller beobachteten Schdigungen ungeborenen Lebens im Zusammenhang mit der Einnahme von Contergan

weiterhin von hoher Aktualitt: Trasylol (erhhte Sterblichkeit), Prexige (Leberschden)Acomplia (erhhtes Selbstmordrisiko)Avandia (erhhtes Herzinfarktrisiko)

Vorgehensweise zur RisikoidentifikationSammeln von Meldungen zu Vorkommnissen mit Medizinproduktensystematische Erassung schwierig; enorme Anzahl an Vorkommnissen

diese Meldungen knnen verrauscht sein und nur wenig Information enthalten

Identifikation von Vorkommnissen, die es Wert sind weiter betrachtet zu werden

DatenCREATE TABLE berichte(hersteller VARCHAR (30), name VARCHAR (50), (...),event VARCHAR (2500));

Realizierung nicht optimal

Quelle: www.bfarm.deProbleme (I) der Anwenderbericht wird unverarbeitet in der Datenbank abgelegt

SELECT event FROM berichteWHERE name = Aspirin

liefert eine Menge von Anwenderberichten Nachverarbeitung des Suchergebnisses

SELECT name FROM berichteWHERE event = starkes Schwindelgefhl

liefert eine leere Menge Suche nach Schlsselwrtern im Anwenderbericht notwendig (contains / like)

Probleme (II)Verarbeitung von Text in einem post-processing Schritt mglich

Suche nach Schlsselwrtern ebenso mglich

aber:Anwenderbericht wird mehrfach zurckgegeben mehrfache Verarbeitung des selben Berichts

im umgangssprachlichen Text sind Schlsselwrter nicht in der Grundform enthalten exakte Suche nach Schlsselwrtern daher unmglich / ineffizient

Data Mining Verfahren erfordern vektorielle Reprsentation Annahme: Menge der relevanten Schlsselwrter bekanntMgliche LsungVerarbeitung des Nutzerberichts bei Eingang

Speicherung relevanter Information in relationaler Datenbank

CREATE TABLE berichte((...),event_1 DECIMAL (2,2),event_2 BOOLEAN,(...)event_N BOOLEAN);

Quelle: www.bfarm.deDatenbankHerstellerNameCh.-B....m/wAlterEv_1Ev_2...Ev_NNovartisDiovan26521...m56truetrue...0.8NovartisDiovan26521...m42falsetrue...0.6RocheTamiflu515158...w31truefalse...0.1..............................CSL BehringBerinin 3259...w48falsefalse...1.0Extraktion relevanter Information (I)Kopf-schmerzBluthoch-druckSchwindelNach Medikamenteinnahme trat Bluthochdruck ein.0132abaaabbb 0 1 0Nutzerbericht ist umgangssprachlich Fehlertoleranz notwendig, Betrachtung umschlieender Wrter

Levenshtein Distanz wie viele Editieroperationen sind notwendig um Wort a in Wort b zu transformieren

Kopfschmerz|||| |Kopfweh

Seit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstrungen verbunden mit brenenden Augen. Verstrkte Probleme mit dem Bewegungsapparat.Fehlernur als Paar sinnvollQuelle: www.sanego.deKopf-schmerzBluthoch-druckSchwindel 0 0 0s = 5 cM + 6 cMMs = 5 / 11Schwindel schwindelig Vertigo Gleichgewichtsstrung

Transformation (I)Stemming automatische Zurckfhrung eines Wortes auf seinen Wortstamm; z.B. Sehstrungen Sehstrung

Porter-Stemmer-Algorithmus: Zhlen von Vokal-Konsonant Kombinationen und Anwendung vordefinierter Regeln

Lemmatization automatische Zurckfhrung eines Wortes auf seine Zitierform (NLP)Lammatizer.org (open source Projekt): Vorteil (?) gegenber Stemming, da vollstndige morphologische Analyse durchgefhrt wird

Schwindel schwindelig Vertigo Gleichgewichtsstrung

Transformation (II)Dictonary zur bersetzung von Fachtermini und zur Begriffsklrung; z.B.

Schwindel Vertigo Schwindel: Gleichgewichtsstrung Irrefhrung

Parsing zum Auffinden der Beziehung zwischen Wrtern in einem Satz; z.B.starke Kopfschmerzentrockener Hustenbrennende Augen

Extraktion relevanter InformationSeit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstrungen verbunden mit brenenden Augen. Verstrkte Probleme mit dem Bewegungsapparat.ParsingMedikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstrungen] verbunden [brenenden Augen] [Verstrkte Probleme] BewegungsapparatGrundformSchwindel Reizhusten Atemproblem Bronchitis Sehstrung (...)Quelle: www.sanego.deFilterSeit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstrungen] verbunden mit [brenenden Augen] [Verstrkte Probleme mit dem Bewegungsapparat]Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstrung] verbunden [brennen Augen] [stark Problem] Bewegungsapparat Dictonaryrelev. WrterSchwindelReizhustenAtemproblem...SehstrungVerwendung der Datenbankein Arzneimittel / Wirkstoff / Charge kommt mehrfach in der DB vor

Ziel ist es potentielle Gefahren eines Arzneimittels zu identifizieren

weist ein Nutzerbericht eines Arzneimittels eine Menge an Gefhrdungen aus, melde Arzneimittel als Problem Nein!ein negativer Bericht unter sehr vielen Positiven deutet nicht auf ein Problem mit einem Arzneimittel hin

Kombination aller Zeilen die ein bestimmtes Arzneimittel reprsentieren Wahrscheinlichkeiten fr bestimmte Vorkommnisse Bestimmung von WahrscheinlichkeitenSELECT SUM(ev_i) AS sum1 FROM berichte

SELECT SUM(ev_1, ..., ev_N) AS sum2 FROM berichte

SELECT SUM(ev_i) AS sum3 FROM berichteWHERE name = drug_j

SELECT COUNT(*) AS sum4FROM berichteWHERE name = drug_j

Identifikation von RisikenBeispiela aAB81990A B9110 AB1910 A B90810900a aoddA90109 A918190,111a aoddB82184,556 B998110,122BeispielArzneimittel A verursacht bei 90% der Patienten Vorkommnis a10 % der Patienten die A nicht einnehmen berichten ebenfalls ber aA wird in i.d.R. in Kombination mit B verabreicht:90% der Patienten die A einnehmen nehmen auch B ein1% von nicht A einnehmenden Patienten nehmen B ein es wurde nie beobachtet, dass B das Vorkommnis a verursacht Simpson Paradoxona aAB81990A B9110 AB1910 A B90810900Beispiela aAB81990A B9110 AB1910 A B90810900KlassifikationTrainingsdaten (z.B. akute reversible Strung vs. reversible aber signifikante Strung) berwachtes LernenClusteringTrainingsdaten nicht bentigt, Anzahl der Cluster notwendig unberwachtes LernenKategorisierung des Gefhrdungsgradesakute reversible Strung (z.B. zeitlich begrenztes brennen der Augen, Mdigkeit, ...)

reversible aber signifikante Strung (z.B. Arbeitsunfhigkeit)

reversibler lebensbedrohlicher Zustand; medizinischer Notfall

irreversible Schdigung

Tod

VisualisierungMultidimensionale Skalierung

Hauptkomponentenanalyse (PCA)Annahme: Menge der relevanten Schlsselwrter nicht bekanntMgliche LsungVerarbeitung aller Nutzerberichte in einem Schritt

Extraktion relevanter Vorkommnisse

Abbildung auf Feature Vektor

Bag-of-words AnsatzInformationsverlustkein Bias

Quelle: www.bfarm.deExtraktion von SchlsselwrternSeit dem Medikationsbeginn Dauerschwindel, trockener Husten, teilweise massive Atemprobleme wie bei einer schwerer Bronchitis, zeitweise Sehstrungen verbunden mit brenenden Augen. Verstrkte Probleme mit dem Bewegungsapparat.ParsingMedikationsbeginn Dauerschwindel, [trockener Husten] [teilweise massive Atemprobleme] [schwerer Bronchitis] [zeitweise Sehstrungen] verbunden [brenenden Augen] [Verstrkte Probleme] BewegungsapparatGrundformDauerschwindel [Reizhusten] [massiv Atemproblem] [schwer Bronchitis] Sehstrung [brennend Auge] BewegungsapparatQuelle: www.sanego.deFilterSeit dem Medikationsbeginn Dauerschwindel [trockener Husten] [teilweise massive Atemprobleme] wie bei einer [schwerer Bronchitis] [zeitweise Sehstrungen] verbunden mit [brenenden Augen] [Verstrkte Probleme mit dem Bewegungsapparat]Medikationsbeginn Dauerschwindel, [trocken Husten] [teilweise massiv Atemproblem] [schwer Bronchitis] [zeitweise Sehstrung] verbunden [brennen Augen] [stark Problem] BewegungsapparatDictonaryE (relevante Wrter)SelektionZusammenfassungunstrukturierte Daten knnen nur schlecht mit klassischen informationstechnischen Verfahren verarbeitet werden

im Fall von unformatierten Texten ist die Abbildung auf vektorielle Reprsentation mglich (NLP / approximative Suche)

Verarbeitung der so extrahierten Information kann ebenso zu Problemen fhrenSimpson ParadoxonEffizienz der Verfahren

Data Mining Verfahren erlauben es Information aus sehr groen Datenbanken zu extrahierenDanke fr Ihre Aufmerksamkeit