Medizinische Statistik und Informationsverarbeitung
description
Transcript of Medizinische Statistik und Informationsverarbeitung
Medizinische Statistik und Medizinische Statistik und InformationsverarbeitungInformationsverarbeitung
QuadeQuade
Institut für Medizinische Statistik, Institut für Medizinische Statistik, Dokumentation und DatenverarbeitungDokumentation und Datenverarbeitung
QuadeQuade
AnwendungsprogramAnwendungsprogrammeme
QuadeQuade
Anwendungsprogramme lassen sich in der Regel in Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen:3 Ebenen einteilen:
1: 1: DatenDaten
2:2: AnwendungAnwendung
3:3: PräsentationPräsentation
Diese Ebenen lassen sich auf verschiedenen Rechnern Diese Ebenen lassen sich auf verschiedenen Rechnern unterbringen (Client - Server).unterbringen (Client - Server).
ErfassungssystemeErfassungssysteme
QuadeQuade
Erfassungssysteme können typische Anwendungs-Erfassungssysteme können typische Anwendungs-programme sein. Über Masken werden Daten programme sein. Über Masken werden Daten eingegeben, vom Programm geprüft und dann in einer eingegeben, vom Programm geprüft und dann in einer Datei oder Datenbank gespeichert. Schon gespeicherte Datei oder Datenbank gespeichert. Schon gespeicherte Daten lassen sich jederzeit ändern oder ergänzen. Daten lassen sich jederzeit ändern oder ergänzen. Änderungen werden gegebenenfalls dokumentiert. Änderungen werden gegebenenfalls dokumentiert.
Beispiel:Beispiel: Patientenaufnahme, Erfassung von Patientenaufnahme, Erfassung von Untersuchungsbefunden.Untersuchungsbefunden.
ErfassungssystemeErfassungssysteme
QuadeQuade
In der Medizin gibt es besondere Anforderungen In der Medizin gibt es besondere Anforderungen an Erfassungssysteme. So muß z.B. bei der an Erfassungssysteme. So muß z.B. bei der Patientenaufnahme der Patient re-identifiziert Patientenaufnahme der Patient re-identifiziert werden. Erfaßte Daten eines Patienten müssen werden. Erfaßte Daten eines Patienten müssen diesem eineindeutig zugeordnet werden können.diesem eineindeutig zugeordnet werden können.
ErfassungssystemeErfassungssysteme
QuadeQuade
Wichtig ist die vollständige, vollzählige und fehlerfreie Wichtig ist die vollständige, vollzählige und fehlerfreie Erfassung. Ein Erfassungsbogen wird häufig in der Erfassung. Ein Erfassungsbogen wird häufig in der primären Datenerfassung eingesetzt. Geeignete primären Datenerfassung eingesetzt. Geeignete Formulare (Markierungsbelege) können auch online Formulare (Markierungsbelege) können auch online eingelesen werden (Markierungsbeleg mit Barcode eingelesen werden (Markierungsbeleg mit Barcode oder OCR-Schrift).oder OCR-Schrift).
Datei, DatenbankDatei, Datenbank
QuadeQuade
Die einfachste Form, Daten zu speichern, ist die Die einfachste Form, Daten zu speichern, ist die Ablage in einer Datei (File). Dateien werden in Ablage in einer Datei (File). Dateien werden in Verzeichnissen (Directories) abgelegt. Die Verzeichnissen (Directories) abgelegt. Die Dateinamen werden in Abhängigkeit vom Dateinamen werden in Abhängigkeit vom Betriebssystem gewählt. Betriebssystem gewählt.
Daten werden in Dateien in ein oder mehreren Daten werden in Dateien in ein oder mehreren Zeilen (Records) mit fester (fixed) oder variabler Zeilen (Records) mit fester (fixed) oder variabler Länge abgelegt. Die Reihenfolge der Daten, die Länge abgelegt. Die Reihenfolge der Daten, die Form ihrer digitalen Repräsentation und ihre Form ihrer digitalen Repräsentation und ihre Position in der Datei müssen vereinbart sein.Position in der Datei müssen vereinbart sein.
Datei, DatenbankDatei, Datenbank
QuadeQuade
Auch Datenbanken speichern Daten in Dateien. Auch Datenbanken speichern Daten in Dateien. Sie führen zusätzlich Informationen über die Sie führen zusätzlich Informationen über die gespeicherten Daten (Bezeichnung, Format, gespeicherten Daten (Bezeichnung, Format, Länge) mit.Länge) mit.
Bei echten Datenbanken verwaltet ein Bei echten Datenbanken verwaltet ein Datenbankmanager die Daten und organisiert Datenbankmanager die Daten und organisiert den Zugriff. Damit werden Datenzugriff und den Zugriff. Damit werden Datenzugriff und Datenintegrität besser gewährleistet als durch Datenintegrität besser gewährleistet als durch Record locking bei Dateien. Record locking bei Dateien.
Datei, DatenbankDatei, Datenbank
QuadeQuade
hierarchischhierarchisch relationalrelational objektorientiertobjektorientiert
Dateibasiert:Dateibasiert: dBase, ClipperdBase, ClipperAccessAccess
Datenbank:Datenbank: OracleOracle MysqlMysql
SQLSQL InformixInformixSybaseSybase
60000-10000 AC 60000-10000 AC Gesellschaft der Jäger Gesellschaft der Jäger und Sammler und Sammler
- 18. Jahrhundert- 18. Jahrhundert Ackerbau und Ackerbau und ViehzuchtViehzucht
- heute- heute IndustriegesellschaftIndustriegesellschaft
heute - ?heute - ?InformationsgesellschaftInformationsgesellschaft
zukünftigzukünftig ? ? Freizeitgesellschaft?Freizeitgesellschaft?
GesellschaftenGesellschaften
Oncology Meeting CuritibaOncology Meeting Curitiba
Alle Produkte müssen produziert Alle Produkte müssen produziert werden.werden.
Das „Produkt“ “Information / Wissen” Das „Produkt“ “Information / Wissen” kann leicht kopiert werden!kann leicht kopiert werden!
Unser Problem ist nicht so sehr Unser Problem ist nicht so sehr “producing knowledge”, sondern der“producing knowledge”, sondern der
Zugang zu vorhandenem WissenZugang zu vorhandenem Wissen
Information SocietyInformation Society
QuadeQuade
19571957 SputnikSputnik
19581958 Advanced Research Projects Advanced Research Projects AgencyAgency
19691969 Arpanet(Network Control Arpanet(Network Control Protocol) erster Request For Protocol) erster Request For CommentsComments
19721972 ftp e-mailftp e-mail
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
19721972 5 verschiedene Netzwerke 5 verschiedene Netzwerke (inkompatibel)(inkompatibel)
RFC #318 telnet (Jon Postel)RFC #318 telnet (Jon Postel)
19731973 Name „Internet“ and Name „Internet“ and Definition Definition von TCP/IPvon TCP/IP
19821982 TCP/IP wird „Standard“TCP/IP wird „Standard“
19831983 TCP/IP als Source-Code frei TCP/IP als Source-Code frei zugänglich (Berkeley System zugänglich (Berkeley System Distribution)Distribution)
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
The Telephone The Telephone Network Network
The Telephone The Telephone Network Network
The Telephone The Telephone Network Network
The Computer The Computer Network Network
NetzwerkeNetzwerke
QuadeQuade
Netzwerke verbinden Computer untereinander.Netzwerke verbinden Computer untereinander.
Vereinbarungen für den Informationstransport und Vereinbarungen für den Informationstransport und
-Austausch nennt man Protokolle. Netzwerke werden nach -Austausch nennt man Protokolle. Netzwerke werden nach
dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei
nimmt die unterste Schicht großen Einfluß auf die nimmt die unterste Schicht großen Einfluß auf die
Leistungsdaten eines Netzwerkes.Leistungsdaten eines Netzwerkes.
NetzwerkeNetzwerke
QuadeQuade
In der Transport und Vermittlungsschicht werden wichtige In der Transport und Vermittlungsschicht werden wichtige
Eigenschaften des Netzwerkes festgelegt.Eigenschaften des Netzwerkes festgelegt.
SNASNA IPXIPX NetbiosNetbios TCP/IPTCP/IP
weltweitweltweit locallocal local local weltweitweltweit
DateizugriffDateizugriff DateizugriffDateizugriff DateizugriffDateizugriff DateizugriffDateizugriff
druckendrucken druckendrucken druckendrucken druckendrucken
NCSNCS NCSNCS
WWWWWW
ftpftp
QuadeQuade
IP-Netzwerkadressen
Eine IP-Adresse besteht aus 4 Zahlen (Byte) zwischen 0 und 255. Hinzu kommt eine Netzwerkmaske. Die Netzwerkmaske (z.B. 255.255.x.x) bestimmt, welche Adressen ein zusammengehörendes Netzwerk (Knoten) bilden. Das erlaubt den gleichzeitigen Betrieb mehrerer logischer Netzwerke in einem physikalischen Netzwerk. Die höchste und die niedrigste Adresse ist jeweils für Broadcasts reserviert.
Broadcast
Alle Netzwerkkarten innerhalb eines zusammengehörenden Netzwerks lauschen auf den Broadcastadressen.
Über die Broadcastadressen teilen die Netzwerkkarten anderen Rechnern ihre Anwesenheit und die von ihnen angebotenen Services mit.
IP-Netzwerkklassen
Eine IP-Adresse ist zweigeteilt und zwar in einen Netzwerkteil und einen Knotenteil. Der Netzwerkteil ist innerhalb eines Netzwerksegments überall gleich, während jeder Rechner oder jedes andere Gerät seine eigene Knotennummer bekommt.
10.10.10.10 Maske 255.0.0.0
IP-Netzwerkklassen
Über die Netzwerknummer erfolgt auch die Einteilung in sogenannte Netzwerk-Klassen in A-, B- oder C-Klasse Netzwerke. Das Prinzip ist, dass große Netzwerke mit vielen Knoten möglichst eine Klasse A oder wenigstens eine Klasse B Nummer bekommen und kleine Netze eine Klasse C Nummer
http://www.instrumentation.de/5106003d.htm
IP-Netzwerkklassen
Klasse A (1.0.0.0 bis 127.255.255.255): • Das erste Bit der Adresse ist auf Null gesetzt. Die
ersten acht Bit identifizieren das Netzwerk, die restlichen 24 Bit den Host. Insgesamt sind 127 Class-A-Netze möglich.
• Reserviert: 127.x.x.x (loopback/localhost)• Privat: 10.0.0.0 - 10.255.255.255
IP-Netzwerkklassen
Das Klasse B (128.0.0.0 bis 191.255.255.255): • Bei Klasse-B-Netzen ist das erste Bit auf Null, das
zweite Bit auf eins gesetzt. Die ersten 16 Bit beschreiben das Netzwerk, die anderen 16 Bit sind die Hostadresse.
• Netze: 16.384 mit maximal 65.534 angeschlossenen Computern.
• Privat: 172.16.0.0 - 172.31.255.255
IP-Netzwerkklassen
Klasse C (192.0.0.0 bis 223.255.255.255) : • Diese Netzwerkart erlaubt nur 255 Hosts in einem Netz.
Die ersten drei Bit einer Class-C-Adresse bilden dabei die Folge "110". Die ersten 24 Bit identifizieren das Netzwerk, nur acht Bit den Host.
• 2.097.152 Netze mit jeweils 254 Rechnern • Privat: 192.168.0.0 - 192.168.255.255
IP-Netzwerkklassen
Klasse D: 224.0.0.0 - 239.255.255.255 für spezielle Dienste z.B. Multicast
Ports
• Jede IP-Adresse hat 65536 Ports• festgelegte privilegierte Ports 0 bis 1023.• festgelegte Ports von 1024 bis 49151• dynamische oder private von 49152 bis
65535http://www.iana.org/assignments/port-numbers
telephonetelephone internetinternet
circuit switchingcircuit switching packet switchingpacket switching
time orientedtime oriented volume volume orientedoriented
transfers picturetransfers picture transfers encoded transfers encoded of informationof information datadata
expensiveexpensive cheepcheep
real timereal time sometimes sometimes real timereal time
Warum Internet?Warum Internet?
1 page of information has 1 page of information has approximately 2000 bytesapproximately 2000 bytes
transmission timetransmission time
telephonetelephone internetinternet
reading 1 minutereading 1 minute
fax 60 seconds fax 60 seconds 1 second and 1 second and fasterfaster
(56313 bytes)(56313 bytes) (2864 (2864 bytes) bytes)
1 page of information1 page of information
19831983 Arpanet wechselt von NCP zu Arpanet wechselt von NCP zu TCPTCP
Domain Name ServiceDomain Name Service
19861986 Perl von Larry WallPerl von Larry Wall
19881988 Internet Wurm von R. Morris Jr.Internet Wurm von R. Morris Jr.
19891989 Clifford Stoll und die HackerClifford Stoll und die HackerWeb Vorschlag von Tim Berners-Web Vorschlag von Tim Berners-
LeeLee
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
19901990 Tim Berners-Lee erstellt die Tim Berners-Lee erstellt die erste erste WWW SoftwareWWW Software
19911991 WAIS wird erfundenWAIS wird erfundenGopher wird freigegebenGopher wird freigegebenPretty Good Privacy von Philip Pretty Good Privacy von Philip Zimmerman wird freigegebenZimmerman wird freigegebenLinux wird von Linus Torvald Linux wird von Linus Torvald
vorgestelltvorgestellt
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
Tim Berners-Lee Tim Berners-Lee (1990)(1990)
19911991 VeronicaVeronica
19931993 Mosaic Mosaic WWW Verkehr steigert sich vonWWW Verkehr steigert sich von
0.1% auf 1%. Es gibt 500 0.1% auf 1%. Es gibt 500 WWW WWW ServerServer
19941994 WWW wächst um 341,634%WWW wächst um 341,634%WWW wechselt von CERN zur WWW wechselt von CERN zur INRIAINRIA
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
QuadeQuade
World Wide WebWorld Wide Web
Oncology Meeting Curitiba Oncology Meeting Curitiba
19941994 Lycos startet eine Lycos startet eine Suchmaschine Suchmaschine im Internet. im Internet. Die deutsche Die deutsche Bundestagswahl wird im Internet Bundestagswahl wird im Internet übertragen.übertragen.
19951995 HTTP Pakete bilden das größte HTTP Pakete bilden das größte Kontingent im Internet Verkehr.Kontingent im Internet Verkehr.Apache Web Server Projekt.Apache Web Server Projekt.Java wird eingeführt.Java wird eingeführt.
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
19961996 Blue Ribbon CampainBlue Ribbon Campain
19981998 ClintonClinton
Geschichte des Geschichte des Internet Internet
Oncology Meeting CuritibaOncology Meeting Curitiba
Einige Fakten (2000)Einige Fakten (2000)
• Der Bereich Medizin ist der zweitgrößte im Der Bereich Medizin ist der zweitgrößte im InternetInternet
• Es gibt fast eine Milliarde DokumenteEs gibt fast eine Milliarde Dokumente
• Maximal 10% bis 20% des Internet werden Maximal 10% bis 20% des Internet werden von einer Suchmaschine indexiert.von einer Suchmaschine indexiert.
• Es gibt Listserver und SuchmaschinenEs gibt Listserver und Suchmaschinen
AAA+BA+B
AAA+CA+C
RecallRecall Anteil der gefundenen Daten an Anteil der gefundenen Daten an den gesuchten Datenden gesuchten Daten
Precision Precision Anteil der gefundenen Daten Anteil der gefundenen Daten der von Interesse istder von Interesse ist
Ergebnis Ergebnis der Sucheder Suche
vorhandene Datenvorhandene Datenrelevant relevant irrelevantirrelevant
gefundengefunden
nicht gefundennicht gefunden
AA BB
CC DD
Recherchesysteme
RecherchesystemeRecherchesysteme
QuadeQuade
MEDLINEMEDLINE Schlagworte, Autoren (3000 Schlagworte, Autoren (3000 journals) journals)
http://www.ncbi.nlm.nih.gov/PubMed/http://www.ncbi.nlm.nih.gov/PubMed/
CURRENTCURRENT wöchentlich erstelltes lnhaltsverzeichnis wöchentlich erstelltes lnhaltsverzeichnis CONTENTS CONTENTS wichtiger Journals wichtiger Journals
SCIENCE SCIENCE wie häufig wurde eine Publikation zitiertwie häufig wurde eine Publikation zitiertCITATION INDEXCITATION INDEX
Zwei Verfahren der Indexierung
Einfacher Index über alle Worte z.B. WAIS
Index mit Thesaurus z.B. Xindex mit UMLS-Metathesaurus
Alle Worte werden in den Index aufgenommenAuch Worte wie Ich, Du, Er, Sie, Es, Das, und, aber, wie, ...
Keine Bestimmung von Häufigkeit und Wichtigkeit
Es werden nur relevante Begriffe in den Index aufgenommenWas Relevant ist wird an Hand von UMLS bestimmt
Berechnung der Häufigkeiten von Worten und Wortgruppen
Berechnung der Dichte dieser Worte und Wortgruppen
Funktion von Xindex mit UMLS-Metathesaurus
Wortliste
UMLS-Metathesaurus
DokumentPrimäre Wortliste
(Konzepte)
RankingRank = Wörter pro Begriff * Anzahl * 1/Doclen * 1/Anz. Häufigster Begriff
Index für das Dokument mit Preffered Terms
Vorteile von Xindex gegenüber WAIS
Erkennen von Wortkombinationen
z.B. Breast Cancer
Gleiches Suchergebnis bei unterschielicher Schreibweise
z.B. hpv und HPV
z.B. MTX und Methotrexat
Sinnvolles Suchergebnis bei trivialen Begriffen
z.B. love --> HPV, Cervixcarzinom, Brustkrebs
Es werden Dokumente in verschiedenen Sprachen gefunden
z.B. Englisch, Deutsch und Spanisch
Vorteile von Xindex gegenüber WAIS
Beispiel Melanom
Vorteile von Xindex gegenüber WAIS
Es werden seltene Entitäten gefunden:
Suche nach „Melanom“
liefert Informationen zum „Wilms Tumor“
Dieser steht in Verbindung zum „clearcellsarcoma“
einer seltenen Form des Melanoms
Erkennen von Synonymen
z.B. Mumps, Parotitis epidemica
Der UMLS-Metathesaurus
Integration vorhandener Thesaurie:
ICD 10, MESH, Cancerlit, HL7-Zusatz
Mehrsprachig: z.B. Englisch, Deutsch, Spanisch, Russisch,Französisch, Finnisch, Italienisch, ...
Konzeptorientierung:
Jedes Konzept bekommt eine Nummer (CUI)
Jedes Synonym jedes Konzeptes bekommt eine eigene Nummerin verschiedenen Sprachen sowohl normalisiert (SUI) als auch nicht normalisiert (LUI) Kennzeichnung des „Preffered Terms“
NutzerproblemeNutzerprobleme
• Wie finde ich als Laie eine Information? Wie finde ich als Laie eine Information?
• Wie kann ich die Seriosität einer Wie kann ich die Seriosität einer Information erkennen (weit mehr fragliche Information erkennen (weit mehr fragliche Informationen denn gute) ?Informationen denn gute) ?
• Wie finde ich beim Anbieter eine Wie finde ich beim Anbieter eine Information trotz bildorientierter Information trotz bildorientierter Oberfläche?Oberfläche?
Was man wissen sollte!Was man wissen sollte!
• Suchmaschinen lesen über „Spider“ Dokumente Suchmaschinen lesen über „Spider“ Dokumente ein und erstellen einen Volltext-Index (nicht bei ein und erstellen einen Volltext-Index (nicht bei Datenbanken, Graphiken, Java).Datenbanken, Graphiken, Java).
• Metatags werden nur bedingt ausgewertet. Metatags werden nur bedingt ausgewertet. (Anbieter manipulieren „auf Teufel komm raus“)(Anbieter manipulieren „auf Teufel komm raus“)
• Ranking ist nicht intelligent und bevorzugt kurze Ranking ist nicht intelligent und bevorzugt kurze Dokumente.Dokumente.
• Für Geld wird das Ranking manipuliert!Für Geld wird das Ranking manipuliert!
Universität BonnUniversität BonnVermittlung zu CancerNet Vermittlung zu CancerNet
Host=LycosHost=Lycos
Januar März Mai Januar März Mai 19971997
303025252020151510105500
a2z Katalog wurde am 28. März aus dem Angebot genommen
Meta-TagsMeta-Tags
<META NAME="keywords"<META NAME="keywords" CONTENT="CONTENT="Breast cancer, oncology, Cancer, medicine, Breast cancer, oncology, Cancer, medicine,
Medizin, Krebs, CancerNet, PDQ, TumorMedizin, Krebs, CancerNet, PDQ, Tumor">"><META HTTP-EQUIV="RESOURCE-TYPE" content="document"><META HTTP-EQUIV="RESOURCE-TYPE" content="document"><META name="description" content="Breast cancer"><META name="description" content="Breast cancer">
QualitätssiegelQualitätssiegel
• Geschütztes Logo einer anerkannten Organisation Geschütztes Logo einer anerkannten Organisation (NCI)(NCI)
• HON Code of ConductHON Code of Conduct• Link von einer anerkannten Organisation (WHO)Link von einer anerkannten Organisation (WHO)• MedCERTAINMedCERTAIN• In Vorbereitung: Qualitätssiegel der AG-Internet In Vorbereitung: Qualitätssiegel der AG-Internet
der GMDSder GMDS
Evaluation kommerzieller AnbieterEvaluation kommerzieller Anbieter
• Kriterien für Focus RechercheKriterien für Focus Recherche– Nutzen für den UserNutzen für den User– Kostensenkung durch weniger ArztbesucheKostensenkung durch weniger Arztbesuche– Richtigkeit und AusgewogenheitRichtigkeit und Ausgewogenheit– VollständigkeitVollständigkeit– Online-Arzt vorhandenOnline-Arzt vorhanden
• Ergebnis der Recherche für Focus Ergebnis der Recherche für Focus
– Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf mehrere Tausend Pages aufgeteilt.mehrere Tausend Pages aufgeteilt.
– Der User verbringt viel Zeit für wenig Information im Netz. Der User verbringt viel Zeit für wenig Information im Netz. Seiten werden aus Datenbank generiert. Viele Wege führen zur Seiten werden aus Datenbank generiert. Viele Wege führen zur gleichen Seite.gleichen Seite.
– Bachblüten und Standardtherapie gleichwertig im Angebot.Bachblüten und Standardtherapie gleichwertig im Angebot.
– Nur Infos vom eigenen Server. Suche extrem schwierig Nur Infos vom eigenen Server. Suche extrem schwierig (Stunden) da Information versteckt. (Stunden) da Information versteckt.
– Online-Arzt ist nicht hilfreich für eigene Fragen (Show). Online-Arzt ist nicht hilfreich für eigene Fragen (Show).
Was will der Nutzer?Was will der Nutzer?
• Informationen zu KrankheitenInformationen zu Krankheiten• Informationen zu eigenen WertenInformationen zu eigenen Werten• Zugriff auf die eigene PatientenakteZugriff auf die eigene Patientenakte• Informationen zu Arzt, Krankenhaus oder Informationen zu Arzt, Krankenhaus oder
VersicherungVersicherung– Sprechstunden, Besuchszeiten, ParkplatzSprechstunden, Besuchszeiten, Parkplatz– Benchmarking Benchmarking im Qualitätsbereichim Qualitätsbereich– VersicherungsvergleichVersicherungsvergleich