Post on 12-May-2015
description
Algorithmen und Applikationen zur interaktiven
Visualisierung und Analyse chemiespezifischer Datensätze
Den Naturwissenschaftlichen Fakultäten der
Friedrich-Alexander-Universität Erlangen-Nürnberg
zur
Erlangung des Doktorgrades
vorgelegt von
Frank Oellien
aus Oldenburg
Als Dissertation genehmigt von
den Naturwissenschaftlichen Fakultäten der Universität Erlangen-Nürnberg
Tag der mündlichen Prüfung: 17.02.2003
Vorsitzender der Promotionskommission: Prof. Dr. A. Magerl
Erstberichterstatter: Prof. Dr. J. Gasteiger
Zweitberichterstatter: PD Dr. T. Clark
Mein besonderer Dank gilt meinem DoktorvaterHerrn Prof. Dr. Johann Gasteiger
für die herzliche Aufnahme in seinen Arbeitskreis, für die vielen anregenden Diskussionen undfür die stete und engagierte Unterstützung und Betreuung.
Mein besonderer Dank gilt ferner meinem ProjektleiterHerrn Dr. Wolf-Dietrich Ihlenfeldt
für die vielfältige Unterstützung in wissenschaftlichen und programmiertechnischen Fragen,für die wertvollen Anregungen sowie die engagierte Betreuung, ohne die diese Arbeit nichtmöglich gewesen wäre.
Für die sehr erfolgreiche Zusammenarbeit danke ich meinen Projektpartnern des DFG-Projekts"ChemVis" Prof. Dr. Thomas Ertl, Dr. Klaus Engel und Guido Reina. Mein Dank gilt darüberhinaus dem Initiator des DFG-Schwerpunktprogramms "Verteilte Verarbeitung undVermittlung digitaler Dokumente" (V3D2) Prof. Dr. Dieter Fellner sowie allen Kolleginnenund Kollegen der anderen V3D2-Projekte.
Weiteren Dank schulde ich allen ehemaligen und augenblicklichen Mitarbeiterinnen undMitarbeitern unseres Arbeitskreises, insbesondere
Frau Ulrike Burkhard, Herrn Dr. Thomas Engel, Frau Dr. Sandra Handschuh, HerrnMarkus Hemmer, Herrn Achim Herwig, Frau Angelika Hofmann, Herrn Dr. RobertHöllering, Herrn Alexander von Homeyer, Herrn Norbert Karg, Herrn ThomasKleinöder, Herrn Dr. Thomas Kostka, Herrn Dr. Giorgi Lekishvili, Frau Gisela Martinek,Herrn Jörg Marusczyk, Herrn Udo Ottmann, Herrn Dr. Matthias Pförtner, Herrn MartinReitz, Herrn Dr. Oliver Sacher, Herrn Dr. Christian Scholten, Herrn Dr. Axel Schunk,Herrn Dr. Christof Schwab, Herrn Dr. Paul Selzer, Herrn Markus Sitzmann, Herrn Dr.Joao de Sousa, Herrn Simon Spycher, Herrn Dr. Alexei Tarkov, Herrn Dr. AndreasTeckentrup, Herrn Dr. Lothar Terfloth, Herrn Dr. Jaroslaw Tomczak, Herrn Dr. DietrichTrümbach, Herrn Jörg Wegener und Frau Dr. Ai-Xia Yan
für ihre Hilfsbereitschaft in wissenschaftlichen und technischen Fragen, für die Bereitstellungund Pflege einer stabilen und effektiven Hard- und Softwareumgebung sowie für diefreundliche Arbeitsatmosphäre.
Meinen Kolleginnen und Kollegen vom Laboratory of Medicinal Chemistry, National CancerInstitute, NCI Herrn Dr. Marc Nicklaus, Herrn Dr. Bruno Bienfait und Herrn Dr. JohannesVoigt möchte ich für die freundliche Aufnahme und die Möglichkeit der Mitarbeit in ihrerArbeitsgruppe sowie den wissenschaftlich und privat anregenden Aufenthalt danken.
Für die finanzielle Unterstützung dieser Arbeit im Rahmen des DFG-Schwerpunktprogramms"Verteilte Verarbeitung und Vermittlung digitaler Dokumente" (V3D2) danke ich derDeutschen Forschungsgemeinschaft DFG.
Frank Oellien
Für meine Eltern,für Sonja
Inhaltsverzeichnis
1 Einführung 11.1 Zielsetzung und Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Grundlagen 92.1 Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Wissenschaftliche Visualisierung - Eine Definition . . . . . . . . . . . . . . . . . . 9
2.1.2 Die Visualisierungspipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Dreidimensionale Visualisierungstechniken . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3.1 Pseudo-3D-Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3.2 3D-Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.3.3 Virtual Reality-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Internet-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Multipurpose Internet Mail Extension (MIME) . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 JavaScript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Java . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.5 VRML und X3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.6 Java3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Verwendete Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Das chemische Managementsystem CACTVS . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1.2 Die Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.2 Der 3D-Strukturgenerator CORINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.3 Das semiempirische MO-Programm VAMP . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Visualisierung chemischer Datenobjekte 273.1 Molekulare Modelle und ihre Repräsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Ein historischer Rückblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Struktur-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
i
Inhaltsverzeichnis
3.1.2.1 Wireframe-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2.2 Ball & Stick-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2.3 Space filling-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2.4 Capped Sticks-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2.5 Modelle für biologische Makromoleküle . . . . . . . . . . . . . . . . . . . 31
3.1.2.6 Kristallographische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.3 Molekulare Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.3.1 Van der Waals-Oberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.3.2 Connolly-Surface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.3.3 Solvent Accessible Surface (SAS) . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.3.4 Solvent Excluded Surface (SES) . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.3.5 Bindungstaschen-Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.3.6 Isowert-basierte Elektronendichte-Oberflächen . . . . . . . . . . . . . . 33
3.1.3.7 Experimentell ermittelte Oberflächen . . . . . . . . . . . . . . . . . . . . . . 34
3.1.4 Molekulare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.4.1 Molekülorbitale (Isowert-basierte Eigenschaften) . . . . . . . . . . . . 34
3.1.4.2 Skalare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.4.3 Vektorielle Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.4.4 Volumetrische Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.5 Animationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Internetbasierte Applikationen in der Chemie . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 Die frühen Jahre: 1970 - 1993 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Vom Durchbruch bis zum Stand der Technik . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Client-Server-Ansätze zur chemischen Visualisierung . . . . . . . . . . . . . . . . . . . . . 41
3.3.1 Datentransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.2 Softwaretransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.3 Graphiktransfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4 Client-Server-basierte Visualisierung 454.1 Hybride Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 VRML-Generator für chemische Austauschdateien . . . . . . . . . . . . . . . . . . 46
4.1.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
ii
Inhaltsverzeichnis
4.1.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.3 VRML-Animationsgenerator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.3.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.3.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.4 ComSpec3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.4.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.4.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.4.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.4.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.5 MolSurf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.5.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.5.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.5.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.5.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1.6 Weitere hybride Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 Client-seitige Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.2 OrbVis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.2.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2.3 Weitere Client-seitige Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 Server-seitige Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.2 Server-seitige Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4 Diskussion der Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5 Data Mining und Datenvisualisierung 895.1 Data Mining und Knowledge Discovery in der Chemie . . . . . . . . . . . . . . . . . . . . 89
5.2 Data Mining-Methoden in der Chemie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.1 Mulivariate Statistikmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.2.1.1 Principal Component Analysis (PCA) . . . . . . . . . . . . . . . . . . . . . . 94
iii
Inhaltsverzeichnis
5.2.1.2 Multi-Dimensional Scaling (MDS) . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2.2 Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.2.2.1 Kohonen-Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2.2.2 Counterpropagation-Netzwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.3 Genetische Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2.4 Weitere Data Mining-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.5 Datenvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3 Visuelles Data Mining - Eine Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3.1 Visualisierung von Data Mining-Ergebnissen . . . . . . . . . . . . . . . . . . . . . . 102
5.3.2 Visualisierung von Zwischenergebnissen . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3.3 Visualisierung von (Roh-)Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4 Methoden der Informationsvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4.1 Datentypen und Dimensionalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.4.1.1 Eindimensionale Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.4.1.2 Zwei- und dreidimensionale Datensätze . . . . . . . . . . . . . . . . . . . . 106
5.4.1.3 Multidimensionale Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4.1.4 Spezielle Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4.2 Die Visualisierungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.4.2.1 Geometrie-basierte Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.4.2.2 Icon- und Glyph-basierten Techniken . . . . . . . . . . . . . . . . . . . . . . 109
5.4.2.3 Pixel- und Voxel-orientierte Techniken . . . . . . . . . . . . . . . . . . . . 112
5.4.2.4 Hierarchische und Graph-basierte Techniken . . . . . . . . . . . . . . . . 113
5.4.2.5 Hybride Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.4.3 Techniken zur Interaktion und Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.4.3.1 Dynamische Projektionstechniken . . . . . . . . . . . . . . . . . . . . . . . . 115
5.4.3.2 Interaktive Filter-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.4.3.3 Interaktives Zooming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.4.3.4 Interaktive Distortion-Techniken . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.4.3.5 Interaktive Linking- und Brushing-Techniken . . . . . . . . . . . . . . . 116
6 Visuelle Data Mining-Applikationen 1176.1 NCI Antitumor-Datenbank-Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.1 Motivation und Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
iv
Inhaltsverzeichnis
6.1.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.2 Das InfVis-Programm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.2 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.2.3 Daten-Integration und -Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.2.4 Datenvisualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2.5 Visuelles Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2.5.1 Orthogonale Raumachsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.2.5.2 Größe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.2.5.3 Farbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6.2.5.4 Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.2.6 Interaktive und dynamische Techniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.2.6.1 Navigationswerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.2.6.2 Filterwerkzeuge (Dynamic Queries) . . . . . . . . . . . . . . . . . . . . . . . 139
6.2.6.3 Selektionswerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.2.6.4 Detailwerkzeuge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.2.7 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.2.8 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
6.3 NCI Screening Data 3D Miner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
6.3.2 Funktionsbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.3.3 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
6.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.4 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7 Anwendungsbeispiele 1637.1 ChemCodes-Reaktionsdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7.1.1 Zielsetzung und Aufbau der Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
7.1.2 Reaktionsoptimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.1.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.1.2.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.1.2.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
7.1.2.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.1.3 Reaktionsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.1.3.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
v
Inhaltsverzeichnis
7.1.3.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
7.1.3.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
7.1.3.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.2 NCI Antitumor-Screening-Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.2.1 Zielsetzung und Aufbau der Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
7.2.2 QSAR-Studien mit Platin-Verbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.2.2.1 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.2.2.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.2.2.3 Visuelles Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.2.2.4 Auswertung und Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
8 Zusammenfassung 189
9 Literaturverzeichnis 193
Anhang A Farbabbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-3
B Hyperlinksammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-13
C Krebszelllinien im NCI In Vitro Screen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-15
D Platinverbindungen im NCI In Vitro Screen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-17
E Publikationsliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-25
F Lebenslauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-26
vi
Kapitel 1
Einführung
Chemische Daten und Information zeichnen sich gegenüber Information aus anderen Wis-
senschaften durch eine kleine Anzahl einfacher, klar definierter und nicht textorientierter
Datenobjekten wie Strukturen, Reaktionen, Spektren und Oberflächen sowie den damit ver-
bundenen Darstellungsformen aus. Der Visualisierung solcher Datenobjekte ist dabei eine
hohe Bedeutung beizumessen, da der Mensch von Natur aus dazu tendiert, einen Sachverhalt
oder ein Modell leichter zu akzeptieren, wenn er sich ein Bild davon machen kann. Hierbei
werden mikroskopische Sachverhalte oder komplexe und abstrakte Modelle in ein sichtbares
Model projiziert.
Die zweidimensionale Repräsentation von Strukturinformation stellt dabei wohl den älte-
sten und bis heute bekanntesten Vertreter zur Darstellung chemischer Information dar und
ermöglichte erst das Verständnis und die Entwicklung der klassischen Chemie. Während sich
im 18. Jahrhundert die Darstellung noch auf verschiedene Symbole für die Elemente
beschränkte, war das 19. Jahrhundert durch die Entwicklung der Bindungsformel geprägt.
Diese standardisierte, rationale und leicht zugängliche Repräsentation wird bis heute weltweit
von Chemikern angewendet und spielt noch immer eine bedeutende Rolle bei der Mole-
küldarstellung.
Für die Anwendung in der modernen Chemie reichen solche zweidimensionalen Darstel-
lungsformen aber längst nicht mehr aus. Wichtige Sachverhalte, Wirkungsweisen und Mecha-
nismen insbesondere in den Bereichen der Biochemie und Pharmazie lassen sich heute nur
noch durch Analyse und Betrachtung der räumlichen Struktur von Molekülen verstehen
(Abbildung 1-1). So hängt beispielsweise die Bindungsaffinität an einen Rezeptor oder ein
Enzym von der definierten Anordnung der Atome im aktiven Zentrum des Proteins ab. Viele
Jahrzehnte lang wurde zum Verständnis dieses Vorgangs das bekannte von Emil Fischer ent-
wickelte Schlüssel-Schloss-Prinzip [1] zu Grunde gelegt. Während dieses Modell das puz-
zleartige Zusammenfügen von zwei starren molekularen Geometrien beschreibt, geht man
heute vielmehr von einer induzierten Anpassung von Ligand und Protein aus. Bei dieser
induced fit genannten dynamischen Erkennung werden in Abhängigkeit von der Zeit viele
1
1 Einführung
molekulare Wechselwirkungen zwischen verschiedenen Konformationen des Liganden und
Proteins ausgebildet bis sich schließlich der Protein-Ligand-Komplex bildet. Dieses von
Daniel E. Koshland 1958 postulierte Modell [2] verdeutlicht, dass neben der molekularen
3D-Struktur auch noch weitere Dimensionen wie Zeitachsen (z.B. Reaktionsabläufe oder
Dynamiken) oder mit dreidimensionalen Raumpunkten oder Flächen verknüpfte molekulare
Eigenschaften (Oberflächenpotentiale, Wasserstoffbrückenbindungen) eine weitere und
bedeutende Rolle spielen.
Abb. 1-1: 2D-Struktur, 3D-Struktur und molekulare Oberfläche des Hormons Testosteron.
Die Nutzung von dreidimensionalen Darstellungsformen hat jedoch nicht nur im Bereich
der chemischen Forschung eine zentrale Stellung eingenommen. 3D-Modelle und Animatio-
nen spielen auch eine zunehmend wichtigere Rolle im wissenschaftlichen Unterricht. Das
Erlernen eines komplexen Sachverhaltes ist mittels graphischer Repräsentationen wesentlich
leichter, da diese Form der Darstellung einer dem Betrachter bekannten Wirklichkeit wesent-
lich näher kommt. Dieser Sachverhalt wird bei der Betrachtung der in Abbildung 1-2 darge-
stellten nukleophilen Substitutionsreaktion deutlich.
Abb. 1-2: Nucleophile Substitution SN 2 von Brommethan mit Chloridion.
Diese für herkömmliche Chemielehrbücher übliche Darstellung von Reaktionen als Strich-
formeln setzt zum einen die Kenntnis von chemischen Konventionen (Keilpfeile) und zum
anderen Abstraktionsvermögen voraus. Der Einsatz einer dreidimensionalen, animierten Ver-
sion ermöglicht hingegen auch dem ungeübten Betrachter das leichte Verständnis des abstrak-
ten Sachverhaltes. Durch Nutzung von zusätzlichen interaktiven Elementen können somit
auch theoretisch schwer zugängliche Thematiken (z.B. Quantenchemie) auf fast spielerische
Art und Weise erlernt werden.
H H
H
OH
O
C
H
Br
H
H
+ C
HH
H
Br Cl C
H
Cl
H
H
+ BrCl
2
Im Gegensatz zu den papierbasierten 2D-Darstellungen war die Nutzung dreidimensiona-
ler Repräsentationen bis auf wenige Ausnahmen wie beispielsweise Stereobilder oder Ana-
glyphen auf die Entwicklung computergestützter Visualisierungstechniken angewiesen. Erste
Applikationen zur Visualisierung von Röntgenkristallstrukturen wurden dabei bereits in den
späten Sechziger-Jahren des 20. Jahrhunderts entwickelt. Heute steht dem Chemiker eine
unüberschaubare Anzahl von kommerziellen und frei verfügbaren Anwendungen zur Analyse
dreidimensionaler Strukturen und molekularen Eigenschaften zur Verfügung. Hauptmerkmale
dieser plattformabhängigen Applikationen sind vor allem die eng an einzelne Frage- und Pro-
blemstellung angelehnte Entwicklung und die im Allgemeinen fehlende Kompatibilität unter
den einzelnen Programmpaketen. Dieser Umstand steht jedoch im Widerspruch zum chemi-
schen Alltag, der zu großen Teilen auf einem schnellen, unkomplizierten und vollständigen
Zugriff und einer weitergehenden Analyse von bereits bestehendem Wissen basiert.
Das hohe Potential des Internets in Bezug auf Austausch, Abfrage und Darstellung chemi-
scher Information wurde daher in der Chemie sehr schnell erkannt und führte zu einer rasan-
ten Entwicklung von webbasierten, chemischen Informationsdiensten. Der Vorteil gegenüber
den alten Druckmedien lag dabei vor allem im nicht unterbrochenen Informationsfluss (direk-
ter Zugriff auf chemische Dateiaustauschformate) und den erweiterten Darstellungsmöglich-
keiten. Während anfänglich nur die Kommunikation, Publikation und der Austausch
chemischer Information im Vordergrund standen [3-7], entwickelten sich im Laufe der Zeit
auch zunehmend Techniken wie Plugins und Java-Applets, die eine Visualisierung von che-
mischen Daten eingebettet in digitalen Dokumenten erlaubten [8-11]. Letztere Techniken
ermöglichen heute interaktive Repräsentationen von molekularen 3D-Strukturen und Spek-
tren und sind Stand der Technik. Im begrenzten Maße können diese Visualisierungstools auch
einfache Oberflächen und Animationen darstellen.
Bei der genaueren Betrachtung dieser Standardwerkzeuge fällt jedoch auf, dass viele
Anwendungen aufgrund ihres plattformabhängigen Charakters nicht universell einsetzbar
sind. Des Weiteren zeigt sich, dass für Visualisierungsanforderungen, die über die einfache
Strukturvisualisierung hinausgehen wie zum Beispiel Orbitale, molekulare Oberflächen,
molekulare Eigenschaften oder Animationen, keine portablen und einfach nutzbaren Anwen-
dungen existieren oder die verfügbaren Applikationen nur sehr ineffiziente Lösungen unter-
stützen. Diese Situation ist unter anderem deshalb als ernst einzustufen, da sich heute
standardmäßig Internettechnologien in Form von Intranet-Informationssystemen [12] und
elektronischen Laborbüchern in der chemischen Industrie etabliert haben und diese aus den
oben beschriebenen Gründen eine portable Visualisierung gewährleisten müssen. Darüberhin-
aus sind auch Schulen und Universitäten im Bereich der Lehre auf webbasierte Visualisie-
rungsalternativen angewiesen, da sie aus Budgetgründen nicht immer auf teure kommerzielle
Produkte zurückgreifen können.
3
1 Einführung
Neben steigenden Anforderungen bei der Behandlung von Einzelszenen mit aufwendigen
Oberflächen- und Volumendarstellungen ist ein weiterer wichtiger Trend in der Pharmafor-
schung und auch anderen Disziplinen zu beobachten - der enorme Anstieg an chemischer
Information.
Während bis zur Mitte des letzten Jahrhunderts chemische Information noch durch
gedruckte Referatedienste wie dem Chemischen Zentralblatt oder der papierbasierten Version
des Chemical Abstracts Service (CAS) verwaltet werden konnten, ist seit einigen Jahrzehnten
die Referenzierung und Verwaltung der exponentiell zunehmenden Datenmengen nur noch
mit Hilfe elektronischer, informationsverarbeitender Systeme möglich. Eine Auswahl an frei
verfügbaren und kommerziellen chemischen Datenbanken ist in Abbildung 1-3 dargestellt.
Abb. 1-3: Ausgewählte Chemische Datenbanken im Überblick (Stand: Juli 2002) [14].
Diese Tendenz hat durch die Entwicklung neuer Synthesetechnologien zur Verminderung
von Zeitbedarf und Entwicklungskosten in den letzten Jahren eine weitere Steigerung erfah-
ren. Automatisierte Technologien wie parallele bzw. kombinatorische Synthese sowie ent-
sprechende Testsysteme wie das High-Throughput-Screening haben den chemischen Alltag
vor allem in der Wirkstoffforschung grundlegend verändert [13]. Diese automatisierten
Robotikanlagen werden permanent weiterentwickelt und generieren heute bereits Datenvolu-
mina, die die Zahl früherer Versuchsergebnisse um mehrere Größenordnungen überragen
(Abbildung 1-3: Pfeil, Aktuelle Datensatzgrößen durch automatisierte Labortechniken).
Obwohl die resultierenden Datensätze ein hohes Potential für die Entwicklung neuer Wirk-
stoffe beinhalten, gestaltet sich das Auffinden relevanter Information mit zunehmender
Datenbankgröße als schwierig.
4
1.1 Zielsetzung und Gliederung der Arbeit
Datensätze mit einigen tausend, Millionen oder sogar zehn Millionen [15] von Verbindun-
gen können nicht mehr durch Betrachtung einzelner Moleküle analysiert werden. Aktuelle
Standardanwendungen zur Analyse chemischer Datenbanken repräsentieren die Ergebnisse
daher in Form von molekularen Spreadsheets oder erlauben Struktur-Aktivitätskorrelationen
mittels struktureller bzw. physikochemischer Deskriptoren oder dreidimensionaler
Strukturinformation [16].
Obwohl deskriptorenbasierte Systeme durchaus für die Auswertung großer Datensätze
konzipiert sind, ist ihr Einsatz nicht immer unproblematisch. Das erhebliche Spezialwissen,
welches zur Bedienung derartiger Anwendungen nötig ist, fordert im Allgemeinen eine teure
und zeitaufwendige Datenbearbeitung durch spezialisierte Modelling-Experten und verhin-
dert letztendlich eine schnelle Interpretation der Ergebnisse durch den Synthesechemiker. Im
Gegensatz dazu können Spreadsheet-Anwendungen direkt vom Synthesechemiker zur Inter-
pretation und Analyse eingesetzt werden. Die tabellarische Datenrepräsentation dieser Appli-
kationen beschränkt deren Einsatz jedoch auf kleine bis mittlere Datensätze. Darüber hinaus
macht der zunehmend höherdimensionale Charakter der Datensätze eine Auswertung mittels
dieser Programme sehr schwierig oder sogar unmöglich.
Die Entwicklung von Software zur einfachen und interaktiven Analyse, Interpretation und
Visualisierung großer multidimensionaler Datensätze ist somit eines der großen Anliegen in
der chemischen Forschung und Entwicklung.
1.1 Zielsetzung und Gliederung der Arbeit
Komplexe chemische oder wissenschaftliche Zusammenhänge im Allgemeinen lassen sich
durch Einbettung interaktiver, drei- und mehrdimensionaler Repräsentationen in digitale
Dokumente besser verstehen. Der Zugriff auf digitale Dokumente ist insbesondere in der
Chemie bereits zur Routine geworden und über eine große Anzahl an unterschiedlichen Rech-
nerplattformen und Netzwerkinfrastrukturen möglich. Trotz der Notwendigkeit von Applika-
tionen zur Visualisierung mehrdimensionaler Darstellungsformen beherrschen heutige
webbasierte Visualisierungswerkzeuge nur einfache dreidimensionale Moleküldarstellungen.
Ein Ziel dieser Arbeit war daher die Entwicklung von portablen, sich an Internetstandards
orientierenden Systemen, die die Einbettung von dynamischen Visualisierungen in digitale
Dokumente erlauben. Da zur interaktiven Visualisierung von multidimensionalen und multi-
variaten Datenobjekten häufig große Datenmengen übertragen und dargestellt werden müs-
sen, stand zunächst die Entwicklung von intelligenten Client-Server-Strategien zur verteilten
Vermittlung und Verarbeitung im Vordergrund. Dabei sollten insbesondere Faktoren wie
Netzwerkinfrastruktur (z.B. Internet oder Intranet), Netzbandbreite, Netzlatenz, Verfügbar-
5
1 Einführung
keit von Ressourcen aber auch das Vorhandensein von Server- und Client-seitiger Hardware
berücksichtigt werden. Die allgemeine Einsatzfähigkeit und der Nutzen dieser Strategien
wurde mit Hilfe von webbasierten Applikationen und Online-Diensten dargestellt und verifi-
ziert.
Ein weiteres Ziel dieser Arbeit war die Entwicklung von plattformunabhängigen Metho-
den und Applikationen zur interaktiven Visualisierung und Analyse von großen, multidimen-
sionalen und multivariaten Datensätzen. Zur Lösung dieser Problematik dienten im Rahmen
dieser Arbeit Ansätze aus dem Bereich der Informationsvisualiserung als Ausgangspunkte.
Die entwickelten Methoden sollten dabei im Gegensatz zu spreadsheetbasierten Standard-
applikationen die Möglichkeit bieten, sowohl große als auch hochdimensionale Datensätze zu
analysieren und zu visualisieren. Des Weiteren sollten die Applikationen eine einfache Bedie-
nung als auch eine schnelle und einfache Interpretation der Datensätze erlauben, so dass die
Analyse der Daten direkt durch den nicht-spezialisierten Synthesechemiker möglich ist. Wei-
tere Kriterien bei der Entwicklung waren ebenso die Nutzung aktueller low-budget Graphik-
hardware-Fähigkeiten aktueller PC-Systeme als auch die plattformübergreifende
Implementation der Applikationen.
Die vorliegende Arbeit gliedert sich in folgende Abschnitte:
In Kapitel 2 werden zunächst wichtige Begriffe und Grundlagen aus den Bereichen des
Internets und der Visualisierung erklärt. Weiterhin werden wichtige Programmpakete erläu-
tert, die im Rahmen dieser Arbeit für die Generierung, Speicherung und das Management von
chemischen Daten von zentraler Bedeutung waren.
Kapitel 3 widmet sich der portablen, Client-Server-basierten Visualisierung chemischer
Datenobjekte wie beispielsweise Strukturen, Oberflächen oder Animationen. Nach einem
kurzen, historischen Rückblick werden die wichtigsten chemischen Darstellungsformen
beschrieben. Des Weiteren wird auf die Bedeutung des Internets innerhalb der Chemie und
hier insbesondere im Bereich der Visualisierung eingegangen. Schließlich werden die wich-
tigsten Client-Server-Ansätze zur Visualisierung chemischer Daten erläutert, wobei vor allem
die Prinzipien des im Rahmen dieser Arbeit eingesetzten Graphiktransfers näher beschrieben
werden.
Kapitel 4 beschreibt anhand der drei grundsätzlichen, Graphiktransfer-basierten Client-
Server-Strategien die im Rahmen dieser Arbeit entwickelten, portablen Methoden und Appli-
kationen zur plattformunabhängigen Visualisierung chemischer Daten. Neben den Aspekten
der Implementierung werden die einzelnen Anwendungen im Vergleich mit aktuellen Stan-
dardapplikationen diskutiert. Schließlich werden die Vor- und Nachteile der drei Client-
Server-Strategien zusammengefasst und ein Ausblick auf zukünftige Arbeiten gegeben.
6
1.1 Zielsetzung und Gliederung der Arbeit
Kapitel 5 befasst sich mit der Problematik der chemischen Datenflut sowie mit dem Pro-
zess des Data Mining, welcher nützliche und neuartige Information aus den enormen Daten-
mengen extrahieren kann. Zunächst wird die Definition des Data Minings sowie die
Aufgaben und Einsatz in der Chemie erläutert. Anschließend erfolgt eine Kurzvorstellung der
wichtigsten, in der chemischen Forschung gebräuchlichen Data Mining-Methoden. Der
zweite Teil des Kapitels widmet sich dem relativ jungen Gebiet des visuellen Data Minings.
Neben einer Einführung in die Grundlagen werden die verschiedenen Informationsvisualisie-
rungstechniken des visuellen Data Minings vorgestellt.
Kapitel 6 beschreibt die im Rahmen dieser Arbeit entwickelten Anwendungen und Pro-
gramme zum visuellen Data Mining von großen, multidimensionalen, chemischen Datensät-
zen. Dabei wird insbesondere auf das umfangreiche, plattformunabhängige Programm InfVis
eingegangen. Neben der Vorstellung der einzelnen Funktionalitäten werden die diversen
Applikationen im Vergleich mit aktuellen, chemieorientierten Standardapplikationen disku-
tiert. Schließlich wird ein Ausblick auf zukünftige und zum Teil bereits in der Entwicklung
befindliche Forschungsarbeiten gegeben.
Kapitel 7 stellt anhand von drei ausgewählten, chemischen Anwendungsbeispielen die
Fähigkeiten visueller Data Mining-Ansätze im Allgemeinen als auch des InfVis-Programms
im Speziellen vor. Die ersten beiden Anwendungsbeispiele basieren auf der neuartigen Reak-
tionsdatenbank der Firma ChemCodes und beschreiben eine Reaktionsoptimierungs- sowie
eine Reaktionsplanungs-Fragestellung. Das dritte Beispiel beschreibt schließlich eine visuelle
Analyse von Struktur-Aktivitäts-Beziehungen anhand von Platinverbindungen in der Antitu-
mor Datenbank des amerikanischen Krebsforschungsinstituts.
Kapitel 8 fasst schließlich die im Rahmen dieser Arbeit entwickelten Methoden und
Applikationen zusammen.
Aufgrund der thematischen Ausrichtung enthält die vorliegende Arbeit eine Reihe von
Farbabbildungen. Aus drucktechnischen Gründen wurden alle notwendigen Farbabbildungen
im Anhang A zusammengefasst. Die Kapitel enthalten an den entsprechenden Stellen eine
Schwarz-Weiß-Abbildung und eine Referenz auf die Farbkopie.
Diese Arbeit wurde von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen des
Schwerpunktprogramms ’Verteilte Vermittlung und Verarbeitung Digitaler Dokumente’
(V3D2) unterstützt und im Teilprojekt ’ChemVis - Chemische Visualisierung im Internet’ rea-
lisiert. Durch die Ausrichtung auf das Internet und den Einsatz von portablen Technologien
sind viele der hier vorgestellten Methoden und Applikationen in Form von webbasierten
Demonstrationsanwendungen und/oder als mittlerweile etablierte Online-Dienste nutzbar.
Eine Übersicht aller wichtiger Webseiten findet sich im Anhang B.
7
1 Einführung
8
Kapitel 2
Grundlagen
In diesem Kapitel sollen die elementaren Grundlagen und Methoden beschrieben werden,
die zum Verständnis der nachfolgenden Kapitel notwendig sind. Der erste Abschnitt befasst
sich mit der Thematik der Visualisierung und geht dabei vor allem auf das Gebiet der wissen-
schaftlichen Visualisierung ein. Darüber hinaus werden einige wichtige dreidimensionale
Visualisierungstechniken vorgestellt.
Der zweite Teil widmet sich dem Internet sowie den verwandten Techniken und Program-
miersprachen, die für die plattformunabhängige Repräsentation von chemischen Datenobjek-
ten eine relevante Rolle spielen.
Im letzten Teil dieses Kapitels folgt die Beschreibung wichtiger Programme, die für die
Generierung, Speicherung und das Management chemischer Information verwendet wurden.
2.1 Visualisierung
2.1.1 Wissenschaftliche Visualisierung - Eine Definition
Seit Anbeginn der Menschheit spielt die Visualisierung eine zentrale und bedeutende Rolle
bei der Übertragung und dem Verständnis von Information. Die Gründe für dieses Phänomen
beruhen dabei auf der Physiologie des menschlichen Auges und den mit ihm verbundenen
visuellen Cortex. Von allen Sinnesorganen des Menschen besitzt der Sehapparat die größte
Bandbreite bei der Aufnahme von Information. Diese Tatsache wird auch durch die allgemein
bekannte Redewendung „ein Bild sagt mehr als tausend Worte“ untermauert.
Der vergleichbar leichte Zugang zur Information über den Sehvorgang wird in den Wis-
senschaften und hier vor allem in den naturwissenschaftlichen Disziplinen zur Vermittlung
von abstrakten und/oder mikroskopisch kleinen Phänomenen und Modellen genutzt. Inner-
halb der Computergraphik wird dieses spezielle und weitläufige Forschungsfeld im Allgemei-
nen als "Wissenschaftliche Visualisierung" bezeichnet.
9
2 Grundlagen
Über einen langen Zeitraum war die wissenschaftliche Visualisierung aufgrund fehlender,
alternativer Medien nur auf zweidimensionale Schemata und Darstellungen begrenzt. Wäh-
rend dieser Zeit wurden die bis heute gültigen und von jeden Chemiker verständlichen Struk-
tur- und Konstitutionsformeln entwickelt. Neben der Darstellung von Spektren und
Atombindungen wurden aber auch abstraktere Repräsentationen wie die Fischer-Projektion,
das Keilpfeil-Tetraeder-Modell oder das Kugel-Stab-Modell zur Visualisierung von steri-
schen Effekten eingesetzt (Abbildung 2-1).
Abb. 2-1: Fischer-Projektion, Keilpfeil-Tetraeder-Modell und Kugel-Stab-Modell von 2-Hydroxypropanol.
Die Einführung des Computers führte schließlich zu Beginn der Sechziger Jahre zu voll-
kommen neuen Möglichkeiten der graphischen Repräsentation und zu der Entstehung des
Forschungsgebiets der Computergraphik. Rechnergestützte, dreidimensionale Darstellungen
und Animationen gewannen innerhalb kürzester Zeit enorme Bedeutung innerhalb des natur-
wissenschaftlichen Umfeldes und besonders in der Chemie. Neben der Verfügbarkeit von
alternativen Repräsentationen spielte ein weiterer Vorteil der graphischen Datenverarbeitung
eine wichtige Rolle - die Möglichkeit der Benutzerinteraktion. Mit Hilfe der interaktiven
Visualisierung war nun erstmals die direkte Manipulation der visualisierten Datenobjekte
möglich, was vollkommen neue Freiheitsgrade bei der Analyse unbekannter und komplexer
Szenen zuließ.
Heute stellt sich die computergestützte, wissenschaftliche Visualisierung, wie in Abbil-
dung 2-2 schematisch skizziert, dar. Durch experimentelle Beobachtungen von makroskopi-
schen und mikroskopischen Vorgängen ist der Wissenschaftler in der Lage ein abstrahiertes
Modell und letztendlich eine Theorie der zugrunde liegenden Vorgänge aufzustellen. Die gra-
phische Darstellung des abstrakten Modells stellt dabei eine Transformation von Unsichtba-
ren in Sichtbares dar. Darüber hinaus können die aus Modell, Theorie und graphischer
Repräsentation gewonnenen Erkenntnisse als Ausgangspunkt für weitere interaktive Analy-
sen und Simulationen dienen. Die Ergebnisse der Analyse erlauben schließlich die Vorher-
sage von Meßgrößen aus der realen Welt. Durch ständigen Vergleich der experimentellen
Meßwerte und der vorhergesagten Meßgrößen lässt sich letztendlich das aufgestellte Modell
verifizieren und verfeinern.
C
CH3
CH2OH
H OH
CH3
C
CH2OH
OHH
10
2.1 Visualisierung
Abb. 2-2: Schematische Darstellung der Benutzerinteraktionen in der wissenschaftlichen Visualisierung.
2.1.2 Die Visualisierungspipeline
Während bei zweidimensionalen Repräsentationen nur ein zweidimensionales Abbild
generiert und dargestellt wird, sind für die Realisierung von dreidimensionalen Darstellungen
mehrere, computergestützte Methoden notwendig. Dieser mehrstufige Prozess wird als
Visualisierungspipeline bezeichnet (Abbildung 2-3) [17].
Der erste Schritt bei der Visualisierung wissenschaftlicher Daten ist dabei der Einsatz von
Filtern, um beispielsweise für die Visualisierung irrelevante Datenpunkte oder Parameter zu
entfernen oder Rohdaten zu konvertieren. In einem anschließenden Abbildungsmodul
(Mapper) werden die Daten dann in eine darstellbare Repräsentation überführt. Hierbei han-
delt es sich im Allgemeinen um geometrische Objekte wie Volumen und Primitive, die mit
zusätzlichen Attributen wie Farbe, 3D-Koordinaten, Transparenz und Textur versehen wer-
den. Im letzten Schritt der Visualisierungspipeline wird die erzeugte geometrische Repräsen-
tation der Daten von einem Darstellungsmodul (Renderer) durch Projektion auf eine
Bildebene in ein Rasterbild abgebildet.
Wie bereits im vorausgegangenen Abschnitt erläutert, stellt die Benutzerinteraktion einen
wichtigen und wesentlichen Freiheitsgrad bei der Analyse und Exploration von wissenschaft-
lichen Daten dar. Der Aufbau der Visulisierungspipeline erlaubt die Interaktion durch den
Benutzer an jeder beliebigen Stelle. Vor allem bei unbekannten Daten ist eine Erkenntnis
über die in den Daten vorhandene Information häufig erst durch die interaktive Manipulation
der Visualisierungsparameter aller Visualisierungsstufen möglich.
Modell
Interaktion/Simulation
Experiment
Reale Welt
Visualisierung
Theorie
Vorhersage
Mes
sun
g
11
2 Grundlagen
Die dafür erforderlichen, hohen Interaktionsraten setzen effiziente Algorithmen und
Datenstrukturen sowie entsprechende Verarbeitungskapazitäten voraus. Die in Kapitel 3 vor-
gestellten Client-Server-basierten Strategien und Applikationen beschreiben die Realisierung
entsprechender Ansätze im Detail.
Abb. 2-3: Die Visualisierungspipeline [26].
2.1.3 Dreidimensionale Visualisierungstechniken
Im folgenden Abschnitt werden die bekanntesten Techniken zur Darstellung von räumli-
chen Darstellungen vorgestellt. Neben der Beschreibung der Vor- und Nachteile der einzelnen
Ansätze werden dabei auch bekannte chemische Beispielapplikationen vorgestellt.
2.1.3.1 Pseudo-3D-Visualisierung
Wie der Name bereits zu erkennen gibt, handelt es sich bei diesem Verfahren aus Sicht der
graphischen Datenverarbeitung nicht um eine dreidimensionale Visualisierungstechnologie.
Vielmehr werden mit Hilfe dieser Methode nur zweidimensionale Bilder generiert, die im
visuellen Cortex des Betrachters einen räumlichen Eindruck vermitteln. Diese Methode der
geistigen Täuschung funktioniert vor allem in Verbindung mit zusätzlichen Interaktionsmög-
lichkeiten so gut, dass dem Benutzer der nicht-dreidimensionale Charakter der Darstellung
vollkommen verborgen bleibt. Um einen räumlichen Effekt zu erzielen, müssen dabei drei
Grundvoraussetzungen realisiert werden: das Depth Cueing, die Perspektive und die Interak-
tion. Anhand eines beliebigen Moleküls soll die Funktionsweise dieser Methoden erläutert
werden.
Ausgehend von der dreidimensionalen Struktur und in Abhängigkeit von der Blickrichtung
wird in einem ersten Schritt die Tiefe bzw. der Abstand zum Betrachter der einzelnen Atome
bestimmt. Dabei wird ermittelt, ob sich ein Atom vor oder hinter einem anderen Atom bzw.
einer Bindung befindet. Der räumliche Eindruck wird darüber hinaus durch Veränderung der
Größen der dargestellten Atome verstärkt (Perspektive). Vom Betrachter weiter entfernte
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
Visualisierungspipeline
12
2.1 Visualisierung
Atome werden dabei kleiner dargestellt als solche, die sich näher am Betrachter befinden. In
einem weiteren Schritt wird das Depth Cueing-Verfahren eingesetzt. Dabei nimmt mit zuneh-
mender Tiefe der Atome und Bindungen die Helligkeit dieser Objekte ab, wodurch der räum-
liche Eindruck nochmals verstärkt wird. Schließlich wird der Mechanismus der Täuschung
durch den Einsatz von Interaktionsmechanismen perfektioniert. Durch Auswertung der
Benutzeraktionen (z.B. Mauszeigerbewegungen) wird zunächst die neue Aufsicht auf das
Molekül berechnet. Im Anschluss werden die bereits beschriebenen Schritte erneut durchlau-
fen und das alte Bild durch die neuberechnete Darstellung ersetzt. Durch diese Vorgehens-
weise können Interaktionen wie Rotation, Translation und Zoom realisiert werden.
Bis vor einigen Jahren war die dreidimensionale Visualisierung nur auf speziellen, teuren
Serversystemen mit hochleistungsfähiger Graphik-Hardware und durch den Einsatz entspre-
chender Spezialsoftware möglich. Im Gegensatz dazu ist die Pseudo-3D-Technik nicht auf
das Vorhandensein von 3D-Funktionalitäten angewiesen und kann deshalb auch auf PC-
Systemen mit Standard-Graphikkarten zum Einsatz kommen. Diese Tatsache hat dazu
geführt, dass Pseudo-3D-basierte Applikationen schnell eine weite Verbreitung in der chemi-
schen Visualisierung erfahren haben. Darüber hinaus wird die Interaktionsrate nur gering
durch die Anzahl und Größe der dargestellten Objekte beeinflusst. Dies ermöglicht somit
auch die unkomplizierte Darstellung von sehr vielen und/oder großen Datenobjekten.
Zu den bekanntesten Vertretern dieser Methode zählen der Java-Molekülviewer von
ChemSymphony [11, 18] und die RasMol-Applikation [19] bzw. das Chime-Plugin [32].
2.1.3.2 3D-Visualisierung
Die enormen graphischen Anforderungen moderner Computerspiele haben seit einigen
Jahren zu der Entwicklung PC-kompatibler 3D-Graphikkarten geführt. Die dreidimensiona-
len Fähigkeiten dieser Hardwaresysteme haben seitdem exponentiell zugenommen und wer-
den sich auch in Zukunft unvermindert schnell weiterentwickeln. Dank dieser Entwicklung
sind heute dreidimensionale Darstellungen von wissenschaftlichen Daten allgemein auf Per-
sonalcomputern verfügbar. Neuere Untersuchungen haben darüber hinaus gezeigt, dass aktu-
elle Graphiksysteme wie die GeForce-Serie im Bereich der wissenschaftlichen Visualisierung
an die Fähigkeiten heutiger Graphikserver heranreichen und in einigen Fällen diese sogar
übertreffen [20].
Die für die dreidimensionale Visualisierung notwendigen und in Kapitel 2.1.2 beschriebe-
nen Stufen der Visualisierungspipeline greifen im Allgemeinem nicht direkt auf die 3D-Funk-
tionalitäten der Graphikkarten zu. Vielmehr wird dieser Zugriff durch sogenannte 3D-
Graphikschnittstellen vermittelt. Zu den beiden etablierten Systemen gehört das von Silicon
Graphics (SGI) als offener Standard eingeführte OpenGL [21]. OpenGL wird von einem
13
2 Grundlagen
internationalen Konsortium weiterentwickelt und ist für alle gängigen Plattformen und
Betriebssysteme erhältlich. Der zweite de-facto Standard (Direct3D) wurde von Microsoft für
Windows-Plattformen entwickelt und ist in der bekannten DirectX API enthalten [22].
Das hohe Potential der dreidimensionalen Visualisierung stand im Mittelpunkt bei der Ent-
wicklung der in dieser Arbeit beschriebenen Applikationen und Strategien. Dabei wurde vor
allem die Volumenvisualisierung [23] zur Darstellung chemischer Information verwendet.
Diese Visualisierungsform hat sich mittlerweile zu einem selbstständigen Forschungsfeld
innerhalb der Computergraphik entwickelt und beschreibt die Repräsentation, Manipulation
und Darstellung von Volumendaten. Eine detaillierte Beschreibung dieser Darstellungsform
würde den Rahmen dieser Arbeit sprengen. Daher werden im Folgenden nur die beiden wich-
tigsten im ChemVis-Projekt verwendeten Ansätze kurz skizziert.
Isoflächen-basierte Volumenvisualisierung. Bei diesem auch als indirekte Volumenvi-
sualisierung bezeichneten Verfahren werden die Volumendaten in eine intermediäre Reprä-
sentation abgebildet, deren Darstellung mit einem geringeren Aufwand verbunden ist. Dabei
kommt es im Allgemeinen zu einem Informationsverlust gegenüber den Originaldaten. Die-
ser kann jedoch bewusst hingenommen werden, da man häufig nur an der Darstellung der
Grenzfläche interessiert ist und nicht an der darunterliegenden Information. Zur Veranschau-
lichung dieses Sachverhaltes kann man die in einer Gaussian-Cube-Datei enthaltenen Daten
betrachten. Das vom Programm GAUSSIAN [24] generierte Datenformat dient zum Aus-
tausch von molekularen Oberflächen oder Orbitalen und speichert diese Information in Form
einer Volumendichte. Bei der Visualisierung dieser Objekte ist jedoch nicht die gesamte Volu-
meninformation notwendig, sondern nur die darin enthaltene Grenzflächeninformation. Die
Extraktion der Grenzflächen geschieht mittels Algorithmen. Der bekannteste Vertreter dieser
Klasse von Grenzflächen-extrahierenden Algorithmen ist der Marching-Cubes-
Algorithmus [25]. Die vom Marching-Cubes-Algorithmus berechneten Dreiecksgitter kön-
nen schließlich mit konventioneller Graphikhardware dargestellt werden.
Die Vorteile dieser Darstellungsform gegenüber der Pseudo-3D-Visualisierung sind unter
anderem die qualitativ bessere Repräsentation der Daten und die wesentlich größeren Mög-
lichkeiten zur Benutzerinteraktion und Animation. Das Verfahren birgt aber auch Nachteile.
Da die Rendering-Geschwindigkeit direkt von der Anzahl der berechneten Dreiecke abhängt,
ist die Anzahl und die Größe der dargestellten Objekte limitiert.
Die in Kapitel 3 vorgestellten Ansätze beschreiben Client-Server-basierte Strategien zur
Lösung dieser Problematik. Beispiele für entsprechende Standardapplikationen werden daher
dort beschrieben.
14
2.1 Visualisierung
Textur-basierte Volumenvisualisierung. Im Gegensatz zu der Isoflächen-basierten
Visualisierung ist die Renderinggeschwindigkeit Textur-basierter Verfahren nicht von der
Anzahl und der Größe der dargestellten Objekte abhängig. Diese Beobachtung begründet sich
dadurch, dass das Volumen nicht in Form einer großen Anzahl von Primitiven visualisiert
wird, sondern in seiner ganzheitlichen Form als 2D- oder 3D-Textur im Texturspeicher der
Graphikkarte abgelegt und anschließend gerendert wird. Aus diesem Grund bestimmt die
Texturspeichergröße die Grenzes dieses Ansatzes. Die für die qualitativ hochwertige Reprä-
sentation wissenschaftlicher Daten notwendigen 3D-Texturen waren in der Vergangenheit
nicht durch PC-basierte Graphikkarten realisierbar und konnten nur mit Hilfe spezieller
Workstation-Hardware generiert werden. Erst durch die Entwicklung moderner Spielegra-
phikkarten, welche Technologien wie Multi-Texturing und programmierbarer Rasterisie-
rungseinheiten unterstützen, sind qualitativ hochwertige, Textur-basierte Darstellungen heute
auch auf Personalcomputern verfügbar. Darüber hinaus ermöglichten erst die PC-basierten
Graphiksysteme die Visualisierung großer Texturen. Technische Einzelheiten und die Reali-
sierung entsprechender Applikationen waren nicht Gegenstand der vorliegenden Arbeit und
werden an anderer Stelle besprochen [26].
2.1.3.3 Virtual Reality-Verfahren
Monitor- bzw. Display-vermittelte dreidimensionale Darstellungen basieren auf einer
zweidimensionalen Zentralprojektion, die im menschlichen Gehirn und durch dessen Fähig-
keit zum räumlichen Denken als dreidimensionale Objekte interpretiert werden. Darüber hin-
aus existieren Techniken, die beim Betrachter den Eindruck erwecken, dass die dargestellte
3D-Szene tatsächlich existiert. Dieser Sachverhalt wird im Allgemeinen als virtuelle
Realität bezeichnet. Die im Folgenden beschriebenen Vertreter dieser Technologie erwecken
diesen plastischen Eindruck durch die Kombination der bereits im letzten Abschnitt beschrie-
benen 3D-Techniken in Verbindung mit speziellen, graphischen Ein- und Ausgabegeräten.
Häufig wird dabei der gewünschte Effekt durch sogenannte Stereobild-Techniken
erreicht [27]. Beim Stereosehen werden zwei verschiedene Bilder betrachtet, die auf dem
ersten Blick vollkommen identisch sind sich jedoch durch unterschiedliche Blickwinkel
unterscheiden. Indem jedes Auge eines der beiden Bilder betrachtet, entsteht somit ein räum-
licher Eindruck. Während geübte Betrachter diesen Effekt durch Fokussierung eines unend-
lich weit entfernten Punktes (paralleles Sehen) erzielen können, steht dem ungeübten
Betrachter mit der Stereobrille ein geeignetes Hilfsmittel zur Verfügung.
Ähnliche Verfahren wie Anaglyphen (rot/grün Bilder in Verbindung mit colorierten Bril-
len) oder Autostereogramme (besser bekannt als random dot Stereogramme) wurden eben-
falls zur chemischen Visualisierung vor allem in chemischen Lehrbüchern eingesetzt.
15
2 Grundlagen
Eine breitere Anwendung fanden weiterentwickelte Verfahren wie die sogenannten
Shutter-Brillen. Diese anfänglich nur für Workstations erhältlichen Ausgabesysteme werden
vor allem im Bereich des Molecular Modelling eingesetzt und bestehen aus transparenten
LCD-Displays, die für jedes Auge einzeln verdunkelt werden können. Die Verdunklung des
Glases geschieht dabei sehr schnell und synchron zum Austausch der beiden
korrespondierenden Bildansichten auf dem Monitor, so dass jedes Auge letztendlich nur ein
Stereobild wahrnimmt. Im Gegensatz zu parallelen Stereobildern lässt diese Technik die
Bewegung des Kopfes zu. Der wichtigste Vorteil ist jedoch, dass dem Benutzer alle
Möglichkeiten der Interaktion mit der dreidimensionalen Darstellung offen stehen. Seit
einiger Zeit stehen auch low-budget Systeme zur Verfügung, die mit herkömmlichen PC-
Graphikkarten zusammen arbeiten.
Alternative Systeme wie die sogenannten head-mounted Displays (HMD) sind in der
chemischen Visualisierung nicht so weit verbreitet. Die helmartigen HMDs basieren nicht
mehr auf einem einzelnen Display sondern bestehen aus zwei unabhängigen Displays (eins
für jedes Auge). Die Blickrichtung des Benutzers wird dabei durch entsprechende Sensoren
im Helm ermittelt und führt bei einer Bewegung zur Aktualisierung der dargestellten Szene.
Zu den aufwendigsten Virtual-Reality-Systemen zählen wohl die teuren und
ressourcenintensiven Projektionssysteme CAVE (Cave Automatic Virtual Environment) [28]
und CUBE [29]. Diesen Techniken erfordern für die Darstellung begehbare, geschlossene
Räume. Mit Hilfe von Projektionskanonen werden dabei auf die vier Wände, die Decke und
den Boden des Raumes Bilder einer dreidimensionalen Szene projiziert. Der Benutzer kann
alleine oder in der Gruppe diese virtuelle Welt betreten und betrachten. Im Allgemeinen wird
der virtuelle Effekt dabei noch durch Shutter-Brillen verstärkt. Durch weitere Peripherie wie
beispielsweise Cyber-Handschuhen ist der Benutzer auch in der Lage Manipulationen an der
dargestellten Szene vorzunehmen. Den Vorteilen, die ein solches System bietet, stehen sehr
hohe Kosten und Rechenanforderungen gegenüber, die den Einsatz solcher Technologien nur
auf sehr spezielle Problemfälle einschränkt. Diese Situation hat sich in den letzten Jahren
durch die Verfügbarkeit preisgünstiger und leistungsfähiger Spielegraphikkarten noch
verschärft.
Als letzte Technologie sei noch auf direkte Volumenvisualisierungssysteme hingewiesen.
Die modernste Lösung auf diesem Sektor stellt zur Zeit die prototypische Perspecta Spatial
3D Plattform dar [30]. Das System besteht aus einer Glaskugel, dessen Durchmesser ca.
50 cm beträgt. Im Inneren dieser Kugel zirkuliert ein Hochgeschwindigkeitsprojektor, der
die dreidimensionale Szene auf die Kugel projiziert. Dem Benutzer wird dabei ohne Einsatz
weiterer Hilfsmittel wie Brillen oder HMDs der Eindruck vermittelt, dass er tatsächlich ein
räumliches Objekt betrachtet und mit ihm interagieren kann.
16
2.2 Internet-Techniken
2.2 Internet-Techniken
Bei der Entwicklung der in dieser Arbeit vorgestellten Methoden und Applikationen wurde
besonderer Wert auf die Plattformunabhängigkeit gelegt. Die Einbettung der Visualisierungs-
applikationen in digitale Dokumente wurde dabei durch den Einsatz von Technologien und
Programmiersprachen, die sich an aktuellen Internetstandards orientieren, sichergestellt.
Diese Technologien werden im Folgenden beschrieben.
2.2.1 Multipurpose Internet Mail Extension (MIME)
Die Entwicklung dieses Standards geht auf das Jahr 1992 zurück, als das Internet noch am
Anfang seiner Entwicklung stand und vor allem zum Verschicken von elektronischen Mails
diente [31]. Heute ist diese Erweiterung nicht nur auf elektronische Post beschränkt, sondern
wird allgemein im Internet zur Identifizierung der Form und Struktur übertragener Daten ver-
wendet. Der entsprechende Datentyp wird dabei durch einen allgemeinen Teil (z.B. video,
audio, application) und einen spezifischen Teil identifiziert. Je nach Einstellung des Web-
browsers wird dann ein Plugin (vgl. Abschnitt 2.2.2) oder eine entsprechende Standardappli-
kation gestartet, welche die übertragenen Daten interpretieren kann.
Erste MIME-Typen zur Kennzeichnung von chemischen Austauschformaten wurden 1994
eingeführt [3, 6]. Da in dieser Arbeit vor allem die Vermittlung von graphischen Daten im
Vordergrund stand, kamen chemische MIME-Typen nur selten zum Einsatz. Häufiger wurden
die entsprechenden MIME-Typen zur Interpretation von VRML-Szenen (vgl. Abschnitt
2.2.5) oder zum Start des Java2-Plugins (vgl. Abschnitt 2.2.4) eingesetzt.
2.2.2 Plugins
Als Plugins bezeichnet man kleine, plattformabhängige Applikationen, die die Darstel-
lungsfähigkeiten von konventionellen Webbrowsern in Abhängigkeit von bestimmten Daten-
typen erweitern. Empfängt der Client einen bestimmten Datentyp, der vom Browser
standardmäßig nicht interpretiert aber von dem vorher installierten Plugin gehandhabt werden
kann, so wird das Plugin innerhalb des Browser-Fensters gestartet und für die eingebettete
Repräsentation der Daten in der Webseite verwendet. Bis vor kurzem unterstützten die wich-
tigsten Browser diese von Netscape entwickelte Plugin API. Microsofts Bemühungen diese
Technologie durch die eigene ActiveX-Technologie zu ersetzen, haben dazu geführt, dass
neuere Versionen des Internet Explorers die Plugin-Technik nicht mehr unterstützen.
Der bekannteste chemische Vertreter dieser Klasse von Anwendungen ist zweifellos das
von MDL vertriebene Chime-Plugin [32].
17
2 Grundlagen
2.2.3 JavaScript
JavaScript ist eine von Webbrowsern interpretierbare Skriptsprache, die aber keinen, wie
der Name eventuell vermuten lässt, Bezug zu der objektorientierten Programmiersprache
Java hat. Durch Einbettung von JavaScript-Tags in HTML-Seiten können beispielsweise
Benutzereingaben in Webformularen interpretiert und weiterverarbeitet werden.
2.2.4 Java
Die objektorientierte Programmiersprache Java [33] wurde 1995 von der Firma Sun
Microsystems entwickelt und seitdem ständig erweitert. Java ist in starkem Maße an die Pro-
grammiersprache C++ angelehnt, aber im Gegensatz dazu sowohl betriebssystem- als auch
plattformunabhängig. Die Erfüllung der Systemunabhängigkeit ermöglicht den Einsatz von
Java-Programmen im Internet. Java-Programme können in Form von Java-Applets auf belie-
bige Rechner transferiert und anschließend ausgeführt werden, wenn ein entsprechender,
Java-fähiger Webbrowser zur Verfügung stehen. Darüber hinaus können Java-Programme
auch als Standalone-Applikationen ausgeführt werden, wenn eine entsprechende Java-Lauf-
zeitumgebung (virtuelle Maschine) auf dem System installiert ist.
Heute hat sich Java als de-facto Standard für die Programmierung von Internet-Applikatio-
nen durchgesetzt und ist für fast alle wichtigen Betriebssysteme und Plattformen erhältlich.
Viele der in dieser Arbeit vorgestellten Applikationen und Methoden nutzen Java in Form
von Applets aber auch als eigenständige Java-Programme.
2.2.5 VRML und X3D
Die Virtual Reality Modeling Language (VRML) [34] ist ein plattformunabhängiges, fle-
xibles Dateiformat zum Austausch und zur Beschreibung von dreidimensionalen Szenen.
VRML existiert in zwei Varianten - als VRML 1.0 und als VRML 2.0. Die letztere Version
wurde 1997 von der International Organization for Standardization und von der International
Electrotechnical Commission unter den Namen VRML97 als Standard verabschiedet und hat
mittlerweile die ältere Version weitgehend ersetzt.
Die dreidimensionale Szene wird dabei in Form eines Szenengraphen beschrieben, der aus
speziellen sogenannten Knoten besteht. Ähnlich wie HTML-Dateien ist auch das VRML-For-
mat in einer ASCII-Syntax implementiert. Die übertragenen VRML-Daten können entweder
durch Standalone-Programme oder durch spezielle Plugins (vgl. Abschnitt 2.2.2) visualisiert
werden.
18
2.2 Internet-Techniken
Neben der Möglichkeit zur Beschreibung von statischen Objekten, die auch schon in
VRML 1.0 möglich war, erlaubt VRML97 auch ereignisbasierte Dynamik. Durch Annähe-
rungssensoren, Berührungssensoren und zyklischen Zeitsensoren sowie deren Verknüpfung
mit anderen Szenenknoten mittels sogenannte Router können einfache Benutzerinteraktionen
und Animationen realisiert werden. Darüber hinaus können VRML-Skripte in Form von spe-
ziellen Skript-Knoten in die Szene integriert werden. Diese an JavaScript angelehnte Skript-
sprache kann ebenfalls mit den VRML-Knoten verknüpft werden und gestattet somit
beispielsweise die Weiterverarbeitung und Berechnungen von Benutzereingaben.
Im Gegensatz zu anderen Szenengraphenschnittstellen wie zum Beispiel Java3D (vgl.
Abschnitt 2.2.6) ist VRML primär zur reinen Vermittlung von 3D-Information und weniger
zur Programmierbarkeit ausgelegt. Dieses Defizit kann mit Hilfe des External Authoring
Interface (EAI) [35] behoben werden. Mit Hilfe des EAI kann beispielsweise ein Java-
Applet, das mit einem VRML-Plugin in eine HTML-Seite eingebettet ist, direkt den Szenen-
graphen beobachten und manipulieren. Der Einsatz dieser Technik wird in Kapitel 3 beschrie-
ben.
Der Nachfolger von VRML97 wird zur Zeit von einem internationalem Industrieverband,
dem Web3D-Konsortium entwickelt. Diese als X3D (Extensible 3D) bezeichnete Szenenbe-
schreibungssprache basiert dabei auf der Extensible Markup Language (XML). Diese Tech-
nik kam im Rahmen der Arbeit nicht zum Einsatz, da bis dato kein verabschiedeter Standard
dieser Technik verfügbar ist.
2.2.6 Java3D
Die von Sun Microsystems entwickelte high-level Programmierschnittstelle Java3D [36]
ist eine Erweiterung von Java und ermöglicht die Entwicklung von 3D-fähigen Applikationen
und Java-Applets. Die von Java3D dargestellten Szenengraphen basieren dabei direkt auf den
bereits in Abschnitt 2.1.3.2 vorgestellten low-level Graphikschnittstellen OpenGL bzw.
Direct3D/DirectX. Im Gegensatz zu VRML dient Java3D nicht zum Austausch von dreidi-
mensionalen Szenen. Vielmehr erlaubt Java3D die Programmierung von Applikationen zur
dreidimensionalen Darstellung von Information. Der entwickelte Szenengraph kann dabei
über die Java3D API komfortabel und im wesentlich größeren Umfang als bei VRML pro-
grammiert werden.
Das in Kapitel 6 beschriebene InfVis-Programm zum graphischen Datamining basiert auf
der Java3D-Technologie.
19
2 Grundlagen
2.3 Verwendete Programme
Die im Folgenden beschriebenen Programme wurden zur Generierung, Speicherung und
zum Management von chemischen Daten benötigt. Dem offenen chemischen Managementsy-
stem CACTVS kam dabei insbesondere bei der Entwicklung der Internet-Anwendungen eine
zentrale Bedeutung zu.
2.3.1 Das chemische Managementsystem CACTVS
Das Chemical Algorithms Construction, Threading and Verification System, kurz
CACTVS [37, 38] wurde als Server-seitiges Programmsystem bei der Entwicklung der in
Kapitel 3 beschriebenen, Web-Applikationen eingesetzt. Dabei wurde es durch eine Reihe
von Dateileseroutinen und Modulen erweitert, auf deren Implementation ebenfalls in Kapitel
3 genauer eingegangen wird. Dieser Abschnitt soll einen allgemeinen Eindruck von der
Zielsetzung und Architektur dieses offenen Managementsystems vermitteln.
2.3.1.1 Zielsetzung
Chemische Industriefirmen insbesondere im Bereich der Pharmaforschung verwalten
heutzutage Unmengen an experimentellen und berechneten Daten. Die in den Daten
enthaltene Information ist im Gegensatz zu anderen Wissenschaften für die Entwicklung
zukünftiger Produkte von großer Bedeutung. Deshalb muss ein rascher, unkomplizierter und
vollständiger Zugriff auf die Daten sowie eine nachfolgende effiziente Verarbeitung
sichergestellt werden. Im Zeitalter des Intra- und Internets sollte dieser Zugriff darüber hinaus
mit maximaler Flexibilität und minimalen Hemmschwellen bezüglich Formaten, Plattformen
und Betriebssystemen stattfinden können.
Die Realisierung eines solchen Informationssystems stellt sich jedoch als schwierig dar.
Wie bereits erwähnt existiert in der Chemie eine Reihe von typischen Datenobjekten, wie
Spektren, Strukturen, Reaktionen usw. Durch die Entwicklung von computergestützten
Methoden zur Analyse, Berechnung und Weiterverarbeitung dieser Daten, steht dem
Chemiker heute eine fast unüberschaubare Anzahl von Datenbankanwendungen und
Programmen zur Lösung einzelner Problemstellungen zur Auswahl. Aufgrund fehlender
Kompatibilität zwischen den einzelnen Softwarelösungen ist der Datenaustausch und die
Weiterverarbeitung von Information stark eingeschränkt oder überhaupt nicht möglich.
Das CACTVS-Toolkit ist das erste, offene, netzwerkorientierte System, dass die ganze
Bandbreite der chemischen Information mit ihren spezifischen Charakteristika ausdrücken,
verwalten und vermitteln kann. Dabei wurde es vor allem zur Realisierung von drei wichtigen
Einsatzgebieten ausgelegt: zum Rapid Application Development von Chemie-Anwendungen
20
2.3 Verwendete Programme
mit graphischen Nutzerinterface, zur allgemeinen Integration und Management von
chemieorientierten Daten und Rechenverfahren und letztendlich zum sogenannten
chemischen Scripting. Die beiden letzten Einsatzbereiche sind dabei vor allem im Rahmen
dieser Arbeit zum Einsatz gekommen. Dank dieser spezifischen Ausrichtung eignet sich das
CACTVS-System als Bindeglied und zur Kommunikation zwischen einzelnen chemischen
Programmen und Anwendungen. Darüber hinaus erlaubt die flexible, netzwerkorientierte
Architektur von CACTVS auch den Einsatz als Middleware und damit einen einfachen,
browservermittelten Zugriff auf alle erforderlichen Datenobjekte in einem firmeninternen,
standortübergreifenden Intranetsystem.
2.3.1.2 Die Architektur
Um die Funktionsweise des Systems zu verstehen, ist die Vermittlung eines kurzen
Überblicks der CACTVS-Architektur notwendig. Abbildung 2-4 zeigt den schematischen
Aufbau des CACTVS-Programmsystems.
Abb. 2-4: Schematische Darstellung des CACTVS-Programmsystems.
Tool-Definitionen
Eigenschafts-Definitionen
Berechnungs-Skripte
Berechnungs-Module
Quellen vonModulen, Servern,
Erweiterungen
I/O Format-Erweiterungen
Moleküle undberechneteErgebnisse
Darstellungs-Definitionen
Rechner- undDarstellungs-
Server
Dynamische ge-ladene Operatoren
& I/O Module
Kommando-Sprachen-
Erweiterung
Datenformat-Erweiterung
Kern-Bibliothek
Kommandosprachen - Interface
Graphical User Interface
21
2 Grundlagen
Herzstück des Systems ist die CACTVS-Kernbibliothek, welche als flexibler,
objektorientierter Datenmanager fungiert. Der Datenmanager verwaltet dabei einen offenen,
beliebig erweiterbaren Satz von Beschreibungen der Eigenschaften von chemischen Objekten
wie Molekülen, Atomen und Bindungen sowie Methoden, um die zu den Eigenschaften
gehörigen Daten voneinander abzuleiten und zu verknüpfen. Alle Aspekte der Daten-
beschaffung, -management, -analyse, -manipulation und -ausgabe werden durch das
Kernsystem gehandhabt. Die wichtigsten Eigenschaften der Kernbibliothek sowie das
Kommandosprachen-Interface werden im Folgenden näher betrachtet.
Unbegrenzte Datentyp-Erweiterung. Eine generelle Forderung bei der Entwicklung von
CACTVS war die nahezu unbegrenzte Erweiterbarkeit des Systems. Diese Zielsetzung wird
dadurch erreicht, dass jede Form von chemischer Information vollkommen unabhängig von
der Kernbibliothek in externen Eigenschaftsdeskriptoren beschrieben wird. Dabei enthalten
die Eigenschaftsbeschreibungen Daten wie beispielsweise eine ausführliche Beschreibung
des Datentyps, Information über Abhängigkeiten von anderen Eigenschaften, Methoden zur
Informationsgenerierung und Metainformation. Das System verfügt bereits über eine große
Anzahl an implementierten Deskriptoren. Diese Bibliothek lässt sich aber ohne Probleme für
einen bestimmten Datentypen erweitern. Die Implementation (Programmiersprache) und die
Lokalisation (Systempfad) der Deskriptoren ist dabei auch vollkommen offen gestaltet. So
muss beispielsweise ein Deskriptor nicht auf dem gleichen System vorliegen, sondern kann
aus Dateien, aus Datenbanken, aus einem lokalen Netzwerk oder von einem entfernten Server
mittels Internet-Protokolle während der Laufzeit des Programms angefordert werden. Das
System unterstützt darüber hinaus die Speicherung identischer Informationsbeschreibungen,
beispielsweise bei unterschiedlicher Herkunft der Daten, durch Anlegen multipler Instanzen
der Eigenschaftsbeschreibung. Mittels sogenannter "synthetischer" Deskriptoren kann
CACTVS sogar Daten speichern und verwalten, für die zur Laufzeit keine geeigneten
Informationsbeschreibungen vorliegen.
Automatische Lookup- und Generierungs-Mechanismen. Der notwendige Zugriff
seitens der Kernbibliothek auf die externen Eigenschaftsbeschreibungen erfolgt mittels
automatischer Lookup-Mechanismen. Dabei ermittelt das System nicht nur die benötigten
Eigenschaftsdeskriptoren anhand von frei definierbaren Systemvariablen sondern überprüft
darüber hinaus auch die Abhängigkeit zu anderen Eigenschaftsbeschreibungen und veranlasst
die definierte Generierung von chemischen Daten, falls diese nicht vorhanden sind. Dieser
Vorgang läuft für den Benutzer vollkommen transparent ab. Eine detaillierte Beschreibung
dieses Vorgangs wird anhand von einigen Applikationen in Kapitel 3 erläutert.
22
2.3 Verwendete Programme
Automatische Aktualisierung von Eigenschaftswertigkeiten. Durch das Vorliegen von
definierten Abhängigkeiten zwischen verschiedenen Eigenschaftdeskriptoren gewährleistet
das System die Korrektheit der in einer Beschreibung abgelegten Daten. Ändert sich der
Inhalt einer Eigenschaftsbeschreibung zum Beispiel durch Neuberechnung der chemischen
Information, so werden auch alle von diesem Deskriptor abhängigen Eigenschaften neu
berechnet oder gelöscht.
Flexibles I/O-Modell. Neben der Erweiterbarkeit von Modulen zur Datenbeschreibung
kann das System zur Laufzeit auch mit dynamisch ladbaren Modulen zur Behandlung des I/O
von Dateien in verschiedenen Formaten, zur Anbindung an diverse Datenbanken, zur
Implementation von Rechenverfahren (zur automatischen Generierung chemischer
Information), zur Objektdarstellung und Repräsentation oder zur Verwaltung von Datentypen
ergänzt werden.
Very high-level Scripting Language. In den meisten Fällen erfolgt der Zugriff auf die
Kernbibliothek mittels mächtiger Skriptsprachen. Obwohl verschiedene Skriptsprachen zum
Einsatz kommen können, wird in der Praxis derzeit der Industriestandard TCL (Tool
Command Language) [39], das graphische Toolkit Tk sowie einige Erweiterungen
verwendet. Diese Skriptsprache wurde um einen umfangreichen Satz an chemischen Daten-
und Strukturmanipulations-Kommandos ergänzt. Durch das Kommandosprachen-Interface
können alle Objekte innerhalb der Kernbibliothek angesprochen und manipuliert werden.
Das Skriptspracheninterface von CACTVS kann darüber hinaus in Common Gateway
Interface (CGI)-Skripten eingesetzt werden und dient dabei nicht nur zur Kommunikation
zwischen Client und Server, sondern erlaubt gleichzeitig den Zugriff auf die Kernbibliothek.
Somit lassen sich sehr kurze und einfach aufgebaute CGI-Skripte erstellen (vgl. Kapitel 3).
Da die GUI-Applikationen wie beispielsweise der CACTVS-Browser oder der CACTVS-
Editor im Rahmen dieser Arbeit nicht zum Einsatz kamen, soll auf diese Applikationen des
CACTVS-Programmpakets nicht näher eingegangen werden.
2.3.2 Der 3D-Strukturgenerator CORINA
Die Visualisierung dreidimensionaler Datenobjekte der Chemie, erfordert im Regelfall das
Vorliegen von dreidimensionalen Strukturdaten. Die notwendige dreidimensionale
Molekülkonformation wird dabei mit dem im Arbeitskreis Gasteiger entwickelten
Strukturgenerator CORINA [40, 41] berechnet. Aus geschwindigkeitstechnischen Gründen
und zur vereinfachten Generierung der Daten wurde in dieser Arbeit nicht die Standalone-
Version des Strukturgenerators sondern das korrespondierende und im Funktionsumfang
23
2 Grundlagen
identische CACTVS-Modul von CORINA verwendet. Durch diese Architektur konnte der
umständliche Datenaustausch mittels Dateien vermieden werden.
Ein Satz von Regeln, welche aus Erfahrungswerten mit Kraftfeldrechnungen, kristallogra-
phischen Daten und geometrischen Überlegungen erstellt wurden, sowie einige standardi-
sierte Daten wie Bindungslängen, Bindungswinkel und Ringgeometrien dienen als Grundlage
bei der Generierung der dreidimensionalen Struktur. Durch eine möglichst allgemein gehal-
tene Definition dieser Regeln kann das Programm prinzipiell die gesamte strukturelle Vielfalt
der organischen Chemie, sowie große Teile der metallorganischen Komplexe handhaben.
Zur Berechnung der dreidimensionalen Struktur benötigt der Generator eine Konnektivi-
tätstabelle der entsprechenden Verbindung. Während in der Standalone-Version die Eingabe
der Bindungsverhältnisse über chemische Austauschformate wie Sybyl Molfile, MOL oder
SDF erfolgt, kann in der CACTVS-Version die Konnektivitätsinformation direkt an das Modul
übergeben werden. Die Rückgabe der 3D-Daten erfolgt anschließend über die gleichen
Schnittstellen.
Die Generierung erfolgt durch eine Reihe von Einzelschritten. Nachdem in einem ersten
Schritt alle Bindungslängen und Bindungswinkel mit standardisierten Werten belegt wurden,
erfolgt zur weiteren Berechnung die Aufspaltung des Moleküls in cyclische und acyclische
Systeme. Die cyclischen Systeme werden je nach Größe und Eigenschaften unterschiedlich
behandelt. Während kleinere Ringsysteme (bis acht Atome) durch vordefinierte Ring-
schablonen beschrieben werden, wird zur Ermittlung der Superstrukturen von großen Ringsy-
stemen auf regelbasierte Methoden zurückgegriffen. Acyclische Molekülteile werden mit der
Methode des längsten Pfades analysiert. Dabei werden die offenkettigen Fragmente entlang
der längsten Kette durch anti-Stellung aller frei drehbaren Torsionen gestreckt. In einem
abschließenden Schritt werden die cyclischen und acyclischen Fragmente kombiniert, wobei
das System hinsichtlich möglicher Atomüberlagerungen oder zu kurzer Atomabstände über-
prüft wird. Mögliche Konflikte werden dabei durch eine eingeschränkte Konformationsana-
lyse gelöst.
2.3.3 Das semiempirische MO-Programm VAMP
Neben der dreidimensionalen Struktur setzen einige der in dieser Arbeit beschriebenen
Applikationen auch quantenchemisch berechnete Daten wie Orbitalkoeffizienten oder Spek-
trendaten voraus. Zur Generierung dieser Daten wurde das semiempirische Molecular Orbital
Package VAMP [42] eingesetzt. Um den Datenaustausch mit diesem Programmpaket zu
erleichtern, wurden im Rahmen dieser Arbeit einige CACTVS-basierte Leseroutinen und
Eigenschaftsdeskriptoren für VAMP entwickelt.
24
2.3 Verwendete Programme
VAMP wurde 1983 zunächst als vektorisierte Version von AMPAC im Arbeitskreis Clark
entwickelt. Mittlerweile hat sich VAMP zu einem vollkommen eigenständigen, zu AMPAC
und MOPAC Input-kompatiblen, semiempirischen Molecular Orbital Package entwickelt.
Das Natural Atomic Orbital / Point Charge (NAO-PC) Modell zur Berechnung von mole-
kularen, elektrostatischen Eigenschaften ist in VAMP implementiert und steht für die Stan-
dard-Hamiltonian-Methoden MNDO, AM1 und PM3 zur Verfügung. Diese Funktionalität
wurde unter anderen von der MolSurf-Applikation (vgl. Abschnitt 4.1.5) in Anspruch genom-
men.
Darüber hinaus wurden zum Teil auch die in VAMP implementierten Methoden zur Geo-
metrie-Optimierung genutzt, wobei in der Regel mit CORINA generierte 3D-Koordinaten als
Eingabe dienten.
VAMP verfügt darüber hinaus über eine ganze Reihe von weiteren Funktionalitäten, die im
Rahmen dieser Arbeit nicht zum Einsatz kamen und daher an dieser Stelle unerwähnt bleiben.
25
2 Grundlagen
26
Kapitel 3
Visualisierung chemischer Datenobjekte
Im vorausgehenden Kapitel wurden die allgemeinen Grundlagen der dreidimensionalen
Visualisierung vermittelt. Dieses Kapitel widmet sich speziell der Darstellung chemischer
Datenobjekte, wobei vor allem die portablen Ansätze zur Visualisierung chemischer Informa-
tion im Vordergrund stehen. Nach einem kurzen Rückblick auf die historische Entwicklung
molekularer 3D-Modelle werden die wichtigsten chemischen Darstellungsformen wie bei-
spielsweise Strukturmodelle oder Modelle zur Visualisierung molekularer Oberflächen und
Eigenschaften beschrieben.
Der zweite Teil beschreibt die Bedeutung des Internets innerhalb der Chemie sowie die
rasante Entwicklung chemischer, Internet-Applikationen. Dabei stehen auch hier vor allem
die portablen Visualisierungsanwendungen im Vordergrund.
Schließlich werden die drei grundsätzlichen, Client-Server-basierten Ansätze zur Vermitt-
lung und Visualisierung chemischer Daten erläutert. Dabei wird vor allem der im Rahmen
dieser Arbeit zum Einsatz gekommene Graphiktransferansatz näher beschrieben.
3.1 Molekulare Modelle und ihre Repräsentation
3.1.1 Ein historischer Rückblick
Das menschliche Gehirn kann räumliche Beziehungen wie Abstände und Winkel wesent-
lich besser erfassen, wenn diese Information nicht als tabellarische Listen numerischer Daten
vorliegt, sondern in Form von graphischen Modellen dargestellt wird. Seit fast einem halben
Jahrhundert repräsentieren Chemiker deshalb molekulare Information in Form von Molekül-
modellen. Vor der Einführung des Computers wurden molekulare Modelle in mühevoller und
zeitaufwendiger Handarbeit aus Holz, Papier, Draht, Gummi, Plastik und auch anderen Mate-
rialien gefertigt. So modellierten beispielsweise Kendrew et al. 1958 das erste Messingmo-
dell einer durch Röntgenkristallographie ermittelten Myoglobinstruktur [43]. In den darauf
folgenden Jahren wurde eine Reihe weiterer Modelle entwickelt, von denen die von Byron
27
3 Visualisierung chemischer Datenobjekte
Rubin entwickelten Byrons’s Bender am häufigsten verbreitet waren [44]. Diese Drahtmo-
delle repräsentierten das Backbone von Proteinstrukturen. Der wissenschaftliche Nutzen die-
ser Modelle zeigte sich nicht zuletzt bei einem wissenschaftlichen Treffen in den Siebziger-
Jahren als der Vergleich zweier mit Byron’s Bender-Modellen dargestellter Proteine das erste
Indiz für die Existenz von Superfamilienstukturen lieferte [45].
Trotz der vielen Vorteile zeigten die physischen Modelle auch gravierende Mängel und
Schwächen. Mit zunehmender Größe der dargestellten Strukturen erwiesen sich die Modelle
als zunehmend unhandlicher und komplizierter im Aufbau. Darüber hinaus war die Ermitt-
lung von Messgrößen wie Atomabstände und Atomwinkel sehr schwierig bis unmöglich.
Durch die Entwicklung erster Computersysteme standen auch auf dem Gebiet des Molecu-
lar Modellings neue Wege zur Repräsentation struktureller Daten zur Verfügung. Dies war der
Beginn der interaktiven molekularen Graphik. Die ersten dynamischen Molekülbilder wurden
dabei 1964 von Levinthal im Projekt MAC am Electronic Systems Laboratory des Massachu-
setts Institute of Technology generiert [46, 47]. Die Moleküle wurden dabei auf einem selbst-
gebauten Display in Form von Linienzeichnungen dargestellt. Darüber hinaus besaß das
System diverse Peripheriegeräte, die eine Modifikation der dargestellten Szene erlaubten. Das
Kernstück war jedoch der sogenannte Crystal Ball, mit dem das Molekül um alle drei ortho-
gonalen Achsen gedreht werden konnte. Die Kosten für dieses prototypische System waren
mit 2.000.000 US Dollar entsprechend hoch.
Während das MAC-System nicht nur zur Visualisierung von Molekülen entwickelt wurde,
folgten in den darauf folgenden Jahren die ersten reinen Molecular Graphics-Systeme. Eines
der ersten Systeme wurde 1970 von Langridge an der Princeton University
aufgebaut [48, 49]. Das System basierte auf dem Picture System 2 von Evans & Sutherland
und konnte neben den Bindungen auch farbige Atome anzeigen.
Ein weiterer Meilenstein gelang Richardson et al. im Jahre 1977. Sie waren erstmals in der
Lage eine komplette durch Röntgenkristallographie ermittelte Proteinstruktur zu
visualisieren [50]. Eine Vielzahl von weiteren Strukturen folgte in den kommenden Jahren.
Neben der ansteigenden Zahl an visualisierten Strukturen, nahmen auch die graphischen
Fähigkeiten der Computersysteme zu. Durch Einführung der Rastergraphik (1974) und kurz
darauf der farbfähigen Rastergraphik (1979) waren jetzt auch andere molekulare Repräsenta-
tionen möglich [51-53]. Neben der Darstellung von CPK-Modellen (vgl. Abschnitt 3.1.2.3)
konnten man nun auch farbcodierte Bindungen und molekulare Oberflächen visualisieren.
28
3.1 Molekulare Modelle und ihre Repräsentation
Die Ära der Evans & Southerland Computersysteme endete in der ersten Hälfte der Acht-
ziger Jahre mit der Einführung der leistungsstärkeren und kostengünstigeren Workstations.
Trotz fortlaufender Fortschritte in der Computergraphik und bei den Rechenleistungen
bestimmen sie noch heute den Alltag im Molecular Modelling.
Durch die rasante Entwicklung der 3D-Fähigkeiten von low-budget Graphikkarten inner-
halb der letzten Jahre ist eine Hochleistungsvisualisierung von Molekülmodellen jetzt auch
auf PC-Systemen möglich geworden. Einige der bis dato nur für Workstation-Plattformen
erhältlichen Molecular Modelling-Programme werden mittlerweile auch als PC-basierte Ver-
sionen angeboten [54]. Die in dieser Arbeit vorgestellten Entwicklungen basieren ebenfalls
auf dieser neuen Technologieform.
3.1.2 Struktur-Modelle
3.1.2.1 Wireframe-Modell
Das bekannteste und zugleich älteste, computergestützte Modell zur Repräsentation mole-
kularer Strukturen ist das Wireframe-Modell (Abbildung 3-1b). Dieses Modell ist auch unter
anderen Namen wie beispielsweise Linienmodell oder Dreiding-Modell bekannt [55]. Dabei
werden die Bindungen eines Moleküls durch farbcodierte Vektorlinien repräsentiert. Die
Atome können mit dieser Methode nicht direkt angezeigt werden, sondern müssen aus den
End- und Verzweigungspunkten des Linienmodells abgeleitet werden. Die Farbcodierung der
Bindungen beruht im Allgemeinen auf der Art der Atomtypen oder des Bindungstyps. Dar-
über hinaus kann die Bindungsordnung durch die Anzahl der Linien zwischen zwei Atomen
ausgedrückt werden.
3.1.2.2 Ball & Stick-Modell
Eine für das menschliche Auge angenehmere Repräsentation stellt das Ball & Stick-Modell
dar (Abbildung 3-1a). Im Gegensatz zum Wireframe-Modell werden hier Atome in Form von
Kugeln und Bindungen in Form von Zylindern dargestellt. Die Größe und Farbe der Kugeln
wird im Allgemeinen dazu benutzt um atomare Eigenschaften wir Atomradien, -typen und
-ladungen darzustellen. Wie im Wireframe-Modell können die Bindungszylinder in Farbge-
bung und/oder Anzahl variieren, um Bindungstypen oder atomare Eigenschaften auszudrük-
ken. Der entscheidende Vorteil dieser Repräsentation basiert jedoch auf einer wesentlich
besseren räumlichen Darstellung. Vom Benutzer weiter entfernte Teile des Moleküls können
besser identifiziert werden, da sie durch Atome und Bindungen, die näher zum Betrachter
ausgerichtet sind, verdeckt werden. Dieser Eindruck wird durch den Einsatz von Techniken
wie dem Gouraud-Shading [56] noch verstärkt.
29
3 Visualisierung chemischer Datenobjekte
Abb. 3-1: Strukturdarstellungen von 3,5-Diaminophenol (generiert mit VRML File Creator (vgl. Abschnitt 4.1.2)): a) Ball & Stick-Repräsentation, b) Wireframe-Repräsentation, c) CPK-Modell, d) Capped-Darstellung (Farbabbildung: Anhang A, Abbildung A-1).
3.1.2.3 Space filling-Modell
Das von Corey, Pauling und Koltun entwickelte Space-filling-Modell ist besser unter dem
Namen CPK-Modell bekannt [53] (Abbildung 3-1c). Wie in der Ball & Stick-Repräsenta-
tion werden die Atome in Form von Kugeln ausgedrückt. Da die Kugelradien den korrespon-
dierenden van der Waals-Radien entsprechen und sich im Allgemeinen überschneiden kann
auf die Repräsentation der Bindungen verzichtet werden. Das CPK-Modell ist im Gegensatz
zu den anderen Modellen in der Lage, einen ersten Eindruck von den räumlichen Ausmaßen
einer Struktur zu vermitteln.
3.1.2.4 Capped Sticks-Modell
Das Capped Sticks-Modell kann als gegensätzliches Modell zum Space filling-Modell
angesehen werden, da die molekulare Struktur nur durch die Bindungszylinder repräsentiert
wird (Abbildung 3-1d). Die Kugeln sind auf die Größe der Zylinderdurchmesser zusammen-
geschrumpft und dienen lediglich zum Glätten der Zylinderenden. Analog zum Ball & Stick-
Modell vermittelt auch das Capped Sticks-Modell einen verbesserten räumlichen Eindruck
im Vergleich zum Wireframe-Modell.
30
3.1 Molekulare Modelle und ihre Repräsentation
3.1.2.5 Modelle für biologische Makromoleküle
Die Visualisierung biologischer Makromoleküle, die aus Hunderten oder Tausenden von
Atomen bestehen, ist mit Hilfe der bereits beschriebenen Molekülmodelle nur bedingt mög-
lich. Zum einen werden diese Modelle ab einigen Hundert Atomen sehr schnell unübersicht-
lich und zum anderen sind die erforderlichen Rechenleistungen zur interaktiven
Visualisierung solcher Modelle zu hoch. Zur Lösung dieser Problematik wurden einige ver-
einfachte Molekülmodelle entwickelt, die in erster Linie zur Darstellung der Sekundärstruk-
tur von Proteinen dienen [57].
Cylinder-Modell. Das Cylinder-Modell wird zur Kennzeichnung von Helices in Protein-
strukturen verwendet.
Ribbon-Modell. Während helikale Sekundärstrukturen mit der Cylinder-Darstellung
repräsentiert werden, hat sich zur Visualisierung von Faltblattstrukturen das Ribbon-Modell
etabliert. Ribbon-Modelle ähneln in ihrem Aussehen flachen Bändern. Die Oberseite dieser
Bänder ist dabei parallel zur Peptidbindung ausgerichtet. In weiterentwickelten Repräsenta-
tionen werden die flachen Bänder durch flache Pfeilstukturen ersetzt.
Tube-Modell. Die Tube-Struktur besteht aus kleinen röhrenförmigen Gebilden, die zur
Darstellung von sogenannten coils und turns verwendet wird.
3.1.2.6 Kristallographische Modelle
Anorganische Verbindungen können häufig ebenfalls nicht mit den allgemeinen Struktur-
modellen dargestellt werden, da sie auf komplexen Kristallstrukturen (Raumgruppen), Aggre-
gaten oder Metallgittern basieren. Diese Verbindungen werden daher durch individuelle
Polyeder wie beispielsweise Oktaeder und Tetraeder dargestellt.
3.1.3 Molekulare Oberflächen
Zum Verständnis der diversen molekularen Wechselwirkungen reicht eine Betrachtung der
Strukturdaten alleine nicht aus. Vielmehr muss dazu die räumliche Gestalt bzw. Hülle des
Moleküls betrachtet werden. Die erste Definition einer solchen molekularen Hülle geht dabei
auf Richards [58] zurück, der die molekulare Oberfläche als eine wasserzugängliche Hülle
beschrieb. Darüber hinaus kann die molekulare Oberfläche aber auch in Abhängigkeit von
der elektronischen Dichte betrachtet werden. Die Repräsentation der molekularen Oberflä-
chen erfolgt dabei in der Regel in Form von Punktwolken, Gitternetzen (Meshes oder Chik-
ken-Wire) oder soliden Hüllen, deren Transparenz beliebig variiert werden kann
(Abbildung 3-2).
31
3 Visualisierung chemischer Datenobjekte
Abb. 3-2: SES-Oberflächendarstellungen von Trinitrotoluol (generiert mit MolSurf (vgl. Abschnitt 4.1.5)): a) Semitransparente Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation (Farbabbildung: Anhang A, Abbildung A-6a-c).
Die folgenden Modelle beschreiben im Detail die verschiedenen Definitionen von moleku-
laren Oberflächen.
3.1.3.1 Van der Waals-Oberfläche
Die van der Waals-Oberfläche, die Solvent Accessible Surface (vgl. Abschnitt 3.1.3.3)
und die Connolly-Oberfläche (vgl. Abschnitt 3.1.3.2) basieren auf der Definition von
Richards. Die van der Waals-Oberfläche stellt dabei den einfachsten Vertreter dieser Ober-
flächen dar. Im Prinzip wird dabei die Oberfläche des CPK-Modells (vgl. Abschnitt 3.1.2.3)
betrachtet, die sich durch Aufaddieren der einzelnen Atomsphären ergibt. Die
van der Waals-Oberfläche stellt auch aus der Sicht der computergestützten Methoden die
einfachste Oberflächenform dar, da sie sehr einfach zu generieren ist.
3.1.3.2 Connolly-Surface
Die Connolly-Oberfläche [59, 60] zeichnet sich im Gegensatz zur van der Waals-Ober-
fläche durch eine ebenmäßigere Oberflächenstruktur aus. Die spitzen Übergänge zwischen
den einzelnen Atomradien werden vermieden, indem man eine Kugel mit definiertem Radius
(schematisch Darstellung des Lösungsmittels) über die CPK-Oberfläche rollt. Der Radius
dieser Sphäre entspricht dabei im Allgemeinem dem effektiven Kugelradius des Wassermole-
küls (1,4 Å). Die resultierende Oberfläche setzt sich dabei aus zwei Oberflächenarten zusam-
men: a) dem Teil der van der Waals-Oberfläche, der im direkten Kontakt zum Lösungsmittel
(Kugel) steht und b) dem Teil der Lösungsmittel-Sphäre, der beim Kontakt mit zwei oder drei
Atomen der Struktur vorliegt. Connolly-Oberflächen werden heute standardmäßig im
Molecular Modelling eingesetzt, da sie den quantitativen und qualitativen Vergleich von ver-
schiedenen Molekülen zulassen.
32
3.1 Molekulare Modelle und ihre Repräsentation
3.1.3.3 Solvent Accessible Surface (SAS)
Unter den Solvent Accessible Surfaces versteht man im Allgemeinen eine bestimmte
Klasse von Oberflächen, zu denen auch die Connolly-Oberfläche zählt. Darüber hinaus steht
die Bezeichnung Solvent Accessible Surface auch für ein ganz bestimmtes, eigenständiges
Modell einer Oberfläche. Dieses Oberflächenmodell geht dabei auf die Arbeiten von Lee und
Richards zurück [61]. Während im Connolly-Verfahren die Kontaktflächen als Grundlage für
die molekulare Oberfläche dienen, bestimmt im SAS-Verfahren das Zentrum der Lösungsmit-
telkugel die Gestalt der molekularen Oberfläche. Zum einen ist die Ausdehnung der resultie-
renden Oberfläche größer, zum anderen treten die Übergänge zwischen den einzelnen
Atomen deutlicher hervor.
3.1.3.4 Solvent Excluded Surface (SES)
Oberflächen großer Moleküle wie beispielsweise Proteinen können mittels der beschriebe-
nen Methoden nicht mehr effektiv berechnet und dargestellt werden. Zur Darstellung der
Oberfläche greift man daher auf weniger rechenintensive, harmonische Näherungsmethoden
wie dem Solvent Excluded Surface-Ansatz zurück [62].
3.1.3.5 Bindungstaschen-Oberflächen
Diese molekulare Oberfläche leitet sich nicht wie in den anderen Fällen von der strukturel-
len Information eines Moleküls ab, sondern repräsentiert die Form der Active Site eines Prote-
ins, die einen Liganden umgibt. Diese Repräsentionsform wird daher vor allem im
Wirkstoffdesign eingesetzt, um die Volumen von Bindungstaschen oder molekulare Wechsel-
wirkungsschichten darzustellen [63].
3.1.3.6 Isowert-basierte Elektronendichte-Oberflächen
Neben den vom CPK-Modell abgeleiteten Oberflächenbeschreibungen hat sich ein weite-
res Modell zur Generierung molekularer Oberflächen etabliert. Grundlage dieses Modells ist
die molekulare Elektronendichteverteilung. Durch Definition eines Grenzwertes für die Elek-
tronendichte, dem sogenannten Isowert, ergibt sich eine Grenzschicht (Isofläche) [64]. Jeder
Punkt auf dieser Oberfläche hat daher den gleichen Elektronendichtewert. Ein typischer Stan-
dardwert für die Elektronendichte zur Repräsentation solcher Oberflächen liegt bei
0.002 Atomeinheiten.
Isowert-basierte Oberflächen kommen aber auch zur Repräsentation von Molekülorbitalen
zum Einsatz (vgl. Abschnitt 3.1.4.1).
33
3 Visualisierung chemischer Datenobjekte
3.1.3.7 Experimentell ermittelte Oberflächen
Eine vollkommen neue Möglichkeit zur Gewinnung von Oberflächen hat sich in den letz-
ten Jahren durch enorme Fortschritte in der Elektronenmikroskopie ergeben. Im Gegensatz zu
den oben beschriebenen Modellen, die durch Berechnungen ermittelt wurden, können mit
Hilfe von neuen Technologien wie der Cryo-Elektronenmikroskopie molekulare Oberflächen
auch experimentell ermittelt werden [65]. Die Moleküloberfläche ist dabei durch die Auflö-
sung des experimentellen Ansatzes limitiert. Aktuelle Verfahren liefern mittlerweile Auflö-
sungen von ca. 10 Å was somit die Visualisierung von Proteinstrukturen und Sekundär-
strukturelementen ermöglicht [66]. Der Vorteil dieser Methodik beruht auf der Möglichkeit,
molekulare Strukturen von nativen Makromolekülen zu beobachten.
3.1.4 Molekulare Eigenschaften
Die Kenntnis der räumlichen Gestalt eines Moleküls reicht im Allgemeinen nicht aus, um
komplexe, molekulare Wechselwirkungen zu verstehen. Vielmehr müssen molekulare Eigen-
schaften wie beispielsweise das elektrostatische Potential, hydrophile Eigenschaften oder
auch Fähigkeiten zur Ausbildung von Wasserstoffbrücken mit in die Betrachtung einbezogen
werden. Dabei kann zwischen drei Eigenschaftskategorien unterschieden werden.
3.1.4.1 Molekülorbitale (Isowert-basierte Eigenschaften)
Ob Molekülorbitale zu der Klasse der molekularen Oberflächen oder doch eher zu den
molekularen Eigenschaften zu zählen sind, ist in der Wissenschaft nicht unumstritten. Unbe-
stritten ist jedoch, dass die Kenntnis von Molekülorbitalen insbesondere des HOMO (highest
occupied molecular orbital) und LUMO (lowest unoccupied molecular orbital) wichtige
Hinweise für ein besseres Verständnis von Reaktionen vermitteln kann.
Darüber hinaus waren Molekülorbitale auch die ersten elektronischen Eigenschaften, die
mit Hilfe einfacher Graphikhardware visualisiert wurden. Der Grund für diese frühe, graphi-
sche Repräsentation beruht auf der theoretischen Natur der Quantenchemie. Die schwer
zugänglichen Grundlagen können mit Hilfe der graphischen Darstellung wesentlich schneller
erfasst und verstanden werden als durch eine Sammlung numerischer Orbitalkoeffizienten.
Die durch semi-empirische oder ab initio Verfahren generierten Molekülorbitale werden ana-
log zu den bereits in Abschnitt 3.1.3.6 beschriebenen Elektronendichte-Oberflächen durch
Isoflächen dargestellt. Orbitalanteile, die auf unterschiedlichen Vorzeichen der Wellenfunk-
tion basieren, werden dabei häufig durch unterschiedliche Farben (beispielsweise rot und
blau) repräsentiert.
34
3.1 Molekulare Modelle und ihre Repräsentation
Neben den Molekülorbitalen können auch andere molekulare Eigenschaften wie das elek-
trostatische Potential oder die Spindichte mit Hilfe von Isowert-Oberflächen dargestellt wer-
den. Im Regelfall werden diese skalaren Eigenschaften aber auf die in Abschnitt 3.1.3
beschriebenen Oberflächen abgebildet.
3.1.4.2 Skalare Eigenschaften
Skalare Eigenschaften wie das elektrostatische Potential werden in der Regel durch Abbil-
dung auf molekulare Oberflächen dargestellt. Diese Form einer höherdimensionalen Reprä-
sentation erlaubt eine schnelle und einfache Identifikation relevanter Molekülregionen, die
durch die Betrachtung reiner Strukturdaten nicht problemlos möglich wäre.
Aus Sicht der Computergraphik sind dabei zwei grundsätzliche Ansätze zum Abbilden von
Eigenschaften auf molekulare Oberflächen denkbar. Im ersten Fall wird den einzelnen Gitter-
netzpunkten der Oberfläche ein entsprechender Farbwert zugewiesen. Durch eine nachfol-
gende Interpolation der Farbwerte beim Verbinden der Gitterpunkte zu Linien (Chicken Wire)
oder Flächen (Solid Sphere) ergibt sich eine Oberfläche mit einem kontinuierlichen
Farbverlauf [56]. Alternativ zu diesem Ansatz können auch farbige Texturen auf der Oberflä-
che abgebildet werden [67, 68].
Im Folgenden werden die wichtigsten Vertreter diese Eigenschaftsklasse kurz vorgestellt.
Elektrostatisches Potential. Das molekulare elektrostatische Potential (MEP) wurde als
erstes von Bonaccorsi et al. [69] definiert und ist unbestritten die wichtigste und meistge-
nutzte Eigenschaft. Mit Hilfe des elektrostatischen Potentials lassen sich leicht molekulare
Regionen ermitteln, die für die Reaktivität einer Verbindung eine große Bedeutung haben.
Darüber hinaus spielt das MEP auch bei der Bildung von Protein-Ligand-Komplexen eine
entscheidende Rolle. Für weitergehende Information zum elektrostatischen Potential wird der
Übersichtsartikel von Murray und Politzer in der Encyclopedia of Computational Chemistry
empfohlen [70].
Polarisierbarkeit und Hydrophobizität. Diese Eigenschaften spielen ebenfalls eine rele-
vante Rolle bei der Betrachtung molekularer Wechselwirkungen. Im Gegensatz zum elektro-
statischen Potential kommen diese Eigenschaften jedoch erst bei kleinen Abständen zwischen
interagierenden Molekülregionen zum Tragen.
Spindichte. Die Spindichte ist vor allem für die Betrachtung von Radikalen von Bedeu-
tung, da durch die Visualisierung dieser Eigenschaft ungepaarte Elektronen schnell lokalisiert
werden können.
35
3 Visualisierung chemischer Datenobjekte
3.1.4.3 Vektorielle Eigenschaften
Das Abbilden molekularer Eigenschaften auf Moleküloberflächen ist nur im Fall von ska-
larfeldbasierten Werten möglich. Für die Visualisierung vektorieller Eigenschaften wie bei-
spielsweise dem elektrischen Feld eines Moleküls oder der potentiellen Ausrichtung einer
Wasserstoffbrücken-Bindung müssen alternative Darstellungsverfahren angewendet werden.
Gerichtete Eigenschaften werden dabei in der Regel durch räumliche ausgerichtete Kegel
oder durch Feldlinien repräsentiert.
3.1.4.4 Volumetrische Eigenschaften
Die Visualisierung volumetrischer Eigenschaften spielt vor allem in anderen wissenschaft-
lichen Disziplinen wie der Medizin (z.B. Computertomographie) oder der Geologie (z.B.
Konvektionsströme) eine bedeutende Rolle. Allerdings finden sich auch in der Chemie einige
Anwendungsgebiete für diese Eigenschaften. Stellvertretend für diese Klasse von Eigenschaf-
ten sei hier nur die Wasserdichteverteilung bei Moleküldynamiksimulationen erwähnt. Die
computergestützte Visualisierung dieser Eigenschaften wird im Allgemeinen durch zwei-
oder dreidimensionale Texturen realisiert [68].
3.1.5 Animationen
Obwohl Animationen keine eigenständige Molekülmodellklasse darstellen, kommt dieser
Repräsentationsform eine hohe Bedeutung bei der Interpretation dynamischer Prozesse zu.
Animationen werden dabei nicht nur in forschungsorientierten Bereichen standardmäßig ein-
gesetzt, sondern haben sich darüber hinaus auch als exzellente Werkzeuge in der chemischen
Ausbildung erwiesen. Insbesondere Schwingungsmoden, Molecular Docking-Experimente,
Molekulardynamik-Simulationen, Reaktionsvorgänge und Energieminimierungspfade kön-
nen mit Hilfe von Animation anschaulich dargestellt werden.
3.2 Internetbasierte Applikationen in der Chemie
Neben der bereits beschriebenen Tragweite der graphischen Datenverarbeitung hat noch
eine andere computergestützte Technologie den chemischen Alltag in Forschung und Lehre
nachhaltig beeinflusst – das Internet.
3.2.1 Die frühen Jahre: 1970 - 1993
Das Internet hat vor allem in den letzten Jahren einen enormen Zuwachs in seiner Größe
und Bedeutung erfahren. Dabei ist es auch für Chemiker zu einem wichtigen Medium zur
36
3.2 Internetbasierte Applikationen in der Chemie
Kommunikation und zum Austausch chemischer Information jeglicher Art geworden. Dies
war jedoch nicht immer der Fall. Obwohl das Internet bereits 1969 als militärisches Netzwerk
(ARPANET) gegründet und kurze Zeit später für die akademische und kommerzielle Nutzung
zugänglich wurde, war es bis 1993/94 nur einem kleinen Kreis von Chemikern bekannt. Dar-
über hinaus wurde der Nutzen dieses neuen Mediums von vielen Naturwissenschaftlern nicht
erkannt.
Trotz des geringen Bekanntheitsgrades wurde das Internet in den ersten Jahren insbeson-
dere von theoretischen Chemikern und sogenannten Computational Chemists in Anspruch
genommen. Zu dieser Zeit beschränkte sich die Nutzung noch auf den durch FTP-Server ver-
mittelten Austausch von Programmen, Daten und Dokumenten. Des Weiteren wurde 1984
vom STN-Konsortium der erste Online-Zugang zu einem der bedeutesten Chemieinformati-
onsreservoire – den Chemical Abstract Service – angeboten. Neben diesen Angeboten wurde
aber vor allem die eMail-Technologie zur weltweiten, wissenschaftlichen Kommunikation
genutzt.
Eine teilweise breitere Beachtung in der chemischen Gemeinschaft fand das Internet mit
der Einführung des MIME-Standards (vgl. Abschnitt 2.2.1) im Jahre 1993 [31] und der Spe-
zifikation chemischer MIME-Typen im darauf folgenden Jahr [6]. Diese Erweiterung
erlaubte erstmals eine inhaltsbezogene Übermittlung und automatisierte Client-seitige Verar-
beitung chemischer Daten.
Die Kombination dieser zunächst für die eMail-Technologie entwickelten Erweiterung mit
dem neuen Kommunikationsmedium World Wide Web (WWW) bildete schließlich die tech-
nische Basis für die nachfolgende, explosionsartige Nutzung des Internets. Das
World Wide Web wurde dabei zunächst im CERN in Genf als in-house System zur effekti-
ven und kostengünstigen Kommunikation zwischen Physikern auf der ganzen Welt entwik-
kelt und trat seinen Siegeszug mit der Verfügbarkeit von WWW-Clients, den sogenannten
Browsern, an.
3.2.2 Vom Durchbruch bis zum Stand der Technik
Die Gründe für den enormen Erfolg des Internets in der Chemie sind vielfältig, können
aber vor allem auf die für chemische Daten ungünstigen Limitierungen des papierbasierten
Druckmediums zurückgeführt werden. Mit Hilfe des WWW war es nun erstmals möglich
auch andere, nicht-textuelle aber dennoch für die Chemie relevante Datentypen einer breiten
Nutzerschaft zur Verfügung zu stellen. Darüber hinaus spielten hierbei auch andere Faktoren
wie Zeit, Qualität und Weiterverarbeitungsmöglichkeit eine entscheidende Rolle. So waren
zum Beispiel auf dem herkömmlichen Wege publizierte Daten an ihrem Erscheinungstag
37
3 Visualisierung chemischer Datenobjekte
bereits veraltet und überholt. Durch den langen Publikationsweg gingen im Regelfall auch
immer wieder Originaldaten verloren. Zum einen konnten Originaldaten aus Platzgründen
nicht mit in einer Publikation mit aufgenommen werden. Somit war eine vorherige Reduktion
der Daten nötig, was durch Analyse- und Interpretationsschritte erreicht wurde. Die Konse-
quenz dieses Vorgangs war eine erschwerte Weiterverarbeitung der publizierten Daten. Ein
weiteres Problem, das zum Verlust von Originaldaten führte, war der Umstand, dass es wäh-
rend des Publikationsprozesses immer wieder zu Transkriptionsfehlern kam, die in letzter
Konsequenz die veröffentlichten Daten unbrauchbar machten. Das World Wide Web war
und ist ein Medium, das diese Probleme löste.
Während sich die ersten chemisch orientierten HTML (Hyper Text Markup Language)-
Seiten noch auf textuelle und bildliche Darstellungen beschränkten, folgten bald auch Weban-
gebote, die den Austausch und die Weiterverarbeitung von chemischen Daten wie dem Pro-
teindatenbankformat (PDB) [71] oder dem MDL Molfile Format [72] erlaubten. Dabei
wurde mit Hilfe von Hyperlinks eine Verknüpfung zu einem chemischen Austauschformat in
einer HTML-Seite eingebettet. Beim Anklicken dieses Links wurde dann die MIME-codierte
Datei an den Client gesendet. Bei entsprechender Konfiguration des Clients wurde anschlie-
ßend ein Hilfsprogramm gestartet, das die Bearbeitung oder die Visualisierung der Daten
gestattete. Erste, auf diesem Prinzip beruhende Arbeiten wurden 1994 von Henry Rzepa und
Mitarbeitern präsentiert [3, 6]. Die Visualisierung der Moleküldaten wurde dabei durch platt-
formabhängige Programme wie beispielsweise XMol [73], EyeChem [74] oder RasMol [19]
bewerkstelligt, wobei RasMol zwischen 1994 und 1995 den Stellenwert eines de-facto Stan-
dards einnahm.
Eine weiterentwickelte Form dieses Datenaustausches war durch die Entwicklung der
Chemical Structure Markup Language (CSML) möglich [3]. Dabei wurden zunächst eine
PDB-Datei wie beschrieben an den Client übermittelt und mit RasMol visualisiert. Die Web-
seite enthielt darüber hinaus jedoch auch eine GIF-Datei, in der verschiedene Bereiche mit
Hyperlinks verknüpft waren (image map). Durch Auswahl eines bestimmten Bereiches wurde
eine sogenannte CSML-Datei an den Client übermittelt. Bei den gesendeten Daten handelte
es sich um RasMol-Skriptanweisungen, die mit Hilfe eines Skriptprogramms an RasMol wei-
tergeleitet wurden und somit zusätzliche Darstellungsmöglichkeiten erlaubten. Diese Technik
wurde unter anderem dazu genutzt, um NMR-Daten und metabolische Pfade zu visualisieren.
Ein Nachteil dieser Technik war jedoch die Limitierung auf UNIX-basierte Systeme.
Ein weiteres UNIX-abhängiges System basierte auf der EyeChem-Umgebung. EyeChem
war eine modulare Erweiterung des IRIS Explorers und erlaubte die Betrachtung und Manipu-
lation einer chemischen Szene von mehreren Workstations aus. Durch Entwicklung spezieller
Module und Nutzung des Web-Browser Mosaic sowie dem integriertem Common Client
38
3.2 Internetbasierte Applikationen in der Chemie
Interface (CCI) war eine WWW-basierte Kommunikation zwischen entfernten EyeChem-
Applikationen möglich [75]. Dieser Ansatz realisierte somit die erste Form eines webfähi-
gen, chemischen Expertensystems.
Während die oben genannten Ansätze das Vorhandensein und Starten von Browser-
externen Applikationen erforderten, wurde mit Einführung der Netscape-Plugin-Technologie
im Jahre 1995 nun auch die Einbettung von Hilfsprogrammen in das Browserfenster möglich.
Das erste chemische Plugin namens Chime wurde dabei von der Firma MDL im Rahmen ihres
Softwarepakets Chemscape entwickelt [32]. Das auf RasMol aufbauende Plugin beherrscht
die wichtigsten Strukturdarstellungsformen und ist auch in der Lage Oberflächen sowie
einfache Animationen zu repräsentieren. Darüber hinaus wurde das Plugin in den letzten
Jahren mit einer Reihe an zusätzlichen Funktionalitäten wie beispielsweise einer
weiterentwickelten Skriptfunktion ausgerüstet. Chime hat sich bis heute als wichtigstes
Visualisierungsplugin behauptet und bot auch die Grundlage für fortgeschrittene
Applikationen wie dem Protein-Explorer [76]. Neben Chime wurden bis heute eine ganze
Reihe weiterer Plugins entwickelt. Stellvertretend sollen hier nur das JCAMP-DX-
Plugin [77] zur Darstellung von Spektren, das ChemDraw/Chem3D Net-Plugin von
CambridgeSoft [78] und das WebLab-Plugin [79] zur Darstellung von Eigenschaften und
Polymeren genannt werden. Die Kombination von Plugins wie beispielsweise von Chime und
JCAMP-DX-Plugin zur Darstellung von Spektren wurde ebenfalls beschrieben [80].
Mittlerweile wurde JCAMP-DX von der Firma MDL in Chime integriert.
Ein vollkommen anderer Weg zur Datenübertragung wurde mit dem Internet-Standard
VRML (vgl. Abschnitt 2.2.5) möglich. Während in den oben beschriebenen Ansätzen
chemische Austauschformate zum Client übertragen werden, wird mit VRML eine
dreidimensionale, graphische Szene an den Client gesendet. Im Gegensatz zum Austausch
von chemischen Strukturdateien entfällt dabei die Installation diverser Applikationen mit
unterschiedlichen Benutzerschnittstellen und somit auch die Limitierung dieser
Anwendungen. Da mit einem VRML-Viewer beliebige dreidimensionale Szenen betrachtet
werden können, ist auch die Repräsentation exotischer Daten wie beispielsweise ionischen
Gitterstrukturen, Flüssigkristallen oder auch Molekülorbitalen und molekulare Oberflächen
mit assoziierten Eigenschafen möglich. Die ersten chemischen VRML-Anwendungen wurden
von Casher et al. im Dezember 1994 generiert [74, 75] und ermöglichten die Visualisierung
von Wireframe-, Ball & Stick-, CPK- und Ribbon-Modellen. Diese Ansätze erlaubten zudem
die Visualisierung von Molekülorbitalen und elektrostatischen Potentialen [81] als auch die
Darstellung von intermolekularen Wechselwirkungen [82]. Vollhardt und Brickmann nutzten
die neue Technologie, um Proteinstrukturen und komplexe Proteinoberflächen sowie
Moleküleigenschaften zu visualisieren [83, 84]. Darüber hinaus entwickelten sie interaktive
39
3 Visualisierung chemischer Datenobjekte
Online-Dienste zur Generierung von VRML-Szenen aus PDB-Dateien und zur Darstellung
von Atomorbitalen [9].
Die beschriebenen VRML-Applikationen basieren auf VRML1.0 und erlauben lediglich
die Visualisierung von statischen 3D-Szenen. Durch die Einbettung von Hyperlinks konnten
zwar andere VRML-Szenen oder externe HTML-Seiten interaktiv aufgerufen werden, jedoch
waren fortgeschrittene Benutzerinteraktionen und Animationen erst durch Einführung des
VRML97-Standards möglich. Die erste chemische VRML-Applikation, die auf diesem
Standard basierte, ermöglichte die animierte Darstellung von Schwingungsmoden [85]. Die
Auswahl von Spektrenpeaks in einer Bilddatei führte zur Darstellung der korrespondierenden
Schwingung in einem VRML-Plugin. Weitere auf dem VRML97 Standard basierende
Beispiele folgten in den darauf folgenden Jahren [86, 87].
Zur Realisierung der oben beschriebenen Ansätze müssen zuvor externe Applikationen
oder plattformabhängige Plugins installiert werden. Diese Voraussetzung wurde durch die
plattformunabhängige Programmiersprache Java (vgl. Abschnitt 2.2.4) hinfällig. Mit Hilfe
von Java können Standalone-Applikationen programmiert werden. Interessanter ist jedoch die
Möglichkeit, sogenannte Applets zu entwickeln. Applets werden wie normale Daten an den
Client übermittelt und dort mit Hilfe einer Java Virtual Machine im Browser oder direkt auf
dem Client ausgeführt. Da Java eine plattform- und betriebssystemunabhängige Sprache ist
können die Programme im Gegensatz zu Plugins oder externen Programmen auf jedem
beliebigen Client ausgeführt werden. Eines der ersten chemischen Applets war der
Strukturviewer von ChemSymphony [11]. Mittlerweile sind eine Reihe von Applets für fast
jede chemische Problemstellung entwickelt worden. Einige dieser Applikationen erlauben
dabei auch den Zugriff auf externe Datenbanken oder ermöglichen die Kommunikation
zwischen Client und Server [88]. Zertifizierte Applets können auch auf lokale Ressourcen
zugreifen und sind somit in der Lage, chemische Austauschformate direkt einzulesen und zu
bearbeiten. Neben zahlreichen kommerziellen Applets sind mittlerweile auch eine Reihe von
OpenSource-Entwicklungen erschienen. Diese Programme werden dabei von einer offenen
Gemeinschaft von Programmierern entwickelt. Einige bekannte Vertreter sind das
JChemPaint-Applet [89] und das JMol-Applet[90], welche im Rahmen des OpenScience-
Projekts [91] entstanden sind.
Eine relativ neue Erweiterung des Java-Standards ist Java3D. Java3D erlaubt die
Hardware-unterstützte Darstellung von dreidimensionalen Szenen. Mittlerweile sind auch die
ersten chemischen Anwendungen erschienen, die von der Java3D Application Programing
Interface (API) Gebrauch machen [88, 92].
Neben den beschriebenen internetbasierten Applikationen zur Visualisierung von
Molekülmodellen wurden auch zahlreiche andere Anwendungen und Methoden entwickelt
40
3.3 Client-Server-Ansätze zur chemischen Visual-
wie beispielsweise Datenbanken [93, 94], die Chemical Markup Language (CML) [95],
Dienste zur interaktiven Berechnung von Daten [96, 97] und elektronische Journale [7].
Diese Entwicklungen spielten für diese Arbeit keine relevante Rolle und werden anderer
Stelle beschrieben [98].
3.3 Client-Server-Ansätze zur chemischen Visualisierung
Im vorausgegangenen Abschnitt wurde bereits deutlich, dass verschiedene Ansätze für die
Client-Server-basierte Vermittlung und Visualisierung chemischer Daten realisiert werden
können. Die grundsätzlichen Transferstrategien werden im Folgenden zusammengefasst und
diskutiert.
3.3.1 Datentransfer
Beim Datentransfer wird chemische Information in MIME-codierter Form von einem Ser-
ver an einen Client übermittelt. Das Internet bzw. Intranet dient bei diesem Ansatz als reines
Kommunikationsmedium. Die übermittelten Daten werden anschließend auf der Clientseite
mit Hilfe von externen Programmen oder Plugins bearbeitet und/oder visualisiert.
Der entscheidende Vorteil dieses Ansatz ist, dass die chemischen Originaldaten an den Cli-
ent gesendet werden und dort für beliebige Weiterverarbeitungsschritte zur Verfügung stehen.
Die zur Visualisierung eingesetzten Standalone-Programme und Plugins werden zudem für
die zugrundeliegende Clientplattform kompiliert und optimiert, was sich unter anderem mit
deutlichen Geschwindigkeitsvorteilen bei der Visualisierung äußert. Plattformabhängige
Standalone-Applikationen sind darüber hinaus häufig mächtige Programmpakete, die über
fortgeschrittene Werkzeuge und Optionen zur Bearbeitung und Visualisierung der Daten ver-
fügen. Somit steht dem Benutzer in diesem Ansatz ein größtmögliches Maß an Freiheitsgra-
den bei der Generierung der Visualisierungen als auch bei der Interaktion und Manipulation
der Daten zur Verfügung.
Der Datentransfer-Ansatz birgt jedoch nicht nur Vorteile. Die Visualisierung und Bearbei-
tung der chemischen Daten setzt zunächst die Installation entsprechender Standalone-Pro-
gramme oder Plugins voraus. Da diese Programme in der Regel für die Handhabung eines
bestimmten Problems wie beispielsweise der Visualisierung einer dreidimensionalen Struktur
konzipiert sind, muss häufig eine ganze Reihe an diversen Applikationen mit unterschiedli-
chen Benutzerschnittstellen auf dem Client installiert werden. Dieser Umstand ist vor allem
für firmeninterne Intranet-Systeme mit einigen hundert oder Tausend Einzelplatzrechnern
unbrauchbar, da die Installation und Wartung der vielen Einzelprogramme aus Zeit- und
Kosten-Gründen nicht zu realisieren ist.
41
3 Visualisierung chemischer Datenobjekte
3.3.2 Softwaretransfer
Eine mögliche Lösung der oben beschriebenen, Datentransfer-basierten Probleme bietet
der Softwaretransfer-Ansatz. Bei diesem Ansatz werden neben der chemischen Information
auch plattformunabhängige Applikationen zur Bearbeitung der Daten an den Client übermit-
telt. Die Programme basieren in der Regel auf der Programmiersprache Java und können des-
halb auf beliebigen Plattformen und Betriebssystemen ausgeführt werden. Die
Plattformunabhängigkeit hat jedoch auch ihren Preis. Java-Programme können nicht direkt
von dem Betriebssystem des Clients ausgeführt werden, sondern benötigen eine Virtual
Machine. Dadurch sind Java-Applikationen in der Regel etwas langsamer als Plugins oder
plattformabhängige Standalone-Programme. Auf der anderen Seite können Java-Applikatio-
nen aber auch so entwickelt werden, dass sie Client-seitig vorhandene Rechen- und Gra-
phikressourcen nutzen können [99, 100]. Java-Applets können für beliebig komplexe
Problemstellungen entworfen werden und erlauben darüber hinaus die Kommunikation unter-
einander oder mit Plugins, wodurch auch kombinierte Anwendungen zur Darstellung von
zwei oder mehreren Datenobjekten möglich sind (z.B. Strukturen und Spektren).
Java-Applikationen kamen im Rahmen dieser Arbeit vor allem zur Unterstützung der ver-
schiedenen Graphiktransfer-Ansätze zum Einsatz.
3.3.3 Graphiktransfer
Beim Graphiktransfer werden in der Regel weder chemische Daten noch Programme über
das Netzwerk versendet. Vielmehr wird nur eine graphische Szene an den Client übermittelt
und dort dargestellt. Ein in der Chemie häufig eingesetzter Vertreter dieses Ansatzes ist die
Virtual Reality Modelling Language (VRML). Dabei werden in fertiger Form vorliegende
oder interaktiv erzeugte VRML-Dateien an den Client übersandt. Auf der Clientseite ist zur
Darstellung der Szene nur ein einziger Viewer mit einer einheitlichen Benutzerschnittstelle
erforderlich. Als rein graphisches Austauschformat gibt es in VRML keine Limitierung bei
der Darstellung chemischer Information. Somit können auch exotische Sachverhalte darge-
stellt und die Szenen mit zusätzlicher Information wie Texten oder Hyperlinks ausgestattet
werden. Aus diesem Grunde war und ist VRML das einzige Medium, welches den Austausch
komplexer, molekularer Oberflächen erlaubt.
Aktuelle VRML-Anwendungen in der Chemie [86, 101] dienen vor allem zur plattform-
unabhängigen Repräsentation chemischer Datenobjekte, die nicht mit aktuellen Standards-
applikationen dargestellt werden können, und werden daher auch von vielen kommerziellen
Programmpaketen als alternatives Ausgabeformat angeboten. Auf diesem Wege kann zwar
chemische Information einfach und plattformungebunden dargestellt werden, aber die Mög-
42
3.3 Client-Server-Ansätze zur chemischen Visual-
lichkeit zur Interaktion mit den chemischen Daten wird durch diesen Prozess stark einge-
schränkt. Zudem ist eine Weiterverarbeitung der Daten nicht mehr möglich.
Bei Betrachtung der Visualisierungspipeline in Abschnitt 2.1.2 wurde deutlich, dass der
große Vorteil der dreidimensionalen Visualisierung vor allem in den zahlreichen Möglichkei-
ten zur Benutzerinteraktion begründet liegt. Dabei wurde angenommen, dass die komplette
Visualisierungspipeline auf nur einem System ausgeführt wird. Beim Graphiktransfer in
einem Client-Server-System können die diversen Module der Visualisierungspipeline belie-
big zwischen Client und Server aufgeteilt werden (siehe Abbildung 3-3).
Abb. 3-3: Aufteilung der Stufen der Visualisierungspipeline in einem Client-Server-System.
Die Visualisierungspipeline und die sich durch die Aufteilung der Module ergebenden Cli-
ent-Server-Strategien [102] standen bei der Entwicklung der in diesem Kapitel beschriebe-
nen Anwendungen im Vordergrund. Die Wahl einer geeigneten Strategie hängt dabei von
einer Reihe von Faktoren ab: Art und Größe der Daten, Bandbreite und Latenz des Netz-
werks, graphische und numerische Fähigkeiten der vorhandenen Client- und Server-Rechner.
Grundsätzlich können drei verschiedene Strategien unterschieden werden: hybride Strategien,
Client-seitige Strategien und Server-seitige Strategien.
Die einzelnen Strategien sowie ihre Vor- und Nachteile werden im folgenden Kapitel
anhand von im Rahmen dieser Arbeit entwickelten Visualisierungsapplikationen beschrieben.
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
NetzwerkServer ClientClient-Server Visualisierungspipeline
43
3 Visualisierung chemischer Datenobjekte
44
Kapitel 4
Client-Server-basierte Visualisierung
Bei dem in Kapitel 2 vorgestellten Begriff der Visualisierungspipeline wurde zunächst
angenommen, dass die einzelnen Verarbeitungsstufen von den Rohdaten bis hin zur Reprä-
sentation auf einem einzigen System ausgeführt werden. Eine Erweiterung dieses lokalen
Ansatzes wurde in Kapitel 3 vorgestellt (vgl. Abschnitt 3.3.3). Dabei wurden die diversen
Visualisierungsstufen flexibel zwischen Client und Server verteilt, wodurch die Nutzung von
sowohl Client- als auch Server-seitig vorhandenen Rechen- und Graphikkapazitäten gewähr-
leistet wird. Dieses Kapitel beschreibt die im Rahmen dieser Arbeit entwickelten Applikatio-
nen, die eine verteilte Verarbeitung und Visualisierung chemischer Daten auf Client- und
Server-Systeme erlauben. Dabei werden neben den Aspekten der Implementierung auch die
Vor- und Nachteile der vorgestellten Anwendungen gegenüber Internet-Standardapplikatio-
nen diskutiert.
Der erste Teil des Kapitels widmet sich zunächst den sogenannten hybriden Ansätzen.
Nach einer kurzen Erläuterung der Prinzipien der hybriden Strategie werden vier entspre-
chende, Internet-fähige Anwendungen vorgestellt: Der VRML File Creator for Chemical
Structures dient zur plattformunabhängigen Berechnung und Darstellung chemischer 3D-
Strukturen. Der VRML-Animationsgenerator ermöglicht eine portable Visualisierung moleku-
larer Animationen. ComSpec3D erlaubt die Berechnung und Visualisierung von Raman- und
IR-Spektren und gestattet die animierte Darstellung der korrespondierenden Normalschwin-
gungen. MolSurf dient zur Berechnung und Visualisierung molekularer Oberflächen.
Im zweiten Teil werden Applikationen beschrieben, die auf sogenannten Client-seitigen
Strategien basieren. Dabei wird die OrbVis-Applikation vorgestellt, die zur Berechnung und
Visualisierung von Molekülorbitalen dient.
Der letzte Teil des Kapitels erläutert schließlich die Prinzipien der Server-seitigen Visuali-
sierungsstrategien. Abschließend werden die Vor- und Nachteile der einzelnen Visualisie-
rungsstrategien diskutiert.
45
4 Client-Server-basierte Visualisierung
4.1 Hybride Strategien
4.1.1 Definition
Eine möglichst günstige Verteilung der Visualisierungsaufgaben zwischen Client und Ser-
ver ist das Ziel hybrider Ansätze (Abbildung 4-1). Durch die Aufteilung der Aufgaben sollen
sowohl Client- als auch Server-seitige Speicher- und Rechenkapazitäten optimal genutzt wer-
den. Dabei wird gleichzeitig die Minimierung der Netzwerklast angestrebt.
Abb. 4-1: Hybride Strategien.
Die Aufteilung der Visualisierungspipeline kann dabei auf vielfältige Weise geschehen.
Einige Beispiele sowie ihre Vor- und Nachteile werden auf den folgenden Seiten erläutert.
Dabei werden vor allem VRML-Ansätze besprochen, die ebenfalls zu den hybriden Ansätzen
zu zählen sind. Die VRML-Szene wird dabei in der Regel auf dem Server generiert und
anschließend auf dem Client gerendert.
4.1.2 VRML-Generator für chemische Austauschdateien
4.1.2.1 Zielsetzung
Neben den Arbeitsgruppen von Brickmann und Rzepa beschäftigte sich auch die
Arbeitsgruppe von Gasteiger früh mit dem Medium VRML. Das Resultat war ein generischer
VRML-Szenengenerator für Moleküldaten [103]. Der Online-Dienst akzeptierte die
wichtigsten chemischen Austauschformate als Eingabeformat sowie zahlreiche
Visualisierungsoptionen und produzierte eine statische VRML1.0-Szene.
Im Rahmen dieser Arbeit wurde dieser Service vollkommen überarbeitet. Die generierten
3D-Szenen basieren auf den weiterentwickelten VRML97-Standard und zeigen, welche
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
Visualisierungspipeline
Server Client
46
4.1 Hybride Strategien
Optionen in Hinsicht auf Benutzerinteraktion und Dynamik mit Hilfe des neuen Formats
möglich sind. Der Service soll zudem als Basis für weitere Entwicklungen dienen.
4.1.2.2 Funktionsbeschreibung
Abb. 4-2: VRML-Dateigenerator: Eingabeformular.
Abbildung 4-2 zeigt das Eingabeformular des Online-Dienstes. Im oberen Teil des Formu-
lars (Structure Source) kann der Benutzer die chemischen Strukturdaten eingeben. Dabei
kann grundsätzlich zwischen zwei Alternativen gewählt werden. Das obere Eingabefeld
akzeptiert die sehr kompakte und lineare Notation SMILES der Firma Daylight [104]. Benut-
zer mit entsprechender Erfahrung im Umgang mit der Syntax von SMILES können auf diese
Weise einfache Strukturbeschreibungen eingeben. Im Regelfall benutzen Chemiker jedoch
Struktureditoren wie ChemWindow [105] oder ChemDraw [106]. Da diese Applikationen
47
4 Client-Server-basierte Visualisierung
das SMILES-Format als Ausgabe unterstützen, kann durch Copy & Paste der SMILES-
String in das Eingabefeld kopiert werden. Der Online-Dienst wurde zudem mit einem Java-
basierten Struktureditor [12] ausgestattet, der eine schnelle und unkomplizierte 2D-Struktur-
eingabe sowie eine nachfolgende 3D-Strukturgenerierung auf dem Server ermöglicht.
Die zweite Möglichkeit zur Struktureingabe bietet eine Upload-Funktion zur Übermittlung
eigener chemischer Dateien. Der Service unterstützt zur Zeit über vierzig gängige Austausch-
formate, die sowohl zweidimensionale als auch dreidimensionale Koordinaten enthalten kön-
nen. Liegen in einer Datei dreidimensionale Koordinaten vor, so werden diese für die
Generierung der VRML-Szene herangezogen. Im Fall der SMILES-basierten Eingabe oder
bei der Vorlage zweidimensionaler Austauschformate werden die dreidimensionalen Struktu-
ren automatisch mit CORINA generiert.
Viele der bekannten chemischen Austauschformate wie beispielsweise das PDB-Format
enthalten keine Information über die in der Verbindung enthaltenen Wasserstoffatome. Bei
der Betrachtung der Struktur wird daher oft nicht deutlich, ob ein bestimmtes Atom als Radi-
kal, Carben oder gesättigtes Atom vorliegt. Aus diesem Grunde vervollständigt die Applika-
tion die Wasserstoffpositionen automatisch. Diese Funktion kann bei Bedarf auch deaktiviert
werden.
Neben der Struktureingabe verfügt die Anwendung über zahlreiche Visualisierungspara-
meter. Die wichtigste Option stellt dabei die Wahl des Molekülmodells dar. Neben der Aus-
wahl einzelner in der Chemie üblicher Standard-Visualisierungen (Ball & Stick, Capped,
Wireframe und CPK) kann auch eine Repräsentation gewählt werden, die einen interaktiven
Wechsel zwischen den vier Modellen erlaubt. Dieser Wechsel wird mit Hilfe eines dreidimen-
sionalen Knopfes in der VRML-Szene realisiert (siehe Abbildung 4-3a).
Neben der Wahl der Moleküldarstellung können zudem weitere Visualisierungsparameter
definiert werden. Der Benutzer hat die Möglichkeit Bindungsfarbe und Bindungsradien zu
definieren und kann entscheiden, ob die Bindungsordnung ebenfalls dargestellt werden soll.
Beim Vorliegen von Mehrfachbindungen wird dabei ein spezieller Algorithmus zur Anord-
nung der Bindungen eingesetzt. Die Bindungen werden unterhalb und oberhalb der Fläche
positioniert, die sich aus der Anordnung der Bindungsatome und der Atome in α-Stellung
ergibt. Diese Ausrichtung entspricht in erster Näherung der Anordnung der π-Orbitale.
Der Online-Dienst ist nicht nur in der Lage, dreidimensionale Strukturen zu repräsentieren.
Die dargestellten Moleküle können nach Belieben mit einfachen atomaren Eigenschaften wie
Atomsymbolen, Ordnungszahlen, Polarisierbarkeit oder σ-Ladung versehen werden. Diese
Eigenschaften werden automatisch berechnet, soweit sie noch nicht bekannt sind
(Abbildung 4-3b).
48
4.1 Hybride Strategien
Abb. 4-3: VRML-Szene mit Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung (Farbabbildung: Anhang A, Abb. A-1).
VRML wurde für den Transport von dreidimensionalen Szenen im Internet entworfen.
Daher enthalten VRML-Szenen keine Angaben über Atome und Bindungen sondern lediglich
graphische Objekte. Um dennoch eine chemische Weiterverarbeitung der VRML-Szenen zu
gewährleisten, wurde der Online-Dienst mit einer speziellen Funktion ausgestattet. Mit Hilfe
dieser Funktion wird die chemische Information über das dargestellte Molekül direkt in der
VRML-Szene abgelegt. Die Daten werden dazu mit Hilfe der xdr-Bibliothek von CACTVS
(vgl. Abschnitt 2.3.1) plattformunabhängig kodiert und anschließend im Base64-Format in
einem spezifischen, selbstdefinierten VRML-Knoten gespeichert.
VRML-Viewer bieten im Gegensatz zu traditionellen Molekülgraphikprogrammen keine
Standardoptionen wie das Vermessen von Bindungsabständen und -winkeln sowie Torsions-
winkeln. Der VRML-Strukturgenerator stellt diese Funktionalität bereit. Mit Hilfe in die
VRML-Szene integrierter Skripte können die notwendigen Berechnungen direkt in der Szene
auf der Clientseite vorgenommen werden (Abbildung 4-4). Durch Anklicken der entsprechen-
den Atome erhält der Benutzer Auskunft über die Koordinaten des selektierten Atoms, den
Bindungsabstand der beiden zuletzt selektierten Atome, den Bindungswinkel der letzten drei
Atome und dem Torsionswinkel zwischen den vier zuletzt gewählten Atomen.
49
4 Client-Server-basierte Visualisierung
Abb. 4-4: VRML-Szene: Ball & Stick-Modell mit Berechnungsfunktion (Farbabbildung: Anhang A, Abbildung A-2).
Der Online-Dienst verfügt über weitere Optionen, die jedoch lediglich der graphischen
Manipulation der Szene dienen und daher an dieser Stelle nicht näher erläutert werden.
4.1.2.3 Implementierung
Der VRML-Strukturgenerator wurde wie viele der in dieser Arbeit vorgestellten Anwen-
dungen nicht als Standalone-Applikation entwickelt, sondern als Visualisierungsmodul des
chemischen Managementsystems CACTVS. Dieser Ansatz birgt eine Reihe von Vorteilen, die
im Folgenden näher beschrieben werden.
Herzstück der Anwendung ist das im Rahmen dieser Arbeit weiterentwickelte CACTVS-
Modul E_VRML. Das Modul setzt sich dabei aus drei wichtigen Teilen zusammen: dem
Beschreibungsabschnitt, dem Methodenabschnitt und den Parameterabschnitt. Der Beschrei-
bungsteil dient dabei zur Kommunikation mit der CACTVS-Kernbibliothek und liefert Infor-
mationen über die verwendete Methodensprache, den Datentyp, die Funktion des Moduls und
vor allem über die Abhängigkeiten von anderen CACTVS-Modulen. Die definierten Abhän-
gigkeiten des VRML-Moduls besagen, dass eine VRML-Szene nur dann generiert werden
kann, wenn die Kernbibliothek Kenntnis von den dreidimensionalen Koordinaten, den Atom-
typen und den Bindungsordnungen des vorliegenden Moleküls hat. Die Methoden des
Moduls dienen dabei lediglich der Generierung des VRML-Szenengraphen, da das Modul
nicht für das Einlesen und das Management der chemischen Daten zuständig ist.
Alle dafür notwendigen Daten wie 3D-Koordinaten, Atomtypen etc. als auch Information,
die sich aus den bereits bekannten Daten ableiten lassen wie beispielsweise die Farbcodie-
50
4.1 Hybride Strategien
rung eines Atoms oder die σ-Ladung, werden direkt von der Kernbibliothek abgefragt. Der
dritte Teil des Moduls enthält alle Parameter zur Steuerung der Szenengraphen-Generierung.
Diese Parameter entsprechen dabei den Parametern im HTML-Formular.
Abb. 4-5: Schematische Darstellung einer VRML-Strukturgeneratorsitzung.
Das VRML-Modul ist wie alle anderen Module des CACTVS-Systems über die Tcl-Kom-
mandosprache des CACTVS-Systems zugänglich (vgl. Abschnitt 2.3.1.2). Diese Architektur
erlaubt die Entwicklung von sehr kleinen, auf der CACTVS-Kommandosprache basierenden
CGI (Common Gateway Interface)-Skripten, welche die HTML-basierten Benutzereingaben
direkt an die Kernbibliothek weiterleiten können (Abbildung 4-5).
Der Vorteil dieser Architektur wird bei der Betrachtung einer typischen Visualisierungssit-
zung des Online-Dienstes deutlich. Nachdem das CGI-Skript die Strukturdaten als auch die
Visualisierungsparameter aus dem HTML-Formular entgegengenommen hat, werden in
einem initialen Schritt die Strukturinformation an die Kernbibliothek weitergeleitet. Sowohl
im Fall von SMILES-Strings als auch beim Vorliegen von chemischen Austauschformaten
erfolgt dies durch einen einzigen Befehl. Während der SMILES-String direkt in die interne
Repräsentation der Kernbibliothek umgewandelt werden kann, muss die chemische Format-
datei noch erst gelesen und analysiert werden. Das Kernsystem ermittelt dabei vollkommen
automatisch, um welches Austauschformat es sich handelt, sucht nach einer entsprechenden
Leseroutine und lädt schließlich sämtliche dort enthaltenen Daten in das System.
In einem zweiten Schritt modifiziert das CGI-Skript die Parametereinstellungen des
VRML-Moduls. Diese Einstellungen wie beispielsweise die Wahl der Darstellungsform
TCL
CGI-
Skript
HTML-
Formular
Eingabe
VRML-
Szene
Ausgabe
Strukturdaten
VRML-Szene
Parameter
CACTVS-System
Einlesen & Analyseder
chem. Information
VRML-Modul(E_VRML)
3D
3D
2D
3D-Koord.Modul
CORINA-Modul(3D-Struktur-
generator)
Client Server
51
4 Client-Server-basierte Visualisierung
entsprechen dabei wie bereits erwähnt den Benutzereinstellungen im HTML-Formular und
lassen sich ebenfalls durch ein paar Zeilen CGI-Code realisieren. Damit wurden alle
wichtigen Daten an das System übergeben. Das CGI-Skript fordert nun nur noch die
entsprechende VRML-Szene von der Kernbibliothek an. Alle dafür notwendigen Schritte
laufen dabei vollkommen automatisch und im Hintergrund ab. Das System prüft in einem
ersten Schritt, ob es ein Modul findet, welches VRML-Szenen generieren kann. Nachdem es
das Modul lokalisiert hat, überprüft es die im Modul definierten Abhängigkeiten und stellt
fest, dass zur Generierung von VRML-Szenen unter anderem dreidimensionale Koordinaten
notwendig sind. Falls dem System von CGI-Skript eine Austauschdatei mit
dreidimensionalen Daten übergeben wurde, hat das Kernsystem bereits Kenntnis über die 3D-
Information und das VRML-Modul wird entsprechend seiner Parametereinstellungen
ausgeführt. Falls dem System jedoch nur SMILES-Strings oder zweidimensionale
Austauschformate übergeben wurden, sucht das System durch automatische Lookup-
Mechanismen nach einem Modul, das für die Generierung dreidimensionaler Daten geeignet
ist. Dieses Modul startet nach seiner Identifizierung den 3D-Strukturgenerator CORINA (vgl.
Abschnitt 2.3.2) und liefert die geforderten 3D-Koordinaten an das System. Im Anschluss
erfolgt auch hier die Generierung der VRML-Szene. Nochmal zur Verdeutlichung: Alle
zuletzt beschriebenen Schritte innerhalb der Kernbibliothek erfolgen vollkommen
automatisch nach Aufruf eines einzigen Kommandos im CGI-Skript, dessen Rückgabewert
die temporäre VRML-Szene ist. Die generierte VRML-Szene wird letztendlich an den
Browser übermittelt.
4.1.2.4 Diskussion
Seit Einführung der Virtual Reality Modelling Language nutzt die Chemie diesen Internet-
Standard als alternatives Medium zur plattformunabhängigen Darstellung chemischer
Information. Bei näherer Betrachtung der aktuellen VRML-basierten Standardlösungen in der
Chemie fällt jedoch auf, dass der Großteil der im Internet befindlichen VRML-Dateien
statische Szenen mit geringen oder keinen Möglichkeiten an Interaktivität repräsentieren. Die
Generierung dieser Szenen wird dabei in der Regel durch moderne, plattformabhängige
Modelling-Programme bewerkstelligt, die über eine entsprechende VRML-Exportfunktion
verfügen. Diese Darstellung ermöglicht dem Betrachter zwar Einblick in die Problematik des
Autors, erlaubt jedoch weder weitergehende interaktive Modifizierungen der repräsentierten
chemischen Daten noch die Lösung eigener Problemstellungen.
Die Generierung von VRML-Szenen zur Darstellung eigener chemischer
Problemstellungen kann insbesondere innerhalb der wissenschaftlichen Ausbildung häufig
nicht durch den Einsatz kostspieliger, kommerzieller Programme realisiert werden. Darüber
hinaus stellt der Einsatz solcher Programmpakete zur Generierung von VRML-Szenen auch
52
4.1 Hybride Strategien
im Bereich der Forschung einen unerwünschten Umweg dar. Vorhandene firmeninterne,
Intranet-fähige Informationssysteme sollten vielmehr in der Lage sein, die chemischen Daten
direkt und interaktiv in einer VRML-Szene zu repräsentieren.
Der vorliegende VRML-Strukturgenerator stellt nach unserer Erkenntnis die modernste
und umfangreichste Lösung zur interaktiven Generierung von VRML-Szenen dar. Ein Vorteil
des Online-Dienstes gegenüber anderen VRML-Strukturgeneratoren liegt dabei vor allem in
der Vielzahl der möglichen chemischen Eingabeformate begründet. Diese Fähigkeit erlaubt
die direkte Eingabe fast aller gängigen und auch exotischeren Dateiformate und macht somit
eine umständliche und zeitaufwendige Umformung der chemischen Daten überflüssig. Der
pdb2vrml-Dienst [9] der Arbeitsgruppe Brickmann unterstützt lediglich das PDB-
Dateiformat, während das CyberMol-System [107] auf ein eigenes Datenformat und das
XYZ-Format limitiert ist. Die Eingabe der Daten wird in beiden Online-Diensten darüber
hinaus durch die Form der Eingabe kompliziert. Die Daten können im Gegensatz zum
VRML-Strukturgenerator nicht mittels einer Upload-Funktion direkt an den Service
übergeben werden, sondern müssen durch umständliche Copy & Paste-Aktionen in die
Webseite integriert werden. Eine Dateneingabe mittels eines Struktureditors ist ebenfalls
ausgeschlossen.
Beide alternativen Ansätze sind nur in der Lage statische VRML-Szenen zu generieren.
Der pdb2vrml-Dienst ist zudem nur auf die Generierung von VRML1.0-Szenen ausgelegt und
schließt somit die Darstellung dynamischer Prozesse aus. Eine Betrachtung der aktuellen
VRML-Viewer zeigt darüber hinaus, dass das veraltete VRML1.0-Format in der Regel nicht
mehr unterstützt wird und eine Betrachtung der Szenen somit ausgeschlossen ist. Das auf
MOLDA2.0-basierende [108] CyberMol-System ist zwar in der Lage VRML2.0-Szenen zu
generieren, es hat sich allerdings bei einer aktuellen Überprüfung des Online-Dienstes
gezeigt, dass die Server-seitigen Berechnungsskripte nicht mehr zugänglich sind und der
Benutzer daher nur Fehlermeldungen erhält.
Im Gegensatz zu chemischen Austauschformaten enthält eine VRML-Datei keinerlei
chemische Information, sondern nur ein dreidimensionales Abbild dieser Information. Eine
Rückgewinnung der chemischen Information ist daher in der Regel nicht oder nur sehr
schwer möglich. Bei der Entwicklung des VRML-Strukturgenerators wurde dieser
Problematik Rechnung getragen. Neben der zusätzlichen Darstellung chemischer Information
wie atomaren Eigenschaften ermöglicht die eingebettete Berechnungsfunktion auch
weitergehende Untersuchung durch den Benutzer wie beispielsweise die Berechnung von
Atomabständen und -winkeln.
Trotz den erweiterten Möglichkeiten zur Untersuchung der Szene, ist eine vollständige
Extraktion der chemischen Originaldaten aus einer VRML-Szene im Allgemeinen nicht
53
4 Client-Server-basierte Visualisierung
möglich. Diese Problematik wurde im Arbeitskreis Gasteiger intensiv im Rahmen einer
Diplomarbeit untersucht [109]. Um dennoch einen ununterbrochenen Datentransfer zu
gewährleisten, bettet der Online-Dienst alle wichtigen chemischen Daten in Form einer
kodierten String-Repräsentation in der VRML-Szene ein ("Serialized Objects"). Diese nicht
sichtbare Information kann anschließend wieder durch das CACTVS-System aus einer
VRML-Szene extrahiert und in chemische Daten rückkonvertiert werden.
Die Verwendbarkeit des Online-Dienstes wird am ehesten bei der Betrachtung der
statistischen Zahlen deutlich. Der Online-Dienst steht sowohl auf dem Server der
Arbeitsgruppe Gasteiger als auch auf einem Server des US Krebsforschungsinstituts zur
Verfügung und wurde seit seiner Einführung im Oktober 1998 bereits über 49.400 mal
genutzt. Weltweit verweisen über 260 Online-Verweise auf den Service. Der Online-Dienst
wird als Standardwerkzeug im Projekt Molecule of the Month der Universität Bristol [110]
eingesetzt. Die allgemeine und offene Verwendbarkeit des Service wird vor allem bei der
Betrachtung des Datenbankinterfacees des amerikanischen Krebsforschungsinstituts
deutlich [93]. Suchresultate können direkt an den VRML-Strukturgenerator weitergereicht
werden ohne dass eine Zwischenspeicherung und Konvertierung der chemischen Daten nötig
ist.
4.1.3 VRML-Animationsgenerator
4.1.3.1 Zielsetzung
Während die Zielsetzung des VRML-Strukturgenerators in der Realisierung eines
Höchstmaßes an Benutzerinteraktion lag, wurden mit Hilfe des VRML-Animationsgenerators
die neuen Funkionen des VRML97-Standards zur Darstellung dynamischer Prozesse in der
Chemie untersucht. Das Ziel war die Entwicklung eines Online-Dienstes, der übliche
Austauschformate zur Speicherung von Trajektorieninformation einlesen und in Form von
animierten VRML-Szenen darstellen konnte.
4.1.3.2 Funktionsbeschreibung
Mit Hilfe einer Upload-Funktion kann der Benutzer ein multiples XYZ-Austauschformat
an den Service übergeben. Dieses Dateiformat wird von zahlreichen Molecular Modelling
und Moleküldynamik-Programmen als Ausgabeformat angeboten. Zu
Demonstrationszwecken kann der Benutzer anstelle eigener Austauschformate eine
vordefinierte Beispieldatei als Struktureingabe wählen (Abbildung 4-6).
54
4.1 Hybride Strategien
Abb. 4-6: VRML-Animationsdienst: Eingabeformular.
Neben der bereits aus dem VRML-Strukturgeneratordienst bekannten Wahl der
Molekülrepräsentation (Ball & Stick, Capped, Spacefill), der Bindungsparameter und
einiger graphischer Parameter erlaubt der VRML-Animationsservice auch einige
animationsspezifische Einstellungen. Zum einen kann der Benutzer die Dauer des
Animationszyklus festlegen. Zum anderen hat der Benutzer die Möglichkeit eine
Stop & Play-Funktion in die VRML-Szene zu integrieren (Abbildung 4-7, letztes Bild). Mit
Hilfe dieses Werkzeugs kann der Benutzer jederzeit die Animation stoppen und fortsetzen.
Zudem kann mit Hilfe einer Step-Funktion die Animation schrittweise betrachtet werden.
Abb. 4-7: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.(Farbabbildung: Anhang A, Abbildung A-3).
55
4 Client-Server-basierte Visualisierung
Abbildung 4-7 zeigt Screenshots der Beispielanimation. Die Animation zeigt die
Initiierung einer kationischen Polymerisationsreaktion. Neben der Darstellung der in der
Austauschdatei vorhandenen Atomkoordinaten und Bindungen ergänzt und repräsentiert der
Online-Dienst automatisch Atomabstände, die einen bindungsähnlichen Charakter aufweisen
(gelbe Linien in Abbildung 4-7). Mit Hilfe dieser Darstellungsform können beispielsweise
stabilisierende bzw. aktivierende Wechselwirkungen zwischen funktionellen Gruppen
repräsentiert werden.
Wie auch im VRML-Strukturgeneratordienst hat der Benutzer zum einen die Möglichkeit
sich die Animation direkt im Browserfenster zu betrachten. Darüber hinaus kann die Ausgabe
auch so definiert werden, dass die generierte VRML-Szene lokal auf dem Client gespeichert
werden kann. Dem Benutzer bietet sich somit die Gelegenheit eigene Moleküldynamik-
Ergebnisse in Form von VRML-Szenen auf einer Internetseite anzubieten.
4.1.3.3 Implementierung
Der VRML-Animationsdienst basiert wie alle in diesem Kapitel vorgestellte Online-
Dienste im Grundsatz auf dem gleichen in Abbildung 4-5 beschriebenen Prinzip (HTML-
Formular/CGI-Skript/CACTVS-Kernsystem). Je nach Datentyp und Aufgabenstellung variiert
dabei die Anzahl und die Art der verwendeten CACTVS-Module in der Kernbibliothek. Im
Fall des VRML-Animationsdienstes wird jedoch das gleiche VRML-Modul wie im VRML-
Strukturgeneratordienst verwendet. Aus diesem Grund werden im Folgenden nur die
wichtigsten Unterschiede zwischen den Implementierungen der beiden Anwendungen
skizziert.
Ein entscheidender Unterschied kann bereits beim Einlesen der Strukturdaten beobachtet
werden. Das CACTVS-System bzw. die Leseroutine für das XYZ-Dateiformat erkennt beim
Lesen der Daten das Vorliegen multipler, dreidimensionaler Koordinatensätze. Daher wird
neben der Speicherung der 3D-Koordinaten auch für jedes Atom der molekularen Szene eine
Eigenschaftsbeschreibung namens A_TRAJECTORY definiert. Dieser Datencontainer enthält
nach dem Lesevorgang alle in der Austauschdatei definierten 3D-Koordinaten des
entsprechenden Atoms. Diese Information wird vom VRML-Modul genutzt, um die
Koordinaten in einen speziellen VRML-Knoten den sogenannten PositionInterpolator
einzusetzen. Die VRML-Szene wird schließlich noch mit einem Zeitgeberknoten versehen.
Bei der Client-seitigen Animation wird die Szene durch den zentralen Zeitgeberknoten und
durch Transformation der Objektkoordinaten entlang der Interpolationspunkte gesteuert. Die
optionale Stop & Play-Funktion kann dabei direkt auf den Zeitgeberknoten Einfluss nehmen
und erlaubt somit eine Steuerung der Animation druch den Benutzer.
56
4.1 Hybride Strategien
4.1.3.4 Diskussion
Animationen stellen für das Verständnis komplexer Vorgänge insbesondere in der
wissenschaftlichen Ausbildung ein wichtiges Werkzeug dar. So kann beispielsweise die
zeitliche, geometrische und stereochemische Komplexität einer chemischen Reaktion durch
Einsatz animierter Darstellungen besser verstanden werden.
Bei der Betrachtung aktueller, Internet-fähiger Visualisierungsapplikationen fällt auf, dass
bis auf wenige Ausnahmen wie das Chime-Plugin keine Anwendung in der Lage ist,
dreidimensionale Animationen zu visualisieren. MPEG-basierte Videofilme oder animierte
GIF-Sequenzen werden bei dieser Betrachtung nicht berücksichtigt, da sie keine
Benutzerinteraktion zulassen und es sich bei diesen Medien nicht um dreidimensionale
Darstellungsformen handelt.
Bei einer näheren Betrachtung des Chime-Plugins wird schnell der rudimentäre Charakter
der Animationsfähigkeit sowie die vergleichbar schlechte Qualität der Animation deutlich.
Die Ursache für die eingeschränkte Animationsfähigkeit liegt dabei in der
Visualisierungstechnik von Chime begründet. Chime wurde in erster Linie zur Visualisierung
von Strukturen entwickelt. Um Animationen zu realisieren, schaltet die Applikation zwischen
den einzelnen molekularen Szenen, die sich aus dem multiplen Koordinatensätzen ergeben,
hin und her. Je nach Anzahl der Koordinatensätze ergibt sich damit eine mehr oder weniger
unruhige Bildfolge. Beim Vorliegen von nur zwei oder drei Koordinatensätzen ist eine
brauchbare Animation nicht möglich. Darüber hinaus stehen dem Benutzer nur sehr limitierte
Optionen zur Beeinflussung der Animation zur Verfügung.
Als graphisches Datenformat bietet VRML97 sehr komfortable Optionen zur Realisierung
hochaufgelöster Animationen. Die Qualität der vom Online-Dienst generierten Szenen hängt
dabei nicht von der ursprünglichen Anzahl der Koordinatensätze ab. Die Koordinaten dienen
lediglich als Eckpunkte für die eingebetteten Interpolatoren. Während der Animation werden
alle Objekte (Atome, Bindungen) dynamisch zwischen diesen Eckdaten verschoben, rotiert,
skaliert und umgeformt. Durch den Interpolationsmechanismus lassen sich somit sehr
hochaufgelöste Animationen erstellen, selbst wenn die Originaldaten nur über zwei
Koordinatensätze verfügen. Ein weiterer Vorteil dieser Technik ist, dass nur ein konstanter
Satz an Objekten anstelle von zahlreichen einzelschrittbasierten Objekten verwaltet werden
muss.
Der VRML-Animationsgenerator ist nach unserer Erkenntnis der einzige interaktive
Online-Dienst seiner Art. Er wurde in den letzten zwei Jahren über 5.000 mal verwendet und
ist wie der VRML-Strukturgenerator in vielen chemischen Hyperlinksammlungen vertreten.
57
4 Client-Server-basierte Visualisierung
4.1.4 ComSpec3D
4.1.4.1 Zielsetzung
Die Quantenchemie ist eines der Felder in der Chemie, welches aufgrund des theoretischen
und mathematischen Charakters sowohl von vielen Studenten als auch von Chemikern, die
auf diesem Gebiet nicht spezialisiert sind, als schwer zugänglich angesehen wird. Zu den
Eigenschaften, die über quantenchemische Rechnungen vorhersagbar sind, gehören die
Infrarot- und Raman-Spektren. Zu jedem Absorptionspeak gehört dabei eine
Molekülschwingung, die sogenannte Normalschwingung, die sich aus der Kräftematrix der
Auslenkung der Atome aus der Ruheposition ableiten lässt. Im Widerspruch zu den einfachen
Modellen, die vielfach zur Spektreninterpretation herangezogen werden (im Sinne von
CO Schwingung bei x cm-1) handelt es sich dabei um Schwingungen des gesamten
Gerüstes, die nicht immer vorwiegend einer einzelnen Bindung oder funktionellen Gruppe
zugeordnet werden können. Die praktische Vorstellungskraft versagt rasch, wenn es um das
Verständnis dieser Schwingungen aus Zahlentabellen geht. Werden diese Schwingungen
jedoch in Form animierter 3D-Szenen angezeigt, wird die Logik hinter ihnen schnell
verständlich.
Das Ziel war daher die Entwicklung einer Internet-Anwendung, die für beliebige Moleküle
Infrarot- und Ramanspektren vorhersagen kann und eine animierte Darstellung der zu den
Intensitätspeaks korrespondierenden Normalschwingungen erlaubt.
4.1.4.2 Funktionsbeschreibung
Das Eingabeformular des Online-Dienstes setzt sich zum einen aus einem
Struktureingabeteil und zum anderen aus einem Teil zur Eingabe von
Visualisierungsparametern zusammen (Abbildung 4-8). Mit Hilfe eines Java-basierten
Struktureditors bietet sich dem Benutzer die Möglichkeit, beliebige Strukturen zu zeichnen
und zur Berechnung von Spektren und Normalschwingungen an den Service zu übergeben.
Alternativ dazu kann der Benutzer SMILES-Strings als Struktureingabeform benutzen. Da
die quantenchemische Berechnung der Spektren (VAMP) trotz Verwendung von durch
CORINA generierter, voroptimierter 3D-Koordinaten sowie Einsatz der einfachen AM1-
Methode sehr rechenintensiv sein kann, wird die Anzahl der Atome bei der Struktureingabe
auf dreißig begrenzt. Darüber hinaus darf sich die Verbindung nur aus
Hauptgruppenelementen zusammensetzen. Diese Limitierung stellt sicher, dass die
notwendigen Berechnungen in der vom Benutzer erwarteten und für das Internet typischen
Antwortzeiten realisiert werden können.
58
4.1 Hybride Strategien
Abb. 4-8: ComSpec3D: Eingabeformular.
Die neben der Struktureingabe implementierten Optionen ermöglichen dem Benutzer eine
komfortable Beeinflussung der animierten Normalschwingungen nach chemischen als auch
graphischen Gesichtspunkten.
Da Spektrenpeaks mit sehr kleinen Intensitäten für das Verständnis von
quantenchemischen Vorgängen eine geringe Bedeutung haben, kann die Anzahl der
dargestellten Normalschwingungen mit Hilfe eines Intensitätsgrenzwertes eingeschränkt
werden. Dieser Grenzwert kann vom Benutzer frei gewählt oder auch deaktiviert werden. Des
Weiteren kann der Benutzer die Darstellung der graphischen Szene beeinflussen, in dem er
die Zeitdauer eines Animationszyklus, die Anzahl der zugrunde liegenden Einzelschritte als
auch das relative Maß der Schwingungsauslenkung (Skalierung der berechneten Werte)
innerhalb eines sinnvollen Wertebereichs bestimmen kann.
Die Schwingungsfrequenz einer Normalschwingung hängt unmittelbar von der
Kraftkonstante ab. Hohe Kraftkonstanten führen zu hohen Wellenzahlen bzw. zu niedrigen
Schwingungsfrequenzen, kleine Kraftkonstanten zu hohen Schwingungsfrequenzen. Dieser
Umstand wird im Spektrum durch die verschiedenen Wellenzahlen ausgedrückt. ComSpec3D
bietet die Möglichkeit diese Abhängigkeit auch in der Animation widerzuspiegeln. Die
Animationsgeschwindigkeit der Normalschwingung wird dabei in Abhängigkeit von der
Kraftkonstante dargestellt. Die Repräsentation von Normalschwingungen bei großen
Wellenzahlen kann dabei zu sehr schnellen, nur noch schlecht zu verfolgenden
Animationssequenzen führen. Aus diesem Grund kann als Alternative auch eine
Standardgeschwindigkeit für alle Animationen gewählt werden.
59
4 Client-Server-basierte Visualisierung
Abb. 4-9: ComSpec3D: HTML-Seite mit quantenchemisch berechneten Spektren und selektierbaren Wellenzahlen (Link zu den korrespondierenden Normalschwingungsanimationen).(Farbabbildung: Anhang A, Abbildung A-4).
60
4.1 Hybride Strategien
Nachdem der Benutzer alle erforderlichen Eingaben vorgenommen hat, werden die 3D-
Koordinaten mit CORINA berechnet und anschließend zur quantenchemischen Berechnung
(AM1) an VAMP übergeben Die resultierenden Spektren sowie die Wellenzahlen der
Normalschwingungen werden schließlich in einer HTML-Seite dargestellt (Abbildung 4-9).
Die dynamisch generierte HTML-Seite besteht dabei aus drei Abschnitten. Im obersten
Abschnitt werden zunächst die für die eingesetzte Struktur berechneten Raman- und
Infrarotspektren dargestellt. Alle wichtigen Daten bezüglich der eingesetzten
Strukturinformation als auch der quantenchemischen Berechnung können der nachfolgenden
Tabelle entnommen werden. Die Tabelle enthält unter anderem die Summen- und
Strukturformel der berechneten Verbindung, Angaben über das eingesetzte quantenchemische
Programm als auch die verwendete Methode.
Im letzten Abschnitt befindet sich schließlich die Tabelle mit der Information über die
Normalschwingungen. Der Benutzer kann dabei der Tabelle Daten wie Namen, Wellenzahl
und Intensitäten der einzelnen Normalschwingungen entnehmen. Durch Anklicken einer
Wellenzahl kann der Benutzer ein zweites Browserfenster öffnen, in dem die entsprechende
Normalschwingung als animierte 3D-Szene dargestellt wird (Abbildung 4-10).
Abb. 4-10: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1 (Farbabbildung: Anhang A, Abbildung A-5).
4.1.4.3 Implementierung
Aufgrund der zusätzlich benötigten quantenchemischen Information ist die Realisierung
des ComSpec3D-Dienstes im Gegensatz zum VRML-Animationsgenerator wesentlich
aufwendiger. Während der Implementierung des Online-Services wurden über fünfzehn
zusätzliche CACTVS-Module entwickelt. Da eine detaillierte Beschreibung der einzelnen
Vorgänge den Rahmen dieser Arbeit sprengen würde, wird im Folgenden nur auf die vier
wesentlichen Module (E_RAMANSPECTRUM, E_IRSPECTRUM, E_VIBRATION_VRML,
E_RAMANIRGIF und A_NORMAL_VIBRATIONS) und ihr Zusammenwirken eingegangen.
Ein wesentlicher Unterschied zu den beiden bereits erwähnten Anwendungen wird bei der
Betrachtung der schematischen Darstellung einer ComSpec3D-Sitzung deutlich
61
4 Client-Server-basierte Visualisierung
(Abbildung 4-11). Die Berechnung der Raman- und Infrarotspektren und die Darstellung der
animierten Normalschwingungen findet dabei in einem zweistufigen Prozess statt. Im ersten
Schritt werden alle notwendigen quantenchemischen Daten berechnet und in einer
aufbereiteten Form an den Benutzer zurückgeliefert. Mit Hilfe dieser Information kann der
Benutzer in einem zweiten Schritt die zu visualisierenden Normalschwingungen auswählen.
Abb. 4-11: Schematische Darstellung einer ComSpec3D-Sitzung.
Wie bei allen in diesem Kapitel vorgestellten Anwendungen werden auch in der
ComSpec3D-Applikation zunächst vom Benutzer definierte Strukturinformation an das
System übergeben. Nach der Übergabe der Strukturdaten fordert das CGI-Skript die
Spektreninformation, genauer gesagt die graphische Spektrenrepräsentation
(E_RAMANIRGIF), von der Kernbibliothek an. Alle dazu notwendigen Prozeduren laufen
dabei wiederum vollkommen automatisch und für den Benutzer unsichtbar im Hintergrund
ab. Die wichtigsten Mechanismen dieser Prozedur werden im Folgenden erläutert.
HTML-
Formular
Eingabe
VRML-
Szene
Ausgabe
Strukturdaten
Spektren-Information
CACTVS-System
Einlesen & Analysechem. Information
CORINA-Modul(3D-Struktur-
generator)
Client Server
3D Koordinaten
HTML-
Formular
Auswahl
VRML-Modul(E_VIBRATION_VRML)
Spektren-Module(E_RAMANSPECTRUM
E_IRSPECTRUMA_NORMAL_VIBRATIONS)
VAMP(quantenchem.Berechnungen)
CGI-Skript
temporäreSpeicherung
der Daten
VRML-Szene
Auswahl
62
4.1 Hybride Strategien
Bei der Abfrage des Spektrenbildes sucht das Kernsystem zunächst nach der dafür
notwendigen Eigenschaftsbeschreibung E_RAMANIRGIF. Da die entsprechenden Bilddaten
zu diesem Zeitpunkt noch nicht vorliegen, muss das Spektrum durch die im Modul
implementierten Funktionen zuerst gezeichnet werden. Dies ist aber nicht ohne das
Vorhandensein der eigentlichen Spektreninformation möglich. Das Modul verweist das
Kernsystem deshalb auf die Spektrendatenmodule E_RAMANSPECTRUM und
E_IRSPECTRUM. Auch diese Module enthalten zu diesem Zeitpunkt noch keine Information,
sind jedoch in der Lage diese Daten zu generieren bzw. generieren zu lassen. Um die
benötigten Spektrendaten zu berechnen, müssen vorher 3D-Koordinaten vorliegen. Die
Generierung der dreidimensionalen Struktur erfolgt dabei analog zu den bereits beim VRML-
Generator beschriebenen Mechanismen mit dem Strukturgenerator CORINA (vgl.
Abschnitt 4.1.2.3).
Nachdem die 3D-Information an das Spektrenmodul weitergeleitet wurde, generiert das
Modul eine Eingabedatei für das externe, semi-empirische MO-Programm VAMP (vgl.
Abschnitt 2.3.3) und startet das Programm zur Berechnung der notwendigen Daten
(VAMP-Befehlszeile: AM1 FORCE SPECTRUM XYZ GNORM=0.04). Nach Beendigung
der VAMP-Berechnung werden die Daten automatisch aus der Ausgabedatei und der
Spektrendatei extrahiert und in die entsprechenden Datencontainer eingefügt. Bei diesem
Vorgang werden sowohl die Module E_IRSPECTRUM als auch die Datencontainer
E_RAMANSPECTRUM, A_NORMAL_VIBRATIONS und eine ganze Reihe weiterer Module
mit den berechneten Daten beladen. Nach dieser automatischen Prozedur ist schließlich auch
das vom CGI-Skript aufgerufene Modul E_RAMANIRGIF in der Lage, die Spektren zu
zeichnen.
Neben der Anforderung der Spektreninformation veranlasst das CGI-Skript darüber hinaus
die temporäre Speicherung aller berechneten und eingelesenen Daten. Diese
Zwischenspeicherung verhindert, dass für die nachfolgende Generierung der animierten
Normalschwingungen eine erneute Berechnung der quantenchemischen Information
notwendig wird.
Mit der Repräsentation der wichtigsten Daten in Form einer dynamischen HTML-Seite
endet schließlich die erste Stufe der ComSpec3D-Sitzung.
Durch Wahl einer beliebigen, in der HTML-Seite dargestellten Wellenzahl kann der
Benutzer in der zweiten Stufe die Generierung und Visualisierung der korrespondierenden
Normalschwingungsanimation starten. Zu diesem Zweck wurden die einzelnen Wellenzahlen
mit Hyperlinks versehen, die das zweite CGI-Skript aktivieren. Dabei wird dem CGI-Skript
jede notwendige Information wie der Pfad zu den temporären Daten, der Index der
gewünschten Normalschwingung als auch die vom Benutzer definierten
63
4 Client-Server-basierte Visualisierung
Visualisierungsparameter übermittelt. Das CGI-Skript leitet diese Information an das
Kernsystem weiter und ruft anschließend das VRML-Modul E_VIBRATION_VRML zur
Generierung der entsprechenden Normalschwingungsanimationen auf. Die generierte
VRML-Szene wird abschließend vom CGI-Skript an den Client übermittelt und dort in einem
zweiten Browserfenster visualisiert.
4.1.4.4 Diskussion
Die Spektroskopie spielt in der chemischen Ausbildung eine wichtige und grundlegende
Rolle. In den vergangenen Jahren wurden daher eine Vielzahl an Plugins und Applets
entwickelt, die alle möglichen Spektrenformen plattformunabhängig darstellen können.
Neben dem eigentlichen Spektrum bekommen aber vor allem die zu den Intensitätspeaks
korrespondierenden Normalschwingungen eine bedeutende Rolle beim Verständnis der
theoretischen Grundlagen. Eine ansprechende Repräsentation der Normalschwingungen stellt
jedoch hohe Ansprüche hinsichtlich der Generierung und Visualisierung der hierfür
notwendigen Daten. Die Zahl der Web-Anwendungen ist aus diesem Grund sehr limitiert und
die Qualität der einzelnen Applikationen variiert dabei stark.
In einigen Online-basierten Spektroskopiekursen werden die Normalschwingungen in
Form animierter GIF-Sequenzen [111] oder als MPEG-kodierte Filme [112] dargestellt.
Diese statischen Lösungen stellen durchaus einen Vorteil gegenüber üblichen papierbasierten
Darstellungsformen dar, erlauben jedoch keine Interaktion durch den Betrachter. Eine
dreidimensionale, animierte Darstellung von Normalschwingungen in Abhängigkeit von
Intensitätspeaks in Infrarotspektren konnte jedoch mit Hilfe des Chime-Plugins [8] als auch
durch Verwendung von VRML [85, 86] demonstriert werden. Diese Ansätze dienen jedoch
lediglich zu Demonstrationszwecken und sind daher auf einen speziellen Einzelfall limitiert.
Durch Auswahl von Intensitätspeaks in einem als GIF dargestellten Spektrum können dabei
die korrespondierenden Normalschwingungen angezeigt werden. Die für die Animation
notwendigen quantenchemischen und strukturellen Daten werden zu diesem Zweck
vorberechnet und als statische Information auf dem Server abgelegt.
Eine Weiterentwicklung der Chime-basierten Darstellung animierter Normalschwingungen
wurde von Lancashire et al. vorgestellt [113]. In diesem Ansatz wird das Chime-Plugin
sowohl zur Visualisierung der Spektren als auch zur Animation der Normalschwingungen
eingesetzt. Beide Repräsentationen können dabei auch miteinander verknüpft werden.
Darüber hinaus wurden Programme zur Extraktion der notwendigen Daten aus GAUSSIAN-
berechneten Ausgabedateien entwickelt und zur Verfügung gestellt. Trotz dieser
Weiterentwicklung ist die Methode nicht universell einsetzbar. Der Anwender muss zur
Realisierung des Ansatzes sowohl über Strukturdaten, quantenchemische Programme zur
64
4.1 Hybride Strategien
Berechnung der entsprechenden Normalschwingungen als auch Dateiformate mit den
entsprechenden Spektren verfügen. Die Methode ist daher auf eine sehr begrenzte
Benutzergruppe, welche die oben genannten Programme und Dateien besitzt, limitiert und
darüber hinaus mit einem erheblichen Zeitaufwand verbunden.
Eine interaktive, Web-fähige Lösung stellt die WebMO-Anwendung dar [114]. WebMO ist
eine Internetanwendung zur Bedienung gängiger quantenchemischer Programme sowie zur
Analyse und Visualisierung der berechneten Ergebnisse.
WebMO erlaubt unter anderem die Bedienung einer komfortablen Benutzeroberfläche und
damit der darunter liegenden Programme zur Berechnung der Normalschwingungen und
Spektren. Die berechneten Spektren und Normalschwingungen können anschließend mit
Hilfe von Java-basierten Applikationen betrachtet werden. Die Normalschwingungen werden
dabei jedoch nicht in animierter Form sondern lediglich durch ausgerichtete Pfeile an den
entsprechenden Atomen repräsentiert. Da WebMO nicht als eigenständiger Online-Dienst
entwickelt wurde, existiert nur eine stark eingeschränkte Demoversion, welche die
Fähigkeiten der Benutzeroberfläche beschreibt.
Ein für die interaktive Darstellung von Normalschwingungen entwickelter Online-Dienst
ist CyberMol [107]. Die qunatenchemische Berechnung beliebiger Moleküle ist mit
CyberMol ebenfalls nicht möglich. Vielmehr muss der Benutzer eigene GAUSSIAN-
Ausgaben in ein entsprechendes Textfeld im Online-Dienst kopieren. Die resultierende
VRML-basierte Darstellung der Normalschwingungen erfolgt wie bei WebMO durch
Pfeilbeschreibungen und nicht durch Animation der Szene. Darüber hinaus scheint der
Service wie bereits beschrieben nicht mehr aktiv zu sein.
Die in dieser Arbeit entwickelte ComSpec3D-Anwendung stellt zur Zeit das
komfortabelste und am weitesten entwickelte, interaktive Werkzeug zur Berechnung und
Darstellung von Infrarot- und Raman-Spektren sowie den korrespondierenden
Normalschwingungen dar. Der Online-Dienst setzt weder zusätzliche lokale Programmpakete
noch das Vorliegen chemischer Daten voraus. Die Anwendung kann daher von jedermann
benutzt werden und eignet sich somit für den unkomplizierten Einsatz in der chemischen
Ausbildung an Schulen und Universitäten.
Neben der bereits erwähnten besseren Qualität von VRML-Animationen im Vergleich zu
Chime-Darstellungen sind die Möglichkeiten zur Beeinflussung der Animation ebenfalls
wesentlich größer. Dieser Vorteil äußert sich bei ComSpec3D unter anderem in der Fähigkeit
Animationsgeschwindigkeiten in Abhängigkeit von der jeweiligen Frequenz darzustellen.
65
4 Client-Server-basierte Visualisierung
ComSpec3D wird von diversen Schulen und Universitäten im In- und Ausland benutzt.
Der Online-Dienst wurde dabei seit April 1999 über 22.100 mal benutzt. Der Web-Service
wurde darüber hinaus von der Multimedia Educational Resource for Learning and Online
Teaching (MERLOT) begutachtet und hinsichtlich seines Potentials zum verbesserten Lernen
mit Höchstnoten ausgezeichnet.
4.1.5 MolSurf
4.1.5.1 Zielsetzung
Die Repräsentation molekularer Oberflächen hat in der Chemie und hier besonders in der
Pharmaforschung große Bedeutung erreicht. Viele aktuelle Fragestellungen lassen sich heute
ohne die Kenntnis der molekularen "Gestalt" sowie den auf ihr abgebildeten molekularen
Eigenschaften nicht mehr lösen. Dieser Umstand hat in den letzten Jahren zu einer rasanten
Entwicklung von leistungsfähigen Programmen zur Generierung und Visualisierung von
Moleküloberflächen geführt. Der Nutzen der Oberflächenvisualisierung ist aber längst nicht
mehr nur auf die chemische Forschung limitiert. Auch in der chemischen Ausbildung wurde
das Potential dieser Darstellungsform erkannt [115].
Ein großes Problem bei der Nutzung von Oberflächenrepräsentationen in der Ausbildung
liegt jedoch in dem Umstand, dass aktuelle Standardprogramme zur Berechnung von
Oberflächen nicht für den Einsatz im Unterricht konzipiert sind. Zum einen sind Schüler als
auch Lehrer oft nicht in der Lage, die mächtigen Molecular Modelling-Programme zu
bedienen. Zum anderen stellt aber auch der im Allgemeinen hohe Preis dieser Softwarepakete
ein nicht zu unterschätzendes Problem dar. Darüber hinaus wurden die kommerziellen
Applikationen für wesentlich komplexere Strukturen und Problemstellungen entworfen und
bieten aus diesem Grund keine vereinfachten Funktionen zum qualitativen Vergleich von
einfachen Molekülen.
Die MolSurf-Anwendung wurde speziell für die Bedürfnisse von Schulen und
Universitäten in enger Absprache mit Dozenten und Lehrern entwickelt. Das Ziel war dabei
die Realisierung eines einfach zu bedienenden Programms zur Darstellung molekularer
Oberflächen, welches die speziellen, oben beschriebenen Forderungen erfüllt.
4.1.5.2 Funktionsbeschreibung
Für die chemische Ausbildung werden vor allem kleine und einfache Verbindungen
benötigt. Die dafür notwendigen Strukturdaten stehen jedoch im Allgemeinen den Lehrern
und Dozenten nicht zur Verfügung und können in der Regel auch nicht aus Online-
66
4.1 Hybride Strategien
Datenbanken bezogen werden. Aus diesem Grund wurde die MolSurf-Anwendung mit einem
Struktureditor ausgestattet (Abbildung 4-12). Die benötigten Verbindungen können auf diese
Weise leicht erstellt und zur weiteren Berechnung an den Service übergeben werden.
Alternativ dazu kann die Strukturinformation auch als SMILES-String eingegeben werden.
Die Struktureingabe ist dabei in beiden Fällen aus den bereits in Abschnitt 4.1.4.2
beschriebenen Gründen auf Verbindungen mit maximal dreißig Atome (inkl.
Wasserstoffatome) begrenzt. Für den alltäglichen Einsatz im Chemieunterricht ist diese
Limitierung jedoch vollkommen ausreichend. Eine dritte Option erlaubt die Eingabe von
Datenformaten, die bereits berechnete Oberflächeninformation enthalten. Zur Zeit wird dabei
lsowohl das VAMP- als auch das COSMO-Format unterstützt (42, 249).
Abb. 4-12: MolSurf: Eingabeformular.
Nach Eingabe der Strukturdaten kann der Dozent bzw. der Schüler die Darstellungsform
der Moleküloberfläche wählen. Der Service unterstützt dabei die wichtigsten
Repräsentationsarten wie Solid, Chicken Wire bzw. Mesh und Dot Cloud (Abbildung 4-13 a-
c). Darüber hinaus können auch alle Darstellungsformen in der VRML-Szene integriert und
dort interaktiv geändert werden. Bei der Repräsentation der Strukturdaten stehen dem
67
4 Client-Server-basierte Visualisierung
Benutzer die gleichen Darstellungsformen wie beim VRML-Generator zur Verfügung (vgl.
Abschnitt 4.1.2.2). Auch diese Darstellungen können vom Benutzer interaktiv in der VRML-
Szene ausgetauscht werden (Abbildung 4-13 d-f).
Abb. 4-13: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe (Farbabbildung: Anhang A, Abbildung A-6).
Der Online-Dienst unterstützt zur Zeit nur die Abbildung des molekularen
elektrostatischen Potentials auf der Moleküloberfläche. Dies reicht jedoch für die Lösung
didaktischer Problemstellungen meist aus.
Es stehen dem Benutzer drei gebräuchliche Farbpaletten zum Einfärben der molekularen
Oberfläche zur Verfügung. Neben der Regenbogen-Farbpalette (21 Farben) und der gröberen
ASA-Farbpalette (9 Farben) steht auch noch eine Rot-Weiß-Blau-Farbskala zur Verfügung.
Für den Fall, dass keine molekulare Eigenschaft auf der Oberfläche abgebildet werden soll,
kann die Farbcodierung auch deaktiviert werden.
Eine wichtige Funktion für den Einsatz im Chemieunterricht stellt die Skalierbarkeit des
Farbwertebereichs dar. Bei dieser durch den Benutzer definierten Skalierung können für das
elektrostatische Potential frei definierbare Maxima und Minima angegeben werden, die als
Grenzwerte für den Farbverlauf dienen. Den berechneten, molekularen Eigenschaftswerten
wird anschließend ein durch diese Farbskala definierter Farbwert zugeordnet. Die vom
Benutzer definierte Farbskala kann anschließend für eine Reihe von Molekülen eingesetzt
68
4.1 Hybride Strategien
werden, womit ein Vergleich der unterschiedlichen, molekularen Eigenschaften ermöglicht
wird. So können mit Hilfe dieser Skalierung molekulare Effekte wie beispielsweise der
Einfluss einer Säuregruppe in unterschiedlichen Carbonsäuren vermittelt werden. Darüber
hinaus ermöglicht die Skalierung auch die Angabe von Grenzwerten. Dabei werden
Eigenschaftswerte mit größeren bzw. kleineren Werten als der definierte Maximal- bzw.
Minimalwert in der gleichen Farbe wie der Maximal- bzw. Minimalwert dargestellt. Neben
der Skalierung kann auch die Originalskalierung (berechnete Maxima und Minima definieren
die Grenzen der Farbskala) oder eine relative Skalierung (größter, absoluter Wert der
berechneten Maxima/Minima definiert die Grenzen der Farbskala) gewählt werden.
Nach Eingabe der Strukturinformation werden zunächst die 3D-Koordinaten der
Verbindung mit Hilfe von CORINA berechnet. Die dreidimensionale Struktur wird
anschließend zur quantenchemischen Berechnung an VAMP übergeben (AM1, SCF), wobei
die Gitterpunkte der Solvent-Excluded-Surface-Oberfläche sowie die Oberflächenwerte des
elektrostatischen Potentials berechnet werden. Aus den berechneten Daten wird schließlich
eine VRML-basierte, dreidimensionale Szene erstellt und diese an den Benutzer
zurückgeliefert (Abbildung 4-13, 4-14).
Abb. 4-14: MolSurf: VRML-Oberfläche (Solid-Repräsentation) von Trinitrotoluol mit integriertem HUD-Menü (Farbabbildung: Anhang A, Abbildung A-7).
Mit Hilfe eines semitransparenten Head-Up-Display-Menüs (HUD-Menü), das in der
VRML-Szene integriert ist, kann der Benutzer die Szene interaktiv manipulieren
(Abbildung 4-14). So kann mit Hilfe des Menüs die dargestellte Oberflächenrepräsentation
verändert oder die Strukturdarstellung ein- oder ausgeblendet werden. Darüber hinaus kann
69
4 Client-Server-basierte Visualisierung
mit Hilfe einer Slider-Funktion die Transparenz der Oberfläche beliebig variiert werden. Die
Legende für die Farbgebung ist ebenfalls im HUD-Menü integriert.
Die generierten SES-Oberflächen können über eine zusätzliche Speicheroption auch lokal
auf dem Client abgespeichert werden.
4.1.5.3 Implementierung
Für die Generierung und Speicherung der molekularen Oberflächendaten und
Eigenschaften wurden sechs neue Eigenschaftsbeschreibungen bzw. Module sowie eine
Leseroutine für das quantenchemische Programm VAMP entwickelt.
Die Generierung der 3D-Koordinaten und der VRML-Repräsentation für die molekulare
Struktur erfolgt dabei nach den bereits vorgestellten Mechanismen (vgl. Abschnitt 4.1.2.3)
und wird daher an dieser Stelle nicht mehr näher erläutert. Das zentrale Modul bei der
Generierung der Oberflächendaten ist die Eigenschaftsbeschreibung O_POINT. Dieses Modul
enthält, wie der Name schon sagt, die 3D-Koordinaten der Raumpunkte, welche die
molekulare Oberfläche beschreiben. Nachdem die 3D-Koordinaten in gewohnter Weise
(CORINA) generiert wurden, erstellt das Oberflächenmodul zunächst eine VAMP-
Eingabedatei. Durch die in der Eingabedatei enthaltenen Befehle MAP und SES wird VAMP
veranlasst, eine Solvent Excluded Surface (vgl. Abschnitt 3.1.3.4) für das vorliegende
Molekül zu erstellen (VAMP-Befehlszeile: AM1 1SCF NOZ XYZ MAP). Die triangulierten
Oberflächendaten als auch die Werte des darauf abgebildeten molekularen elektrostatischen
Potentials werden von VAMP in eine Ausgabedatei geschrieben und mit Hilfe der VAMP-
Leseroutine in das CACTVS-System eingelesen. Nach dem Einlesevorgang steht die
Oberflächeninformation in den CACTVS-internen Oberflächenmodulen zur Verfügung.
Im Gegensatz zu den bereits beschriebenen Anwendungen wird die übergeordnete VRML-
Szene nicht durch ein spezielles CACTVS-Modul generiert. Lediglich die dreidimensionale
Molekülstruktur wird mit Hilfe des bereits bekannten E_VRML-Moduls erstellt. Die
Generierung der VRML-basierten Oberfläche wird in der MolSurf-Anwendung direkt vom
CGI-Skript unter Verwendung der in den Oberflächen-Modulen enthaltenen Daten realisiert.
Die bereits zuvor generierte VRML-Datei der Molekülstruktur wird anschließend in die vom
CGI-Skript generierte VRML-Szene integriert.
4.1.5.4 Diskussion
Zur Generierung und Visualisierung molekularer Oberflächen und Eigenschaften steht
dem Chemiker heute eine große Anzahl an kommerziellen und kostenfreien,
plattformabhängigen Programmen zur Verfügung. Während vor einigen Jahren die
70
4.1 Hybride Strategien
Darstellung molekularer Oberflächen nur auf diese Standalone-Applikationen begrenzt war,
existieren heute auch einige Web-Anwendungen zur Repräsentation entsprechender
Datenobjekte. Einige dieser Programme sind Plugins wie beispielsweise WebLab Viewer [79]
und Chime [32]. Diese Plugins sind in der Lage, Solvent Accessible Surfaces als auch das
molekulare elektrostatische Potential zu generieren und zu visualisieren. Die Qualität der
Darstellung variiert zwischen den Plugins sehr stark. Aufgrund seiner eingeschränkten
Farbdarstellungsfähigkeiten weist das Chime-Plugin die schlechteste Repräsentation auf.
Darüber hinaus unterstützt diese Anwendungen nur sehr rudimentäre Optionen zur
Beeinflussung der Oberflächendarstellung. Ein weiterer Nachteil dieser Plugins begründet
sich durch ihren plattformabhängigen Charakter. In der Regel können die Applikationen nur
auf Windows- und eingeschränkt auf Mac-Plattformen zum Einsatz kommen. Der Einsatz des
Chime-Plugins in Verbindung mit der neuen Generation an Webbrowsern wird darüber hinaus
zur Zeit nicht unterstützt, was dessen Einsatz stark einschränkt. Obwohl durch diese Systeme
in der Regel keine zusätzlichen Kosten entstehen ist deren Einsatz im Chemieunterricht daher
nur bedingt möglich. Das liegt unter anderem auch an dem Umstand, dass die Plugins nicht
auf die Lösung spezieller didaktischer Problemstellungen wie die Skalierbarkeit der
Farbwerte ausgerichtet sind. Zum anderen fordern diese Programme das Vorliegen
entsprechender 3D-Austauschformate, die in der Regel den Lehrern bzw. Schülern nicht zur
Verfügung stehen.
Die in den Plugins implementierten Funktionen zur Generierung der Oberflächen und der
Moleküleigenschaften erlauben in der Regel nur vereinfachte bzw. genäherte Ausgaben.
Qualitativ höherwertige Ergebnisse erfordern den Einsatz spezieller Programme. Die
Ausgaben dieser Programme können sehr leicht mit dem plattformunabhängigen VRML-
Standard visualisiert werden. Der Einsatz von VRML erlaubt dabei eine im Gegensatz zu den
Plugins höherwertige Darstellungsqualität. Darüber hinaus bietet sich mit Hilfe dieses
Austauschsformat auch die Möglichkeit einer verbesserten Interaktion.
Eine sehr einfache VRML-basierte Darstellung molekularer Elektronendichten erlaubt die
Waltz-Applikation des National Center for Supercomputing Applications [116]. Das
Programm ermöglicht die Eingabe von Elementen über ein HTML-basiertes Periodensystem
und visualisiert die resultierenden Elektronendichten mit Hilfe statischer oder animierter
Bilder. Alternativ zu dieser 2D-Repräsentation kann der Benutzer auch eine einfarbige
VRML-Oberfläche zur Darstellung der Elektronendichte betrachten. Die stark
eingeschränkten und limitierten Eingabemöglichkeiten sowie die sehr einfachen
Darstellungsformen (keine Strukturdaten, keine molekularen Eigenschaften) sind für die
Nutzung dieser Anwendung in der chemischen Ausbildung unzureichend.
71
4 Client-Server-basierte Visualisierung
Einen weiterentwickelten Ansatz stellt das Web-Interface des Programms MSMS
dar [117]. MSMS wurde speziell für die schnelle Berechnung von molekularen Oberflächen
entwickelt. Der Service bietet einige Optionen mit denen die Oberflächendarstellung
beeinflusst werden kann. Unter anderem kann der Benutzer dabei den Repräsentationsstil der
Oberfläche wählen (Solid, Chicken Wire, Points). Leider unterstützt MSMS nur den veralteten
VRML1.0-Standard, der von vielen aktuellen VRML-Viewern nicht mehr dargestellt werden
kann. Darüber hinaus ist auch bei MSMS die Eingabe bereits vorliegender 3D-
Strukturinformation notwendig.
Das zur Zeit am weitesten entwickelte Online-Werkzeug zur Analyse und Visualisierung
molekularer Strukturen und Oberflächen ist GRASS [118]. GRASS ist ein Web-fähiges
Frontend des Programms GRASP und vor allem für den Einsatz mit Proteinen konzipiert.
GRASS unterstützt den VRML97-Standard und ist in der Lage, beliebig definierte
Oberflächen sowie eine Vielzahl molekularer Eigenschaften wie beispielsweise das
elektrostatische Potential, die Hydrophobizität oder Atomladungen zu visualisieren. Das
Benutzerinterface ist aus diesem Grunde auch entsprechend komplex und teilweise sehr
kompliziert. Der Online-Dienst setzt als Eingabe Strukturdaten im PDB-Format voraus.
Obwohl diese Dateien aus Online-Datenbanken bezogen werden können, sind einfache für
den Unterricht relevante Moleküle in der Regel nicht in diesen Datenbanken enthalten.
Darüber hinaus bietet auch GRASS keine Möglichkeit zur Skalierung der Werte. Aufgrund
seiner Ausrichtung auf große Molekülsysteme und dem damit verbundenen hohen Maß an
Komplexität ist GRASS für den Einsatz an Schulen oder Universitäten nicht geeignet.
MolSurf wurde speziell für den Einsatz im Chemieunterricht entwickelt und bietet daher
nur die für den didaktischen Einsatz notwendigen Funktionalitäten. Eine Fehlbedienung
durch einen Schüler oder Lehrer kann aufgrund des einfachen und intuitiven Aufbaus
ausgeschlossen werden. Der Benutzer kann ohne spezielle Vorkenntnisse einfache Moleküle
zeichnen und per Mausklick visualisieren. MolSurf berücksichtigt dabei nach unserer
Erkenntnis als einzige Applikation eine Benutzer-definierte Skalierung des Wertebereichs, so
dass der für den Unterricht wichtige qualitative Vergleich verschiedener Verbindungen
(„Welches Molekül ist welchem Molekül am ähnlichsten?“) einfach zu realisieren ist. Durch
den Einsatz des Struktureditors können alle Moleküle selbst erstellt werden, wodurch das
Vorliegen von Strukturaustauschformaten entfällt. Die interaktiven Werkzeuge innerhalb der
Szene (HUD-Display) ermöglichen dem Schüler darüber hinaus zusätzliche Freiheitsgrade
bei der Analyse der Szene. Aus diesen Gründen stellt MolSurf nach unserer Auffassung das
für die chemische Ausbildung geeignetste Werkzeug zur Visualisierung molekularer
Oberflächen dar. Obwohl MolSurf von allen in diesem Kapitel vorgestellten Applikationen
die jüngste Entwicklung darstellt (Februar 2001), wurde der Online-Dienst bereits ca. 4.100
mal genutzt. Die Anwendung hat zudem in der internationalen Fachpresse [119]
72
4.1 Hybride Strategien
Anerkennung gefunden und wurde darüber hinaus auch für die Gestaltung des neuen Römpp-
Online [120] sowie von Abbildungen in einem anorganischen Lehrbuch [124] benutzt.
4.1.6 Weitere hybride Ansätze
Im Rahmen des ChemVis-Projekts wurden von unseren Projektpartnern (Dr. Klaus Engel,
Prof. Thomas Ertl, Abteilung Visualisierung und interaktive Systeme, Institut für Informatik,
Universität Stuttgart) einige weiterentwickelte, hybride Applikationen vorgestellt. Die
Ansätze befassen sich vor allem mit der Visualisierung sehr großer Volumendatensätze wie
beispielsweise elektronenmikroskopischen Volumendaten. Aufgrund der enormen Größe der
Datensätze müssen diese Techniken sicherstellen, dass einerseits eine hohe Netzlast
verhindert und andererseits die Graphikhardware des Clients nicht überlastet wird. Dies kann
durch die Begrenzung der Anzahl der geometrischen Primitive (Punkte, Linien, Kugeln,
Zylinder, etc.) sichergestellt werden. Im Rahmen unseres Projektes wurden dabei zwei
Verfahren verfolgt [102].
Die sogenannte progressive Übertragungstechnik basiert auf unterschiedlichen
Auflösungsstufen (Multi-Resolution-Repräsentationen) einer Oberfläche, die durch
hierarchische Zerlegungsalgorithmen erhalten werden. Die resultierenden Auflösungsstufen
können komprimiert und progressiv an einen Client übermittelt werden. Auf diese Weise läßt
sich sowohl die Visualisierung beschleunigen als auch die Netzlast verringern. Ein
entsprechender, Online-Dienst wurde von unseren Projektpartner vorgestellt [125]. Die
Anwendung basiert zum einen auf einem Visualisierungsserver, der bereits über diverse,
vorverarbeitete Multi-Resolution-Repräsentationen ausgesuchter Datensätze verfügt. Zum
anderen besteht die Anwendung aus einem Client-seitigen Java-Applet, das dem Benutzer die
Auswahl und Darstellung der Server-seitigen Datensätze ermöglicht. Nach Selektion eines
Datensatzes extrahiert der Server eine Isofläche in der gewünschten Auflösung aus dem
Datensatz und transferiert die entsprechenden Polygone an den Client. Die Polygone werden
auf der Client-Seite mittels Java3D oder VRML dargestellt. Der Benutzer kann die nun in
grober Auflösung vorliegende Szene weiter verfeinern, in dem er zusätzliche
Isoflächendetails vom Server abruft. Dieser Vorgang läßt sich so lange wiederholen, bis der
Datensatz in der höchsten Auflösung dargestellt wird (Abbildung 4-15). Im Gegensatz zu den
in dieser Arbeit entwickelten Applikationen muss die graphische Szene nicht vollständig an
den Client übermittelt werden, um eine Darstellung der Szene und Interaktion mit den Daten
zu gewährleisten. Vielmehr kann der Benutzer bereits mit einer grobaufgelösten
Darstellungsform interagieren, während die fehlende Isoflächeninformation automatisch über
das Internet nachgeladen und in die graphische Szene integriert wird. Der Ansatz birgt jedoch
auch Nachteile. Wenn der Benutzer an Detailinformationen wie beispielsweise der ActiveSite
73
4 Client-Server-basierte Visualisierung
auf einer Proteinoberfläche interessiert ist, muss er warten bis alle Isoflächendaten an den
Client übermittelt worden sind und die komplette Szene in hochaufgelöster Form vorliegt.
Darüber hinaus können bei der hochaufgelösten Darstellung zu viele Polygone auf dem Client
vorliegen, was schließlich wieder zu einer drastischen Verminderung der Interaktions- und
Renderingrate führt.
Abb. 4-15: Progressiver Visualisierungsansatz [125].
Sucht der Benutzer hingegen bereits zu Anfang der Visualisierungssitzung nach Details
oder soll ein besonders großer Datensatz trotz zu vieler Polygone detailliert dargestellt
werden, so muss ein sogennanter Octree-basierter Isoflächenansatz eingesetzt werden. Im
Gegensatz zum progressiven Ansatz erlaubt der Octreeansatz die Selektion belieber Bereiche
des Datensatzes. Der Benutzer kann daher einen interessanten Bereich in der grobaufgelösten
Szene selektieren, welcher anschließend durch Übertragung der fehlenden
Isoflächeninformation mit hoher Auflösung rekosntruiert wird. Außerhalb dieser Region und
mit steigendem Abstand wird die Fläche mit zunehmend gröberen Auflösungsstufen
rekonstruiert. Auf diese Weise lassen sich ausreichend hohe Bildwiederholraten als auch
interaktive Navigation erreichen. Ein entsprechender Webservice wurde von unseren
Projektpartner entwickelt [102]. Mit Hilfe eines Java-Applets kann der Benutzer zunächst
einen Fokuspunkt innerhalb der grobaufgelösten Szene plazieren. In einem bestimmten
Abstand um diesen Fokuspunkt wird die Szene dann mit einem hohen Detailierungsgrad
dargestellt, wobei die fehlende Isoflächeninformation über das Internet vom Server abgerufen
wird. Während der Darstellung kann der Benutzer den Fokuspunkt beliebig in der Szene
manövrieren. Diese Benutzerinteraktion wird automatisch vom Applet an den Server
übermittelt und führt zur erneuten Übertragung der fehlenden Daten. Auf diese Weise kann
der Benutzer wie mit einer Lupe über das zu untersuchende Objekt fahren. Das Applet
ermöglicht somit hohe Interaktionsraten bei gleichzeitig hoher Auflösung der graphischen
Szene.
74
4.2 Client-seitige Strategien
4.2 Client-seitige Strategien
4.2.1 Definition
Durch die enorm gestiegenen Rechen-, Speicher- und Graphikkapazitäten heutiger
Arbeitsplatzrechner sind in den letzten Jahren Client-seitige Ansätze (Abbildung 4-16) stark
in den Vordergrund getreten. Dabei werden die zu visualisierenden Daten vollständig auf den
Client übertragen, wo dann alle weiteren Berechnungen durch die Module der
Visualisierungspipeline durchgeführt werden. Da während der Interaktion keine weitere
Datenübertragung notwendig ist, können bei entsprechender Leistungsfähigkeit des Clients
hohe Interaktionsraten erzielt werden. Im Prinzip basiert diese Strategie somit im eigentlichen
Sinn nicht auf einen Graphiktransfer sondern auf einen Datentransfer.
Abb. 4-16: Client-seitige Strategien.
Für den im Folgenden beschriebenen Webservice OrbVis wurde ein solcher Ansatz
gewählt, da die Anzahl der Dreiecke während der Orbitalvisualisierung in der Regel in einer
Größenordnung bleibt, bei der jeder Standard-PC die volle Szene in ihrer maximalen
Auflösung bewältigen kann. Außerdem ist ein Volumendatentransfer zur Erzeugung der
Molekülorbitale nicht nötig, da die Oberflächen mit Hilfe eines übertragenen Applets
(Software-Transfer) lokal berechnet werden können. Obwohl VRML-basierte Systeme
generell zu den hybriden Strategien zählen, gilt dies nicht für die VRML-basierte OrbVis-
Applikation. Die VRML-Szene wird mittels des Applets vollständig auf dem Client generiert.
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
Visualisierungspipeline
Server Client
75
4 Client-Server-basierte Visualisierung
4.2.2 OrbVis
4.2.2.1 Zielsetzung
Wie auch ComSpec3D (vgl. Abschnitt 4.1.4) wurde OrbVis vor allem zum vereinfachten,
didaktischen Zugang zur Quantenchemie entwickelt. Im Gegensatz zu ComSpec3D dient
OrbVis dabei zur Berechnung und Visualisierung von Molekülorbitalen (MO).
Molekülorbitale beschreiben die Aufenthaltswahrscheinlichkeit von Elektronen in Molekülen
und sind unter anderem wichtig zum Verständnis von Reaktionen.
Während molekulare Oberflächen und Eigenschaften auf Oberflächen mittlerweile durch
einige Web-Anwendungen dargestellt werden können, ist die interaktive Visualisierung von
Molekülorbitalen durch digitale Dokumente bzw. Medien im Internet generell noch nicht
möglich. OrbVis sollte diese Lücke schließen. Ein Hauptziel des Online-Dienstes war dabei
ein größtmögliches Maß an Interaktivität zu realisieren. Der Benutzer sollte in der Lage sein,
die Grenzwerte der Elektronendichte und somit die Ausdehnung der Molekülorbitale
interaktiv in der Szene zu verändern.
4.2.2.2 Funktionsbeschreibung
OrbVis wurde in enger Zusammenarbeit mit Dr. Klaus Engel von der Abteilung
"Visualisierung und Interaktive Systeme" des Instituts für Informatik der Universität Stuttgart
entwickelt. Wie alle in diesem Kapitel vorgestellten Applikationen bietet auch OrbVis einen
Java-basierten Struktureditor zur Eingabe von Verbindungen. Dies ist, wie bereits erwähnt,
vor allem für Schulen von Vorteil, da somit keine zusätzlichen chemischen Austauschformate
notwendig sind. Die Strukturdaten können auch in dieser Applikation alternativ durch die
SMILES-Notation an das System übergeben werden. Da zur Generierung der Molekülorbitale
quantenchemische Berechnungen notwendig sind, wurde auch in OrbVis die maximale Größe
der Verbindungen auf dreißig Hauptgruppenelemente limitiert. Das Eingabeformular
(Abbildung 4-17) des Online-Dienstes beinhaltet neben den Feldern zur Struktureingabe
keine weiteren Funktionen zur Beeinflussung von Visualisierungsparametern, da die
dreidimensionale Szene vollständig auf dem Client erzeugt und dort bearbeitet werden kann.
Nachdem die Struktureingabe erfolgt ist, startet die Applikation die Berechnung der
dreidimensionalen Koordinaten (CORINA). Die dreidimensionale Strukturinformation wird
anschließend an VAMP übergeben, wo unter Verwendung der AM1-Methode die
Molekülorbitalinformation berechnet wird (Befehl: ALLVECTORS). Das Ergebnis dieser
Berechnungen wird in Form einer dynamisch generierten HTML-Seite angezeigt (Abbildung
4-18).
76
4.2 Client-seitige Strategien
Abb. 4-17: OrbVis: Eingabeformular.
Abb. 4-18: OrbVis: Auswahlfenster (Farbabbildung: Anhang A, Abbildung A-8).
Die Seite enthält dabei die wichtigsten Daten der semi-empirischen Berechnung. Zum
einen gibt die Seite Auskunft über die Gesamtzahl der berechneten Molekülorbitale sowie
über die Zahl der besetzten und unbesetzten Vertreter. Des Weiteren enthält die Seite eine
77
4 Client-Server-basierte Visualisierung
graphische Repräsentation der drei höchsten besetzten Energieniveaus (inkl. Highest
Occupied Molecular Orbital (HOMO)) und der drei niedrigsten unbesetzten Energieniveaus
(inkl. Lowest Unoccupied Molecular Orbital (LUMO)). Bei der graphischen Darstellung der
Energieniveaus wird auch der Entartungszustand der Energieniveaus berücksichtigt.
Die zu visualisierenden Molekülorbitale können auf unterschiedliche Weise ausgewählt
werden (Abbildung 4-19). Zum einen kann der Benutzer die Nummer eines Molekülorbitals
in das dafür vorgesehene Feld im HTML-Formular eintragen. Zum anderen kann aber auch
die HOMO/LUMO-Option im HTML-Formular aktiviert werden, wodurch eine parallele
Betrachtung des HOMOs und des LUMOs im VRML-Plugin möglich ist. Als dritte
Möglichkeit kann der Benutzer auch direkt eines der Molekülorbitale in der
Energieniveauübersicht mit Hilfe des Mauszeigers selektieren.
Abb. 4-19: OrbVis: Java-Applet und VRML-Plugin, HOMO von Anilin (Farbabbildung: Anhang A, Abbildung A-9).
78
4.2 Client-seitige Strategien
Die Visualisierung der Molekülorbitale erfolgt auf einer weiteren HTML-Seite, in der
sowohl ein VRML-Plugin als auch ein Java-Applet eingebettet sind (Abbildung 4-19). Das
Applet berechnet anhand der übertragenen Orbitalkoeffizienten und der im Applet
implementierten Wellenfunktion die Elektronendichte für einen gegebenen Isowert und stellt
das resultierende Molekülorbital im VRML-Plugin dar.
Das Applet stellt dem Benutzer einige zusätzliche Werkzeuge zur Verfügung, mit denen
die Szene in vielfältiger Weise manipuliert werden kann. So kann mit Hilfe eines
Schiebereglers (Slider) die Transparenz der Molekülorbitale stufenlos verändert werden.
Darüber hinaus kann mittels eines zweiten Sliders der Isowert bzw. Grenzwert der
Elektronendichte verändert werden. Unmittelbar nach Änderung der Einstellung oder per
Knopfdruck berechnet das Applet die neuen Oberflächen für den entsprechenden Isowert. Mit
Hilfe dieser Option wird auf einfache Weise der Zusammenhang zwischen Elektronendichte
und Ausdehnung der Molekülorbitale vermittelt. Liegen dem Applet sowohl die
Orbitalkoeffizienten des HOMOs als auch die des LUMOs vor, so können beide
Molekülorbitale im VRML-Plugin visualisiert werden. Um eine komfortable Visualisierung
der Applets zu erlauben, können beide Darstellungen auch jeweils einzeln ein- oder
ausgeblendet werden. Eine weitere Option des Applets erlaubt das Exportieren der
berechneten VRML-basierten Molekülorbitale.
4.2.2.3 Implementierung
Wie auch ComSpec3D läuft der OrbVis-Dienst in einem zweistufigen Prozess ab
(Abbildung 4-20). Nach der Übergabe der strukturellen Konnektivitätsinformation an die
CACTVS-Kernbibliothek fordert das erste CGI-Skript die dreidimensionalen Koordinaten
vom Kernsystem an. Die Generierung der 3D-Information wird dabei durch die bereits
beschriebenen Mechanismen realisiert. Das CGI-Skript generiert unter Verwendung der 3D-
Information eine VAMP-Eingabedatei (Schlüsselwort ALLVECTORS) und startet danach das
semi-empirische MO-Programm. Die von VAMP produzierte SD-Datei wird anschließend mit
Hilfe einer entsprechenden CACTVS-Leseroutine eingelesen und analysiert. Im Gegensatz zu
den anderen in diesem Kapitel beschriebenen Applikationen wurden bei der Implementierung
der OrbVis-Anwendung keine spezifischen CACTVS-Module zur Aufnahme der
Orbitalvektorinformation entwickelt. Trotz dieses Sachverhalts erkennt das System
automatisch diese spezifische Information innerhalb der von VAMP generierten SD-Datei
und speichert sie on-the-fly in einem temporären, sogenannten synthetischen Datencontainer
namens E_ORBITALVECTORS (vgl. „synthetische Deskriptoren“, Abschnit 2.3.1.2). Der
Name des Moduls leitet sich dabei automatisch von der Datenfeldbezeichnung innerhalb der
SD-Datei ab. Diese Fähigkeit von CACTVS unbekannte, chemische Datenobjekte
automatisch in nicht-spezifisch definierten Standardmodulen zu erfassen, ermöglicht einen
79
4 Client-Server-basierte Visualisierung
verlustfreien und unkomplizierten Zugriff auf jede Information innerhalb der SD-Datei. Die
Information in E_ORBITALVECTORS wird anschließend vom CGI-Skript zur Generierung
der dynamischen HTML-Seite benutzt.
Abb. 4-20: Schematische Darstellung einer OrbVis-Sitzung.
Im zweiten Prozessschritt ruft der Benutzer durch Wahl eines Molekülorbitals das zweite
CGI-Skript auf. Dabei wird dem CGI-Skript neben dem Index des Orbitals auch der Pfad zu
der temporären SD-Datei übergeben. Beim Einlesen der temporären Daten durch das
Kernsystem stehen anschließend wieder jede notwendige Information (3D-Koordinaten,
Orbitalvektoren) zur Generierung der Molekülorbitale zur Verfügung, ohne dass eine
wiederholte Neuberechnung nötig ist. In einem nächsten Schritt fordert das CGI-Skript eine
VRML-Repräsentation der Strukturdaten vom CACTVS-Kernsystem an. Die Generierung
dieser Daten erfolgt dabei nach den bereits beim VRML-Generator vorgestellten
Mechanismen. Des Weiteren fordert das CGI-Skript die Orbitalkoeffizienten für das
entsprechende Molekülorbital an. Die berechneten Daten werden in stark komprimierter
Form als Applet-Funktionsparameter an den Client übermittelt. Das mit der VRML-Szene in
HTML-
Formular
Eingabe
Strukturdaten
Orbital-Information
CACTVS-System
Einlesen & Analysechem. Information
CORINA-Modul(3D-Struktur-
generator)
Client Server
3D Koordinaten
VAMP(quantenchem.Berechnungen)
CGI-Skript
VRML-Szene
Auswahl
SDF-Leseroutine
Orbitaldaten-Modul(E_ORBITALVECTORS)
Orbitaldaten-Modul(E_ORBITALVECTORS)
SDF-Leseroutine
VRML-Modul(E_VRML)
temporäresSD File
Ausgabe
Orbital-Information
HTML-
Formular
Auswahl
80
4.2 Client-seitige Strategien
der HTML-Seite integrierte Java-Applet nimmt auf diesem Wege die VRML-Szene mit der
Strukturdarstellung als auch die molekularen Orbitalkoeffizienten entgegen. Dem Applet
liegen damit alle chemischen Daten zur Darstellung der Molekülorbitale vor.
Der Vorteil dieser Methode ist, dass nur eine HTML-Seite mit wenigen Zeilen HTML-
Code (1 Zeile pro Atom) anstatt großer Volumendatensätze, die im Fall von Gaussian-Cube-
Dateien in der Regel über ein Megabyte groß sind, oder VRML-Dateien an den Client
übertragen werden müssen. Diese Vorgehensweise ermöglicht eine komplett lokale
Interaktion auf der Clientseite. Die Berechnung der Volumendaten, die Generierung der
Isoflächen (Oberflächen) als auch die Kombination aller Daten in der Basisszene werden
vollständig vom Applet übernommen.
Zur Generierung der Elektronendichte verfügt das Applet über zwei
Minimalbasisfunktionen zur Berechnung von Slater Type Orbitals (STO). Die eine
Wellenfunktion berücksichtigt dabei nur s-Orbitalanteile und kommt daher bei Helium und
Wasserstoff zum Einsatz. Die andere Wellenfunktion wird für alle anderen Atomtypen
verwendet, da sie zusätzlich auch p-Orbitalanteile berechnet. In beiden Funktionen fließen
zum einen die atomspezifischen Normierungsfaktoren der Austin Method 1 (AM1) [121] als
auch die AM1-berechneten Orbitalkoeffizienten ein. Durch Anwendung der quadrierten
Wellenfunktionen auf einem kartesischen Raumgitter ergibt sich letztendlich die
Elektronendichte für das entsprechende Molekül. Aus den Volumendaten werden
anschließend mit dem Marching-Cubes-Algorithmus [25] Isoflächen extrahiert und diese
nach Triangulation mit Hilfe des External Authoring Interface (siehe Abschnitt 2.2.5) in die
Basis-VRML-Szene des Plugins eingebaut. Eine detaillierte Beschreibung der Applet-
Implementierung wird an anderer Stelle vorgenommen [26].
4.2.2.4 Diskussion
Die Visualisierung von Molekülorbitalen ist für das Verständnis chemischer Prozesse wie
beispielsweise Reaktionen von hoher Bedeutung. Im Gegensatz zu molekularen Oberflächen
können diese Daten jedoch nicht durch einfache Algorithmen direkt aus der
dreidimensionalen Struktur abgeleitet werden. Vielmehr ist dafür der Einsatz spezieller,
quantenchemischer MO-Programme notwendig. Dies ist auch der Grund, warum die
Berechnung und Visualisierung von Molekülorbitalen bis heute generell nicht durch Web-
Applikationen möglich ist. Dennoch existieren einige Plugins, die eine Visualisierung
spezieller Volumendaten realisieren können. Der bekannteste Vertreter ist das bereits
mehrfach erwähnte Chime-Plugin. In der aktuellen Version 2 kann Chime auch GAUSSIAN-
Cube-Dateien [24] einlesen und die darin enthaltenen Isoflächen visualisieren. Dieser Ansatz
eignet sich jedoch nur für sehr kleine Volumendatensätze, da Cube-Dateien in der Regel sehr
81
4 Client-Server-basierte Visualisierung
groß sind (einige zehn Kilobytes bis einige Megabytes) und somit ein Transport über das
Internet sehr zeitaufwendig ist. Einen anderen Ansatz verfolgt das Chem3D-Plugin der Firma
CambridgeSoft [122]. Das Plugin kann das kleine, firmenspezifische C3D-Format lesen. Ein
großer Nachteil dieser Methode besteht jedoch darin, dass dieses Format von einer
entsprechenden kommerziellen Applikation (Chem3D Ultra) aus quantenchemischen
Austauschformaten generiert werden muss.
Alternativ zu den Plugin-basierten Methoden kann auch VRML zur Visualisierung der
Molekülorbitale zum Einsatz kommen. Erste VRML-basierte Beispiele zur Visualisierung
von Atomorbitalen wurden von Brickmann vorgestellt [9]. Dieser auf VRML1.0 basierende
Ansatz ermöglicht dem Benutzer die Berechnung und Visualisierung von Atomorbitalen des
Wasserstoffsatoms. Nach Selektion eines Atomorbitals in einem HTML-Formular berechnet
eine Server-seitige Wellenfunktion die korrespondierende Elektronendichte. Für einen vom
Benutzer definierten Isowert wird im Anschluss die Oberfläche des Atomorbitals berechnet
und schließlich in einer VRML-basierten Solid-, Linien- oder Point-Darstellung
repräsentiert. Leider können mit Hilfe des Service nur die Atomorbitale (s, p, d) des
Wasserstoffatoms berechnet und dargestellt werden. Des Weiteren wird das veraltete
VRML1.0-Format von vielen VRML-Leseapplikationen nicht mehr unterstützt.
Das Potential von VRML-basierten MO-Darstellungen zum leichteren Verständnis von
theoretischen Grundlagen wurde auch in dem Buch „The Chemist’s Electronic Book of
Orbitals“ genutzt [123]. Im Gegensatz zu dem auf Wasserstoff limitierten zuvor
beschriebenen Ansatz, bietet die dem Lehrbuch beiliegende CD VRML-basierte
Molekülorbitaldarstellungen von über 160 Molekülen. Dabei kann nicht nur ein einzelnes
Molekülorbital sondern alle berechneten MOs für die jeweilige Verbindung dargestellt
werden. Leider basieren auch diese VRML-Szenen auf dem veralteten VRML1.0-Format.
Darüber hinaus ist die Darstellung Molekülorbitale nur auf die vorhandenen Moleküle
begrenzt.
Während die beschriebenen Methoden das Vorliegen vorberechneter Originaldaten
erfordern oder in ihrer Anwendung stark limitiert sind, werden im Folgenden Ansätze
vorgestellt, die eine interaktive Berechnung und Visualisierung beliebiger Molekülorbitale
erlauben. Eine entsprechende Applikation ist der bereits beschriebene Waltz-Dienst [116].
Nachdem sich ein Benutzer für den Online-Service registrieren lassen hat, kann er mittels
eines HTML-basierten Periodensystem die gewünschten Atomtypen und deren Anzahl
festlegen. Auf der nächsten Seite müssen anschließend die 3D-Koordinaten der Atome
angegeben werden. Nach der im Anschluss folgenden quantenchemischen Berechnung
werden die Orbitale in Form von Bildern dargestellt. Der Benutzer kann aber auch eine
alternative VRML-Darstellung wählen. Diese VRML-basierte Repräsentation enthält
82
4.2 Client-seitige Strategien
allerdings keinerlei strukturelle Information. Obwohl die dreidimensionalen Koordinaten
aufgrund der Möglichkeit zur Geometrieoptimierung nicht exakt angegeben werden müssen,
ist das Eingabeverfahren sehr unkomfortable und kompliziert. Für den Einsatz im chemischen
Unterricht ist diese Methode der Dateneingabe darüber hinaus vollkommen ungeeignet.
Die OrbVis-Applikation stellt nach unserer Erkenntnis das einzige System dar, das sowohl
die Berechnung als auch die Visualisierung der Molekülorbitale vollständig auf der
Clientseite realisiert. Diese Architektur beinhaltet mehrere Vorteile. Zum einen ist die Menge
der über das Internet transportierten Daten sehr klein, da die Berechnung der verhältnismäßig
großen Volumendaten vollständig auf dem Client durchgeführt werden kann. Durch diesen
Ansatz werden des Weiteren auch die guten 3D- und Rechen-Leistungen heutiger Standard-
PCs unterstützt.
Der wichtigste Vorteil der Applikation liegt jedoch in der Gewährleistung einer schnellen
Reaktion auf Benutzereingaben und dem damit verbundenen Höchstmaß an Interaktion. Der
Benutzer kann beispielsweise den Detailierungsgrad und die Transparenz der Molekülorbitale
einstellen, einzelne Orbitale voneinander unabhängig ein- oder ausblenden oder die
Grenzwerte für die Orbital-Isoflächen dynamisch verändern, so dass die
Elektronendichteverteilung interaktiv verfolgt werden kann. Der Einsatz des Struktureditors
zur Eingabe von Molekülen erlaubt auch in diesen Fall den unkomplizierten Einsatz der
Anwendung an Schulen und Universitäten.
Die Akzeptanz des Webdienstes zeigt sich vor allem in den hohen Nutzungszahlen.
Innerhalb der letzten zwei bis drei Jahre wurde die Anwendung bereits über 13.000 mal
aufgerufen. Darüber hinaus wurde die Applikation auch in wissenschaftlichen Publikationen
anderer Autoren beschrieben [126].
OrbVis wurde im Rahmen eines Software-Praktikums [127] auch als reine Java-basierte
Applikation weiterentwickelt. Durch diese Architektur kann somit auf den Einsatz und die
Installation eines zusätzlichen VRML-Viewers verzichtet werden. Die dreidimensionale
Visualisierung der Molekülorbitale wird stattdessen mit der Java3D-Erweiterung (vgl.
Abschnitt 2.2.6) realisiert. Des Weiteren wurde im Rahmen des ChemVis-Projekts eine
Prototyp-Applikation zur Animation von Molekülorbitalen während einer chemischen
Reaktion entwickelt [128].
4.2.3 Weitere Client-seitige Ansätze
Der Großteil der aktuellen Web-Applikationen wie die chemischen Plugins werden
vollständig auf der Clientseite ausgeführt. Generell basieren diese Ansätze aber nicht auf
dreidimensionalen Visualisierungsmethoden, sondern nutzen vielmehr Techniken wie die
83
4 Client-Server-basierte Visualisierung
Pseudo-3D-Darstellung zur Vermittlung eines räumlichen Eindrucks. Aus diesem Grund
können diese Applikationen daher nicht zu den hier besprochenen Ansätzen gezählt werden.
Es gibt jedoch auch Ausnahmen. Durch den Einsatz der Java3D-Erweiterung können heute
Web-Applikationen entwickelt werden, die das 3D-Graphik- und Rechen-Potential heutiger
Client-Systeme nutzen können. Ein erster Vertreter dieser neuen Klasse von Applikationen
stellt das SRS 3D Modul der Firma Lion Bioscience dar [92].
Während die bis dato beschriebenen Applikationen alle auf der Isoflächen-basierten
Volumenvisualisierung aufbauen, wurden im Rahmen des ChemVis-Projekts auch Ansätze
zur Client-seitigen, Textur-basierten Visualisierung verfolgt. Diese Art der Visualisierung war
bis vor wenigen Jahren nur auf mit entsprechender 3D-Texturhardware ausgestatteten
Hochleistungsrechner möglich.
Die modernen low-cost Graphikkarten, die vor allem für Spiele- und
Multimedianwendungen konzipiert wurden, verfügen jedoch zunehmend über leistungsfähige
Multitextureinheiten. Speziell für diese Client-seitigen Hardware-Architekturen wurde von
unseren Projektpartnern im ChemVis-Projekt ein sogenannter Pre-Integrated Volume
Rendering-Ansatz entwickelt, der eine hochaufgelöste, direkte Volumenvisualisierung
wissenschaftlicher Daten zulässt [20]. Die Bildwiederholungsraten liegen dabei teilweise
deutlich über den von Hochleistungsworkstations erzielten Raten. Eine detaillierte Übersicht
dieser Ansätze wurde von Engel beschrieben [26].
4.3 Server-seitige Strategien
4.3.1 Definition
Abb. 4-21: Server-seitige Strategien.
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
Visualisierungspipeline
Server Client
84
4.3 Server-seitige Strategien
Server-seitige Ansätze (Abbildung 4-21) verlagern die Module der Visualisierungspipeline
auf einen oder mehrere leistungsstarke Hochleistungsrechner, welche die zur Visualisierung
notwendigen Berechnungen unter Ausnutzung leistungsfähiger Spezialhardware durchführen.
Die von den Servern berechneten Bilder werden zu Arbeitsplatzrechnern übertragen, die als
einfache Anzeigegeräte fungieren. Durch Rückübertragung der Client-seitigen
Benutzereingaben an den Server kann die Visualisierung beeinflusst werden.
Diese Strategie wird vor allem bei sehr großen Datensätzen eingesetzt. In der Regel liegen
chemische Datensätze in einer Größenordnung, die eine Visualisierung durch die bereits
beschriebenen Ansätze erlaubt. Darüber hinaus setzt die Server-seitige Strategie
entsprechende Hochleistungsrechner und spezielle Graphikhardware voraus. Aus diesen
Gründen spielen Server-seitige Visualisierungsstrategien zur Zeit innerhalb der Chemie keine
bedeutende Rolle. Diese Situation wird sich in den kommenden Jahren jedoch drastisch
verändern. Neue Analysetechniken wie die Cryo-Elektronenmikroskopie generieren bereits
jetzt Volumendatensätze von mehreren Megabytes. Die aus den Volumendaten abgeleiteten
Isoflächen bestehen dabei aus einigen hunderttausend Primitiven und können somit auch
nicht mit moderner 3D-Graphikhardware interaktiv dargestellt werden. Ein Server-seitiger
Lösungsansatz zur Darstellung großer Volumendaten wird im Folgenden Abschnitt
beschrieben.
4.3.2 Server-seitige Anwendungen
Die Größe durch Cryo-Elektronenmikroskopie generierter Volumendatensätze hängt
proportional von der Auflösungsgrenze dieser neuen Analysetechnik ab. Während bei einer
Auflösung von 18 Å noch ein Volumendatensatz von 723 Voxeln (~1,5 GB, ~40.000
Dreiecke) resultiert, steigt die Größe des Datensatz bei einer Auflösung von 13 Å bereits auf
1603 Voxel (~16,4 GB, ~300.000 Dreiecke) an. Die momentane Auflösungsgrenze liegt
unterhalb von 10 Å und produziert entsprechend große Datensätze. Der Transport dieser
Datensätze über das Internet verbietet sich aufgrund ihrer Größe. Darüber hinaus sind die
resultierenden Szenen auch nicht mehr mit Standardgraphikhardware darstellbar.
Im Rahmen des ChemVis-Projektes wurde deshalb von unseren Projektpartnern eine
Server-seitige Anwendung zur interaktiven Visualisierung großer Volumendatensätze
entwickelt. Die Architektur setzt dabei auf bereits bestehende, Server-seitige OpenInventor
bzw. Cosmo3D-Visualisierungsapplikationen auf. Durch Modifikation der Szenengraphen
können die auf dem Server generierten Darstellungen komprimiert und an die Clients
übermittelt werden. Bei diesem Vorgang wird lediglich eine Folge dynamisch generierter 2D-
Bilder (image stream) an die Java-basierten Client-Applikationen übermittelt.
Benutzerinteraktionen auf der Clientseite werden mittels CORBA-Aufrufe zurück an den
85
4 Client-Server-basierte Visualisierung
Visualisierungsserver geleitet und dort wie lokale Ereignisse behandelt. Mit Hilfe dieser
Architektur können somit auch aufwendige und große Volumendaten auf Personalcomputern
dargestellt werden, die nur über einfache 2D-Graphikhardware verfügen. Da diese Ansätze
im Rahmen der vorliegenden Arbeit keine zentrale Rolle gespielt haben, wird für eine
detaillierte Beschreibung auf andere Quellen verwiesen [26].
4.4 Diskussion der Strategien
Komplexe chemische Zusammenhänge können durch die Einbettung dreidimensionaler
Darstellungen in digitale Dokumente besser verstanden werden. Eine interaktive Darstellung
ist aber durch die teilweise enorme Menge an Daten, die hierzu übertragen und dargestellt
werden muss, nicht ohne intelligente Strategien zur Verteilung der Lasten auf Client- und
Server-Systeme möglich. Die Wahl der geeigneten Strategie hängt dabei von einer Vielzahl
von Parametern ab.
Durch die anfangs erwähnten hybriden Strategien können sowohl Server-seitig als auch
Client-seitig vorhandene Graphik-, Speicher- und Rechen-Kapazitäten zur Optimierung der
Interaktivität bei gleichzeitiger Minimierung der Netzlast optimal genutzt werden. Der Vorteil
dieser Strategien ist, dass die meist sehr großen Rohdaten auf dem Server verbleiben können
und nicht über das Internet transportiert werden müssen. Diese Architektur ist auch dann
interessant, wenn die Rohdaten aus Datenschutzgründen nicht an den Client übertragen
werden sollen.
Die enorm gestiegenen Rechen- und Graphik-Fähigkeiten heutiger Standard-PCs werden
vor allem in den Client-seitigen Ansätzen genutzt. Da die Darstellungsfähigkeiten der Client-
Systeme in den nächsten Jahren noch weiter ansteigen werden, wird die Client-Strategie in
Zukunft immer mehr an Bedeutung gewinnen. Der Hauptvorteil dieser Strategie ist, dass nach
dem Transfer der Daten keine weitere Datenübertragung notwendig ist, wodurch
Verzögerungen durch Netzwerklast oder Netzwerklatenz wegfallen. Diese Vorgehensweise
erlaubt eine rein lokale Interaktion mit den Daten bei gleichzeitiger Balancierung von
Rendering-Qualität und Echtzeit-Performance.
Die zuletzt vorgestellten Server-seitigen Strategien kommen vor allem zum Einsatz, wenn
auf der Clientseite nicht die für interaktive Visualisierung notwendige Hardware zur
Verfügung steht, die vorhandene Spezialhardware eines Hochleistungsrechners genutzt
werden soll oder ein Transfer der Originaldaten aus Bandbreiten- oder Sicherheitsgründen
nicht möglich ist.
Der Zugriff auf digitale Dokumente der Chemie ist heute über eine Vielzahl
unterschiedlicher Rechnerplattformen und Netzwerkinfrastrukturen möglich. Um jeder dieser
86
4.4 Diskussion der Strategien
möglichen Zugriffskonfigurationen eine optimale Interaktion mit der eingebetteten
Information zu ermöglichen, ist eine adaptive Anpassung der Client-Server-Strategie an die
jeweils vorliegenden Verhältnisse nötig. So können zu Beginn oder während einer
Visualisierungssitzung die Kapazitäten auf der Client- und Server-Seite sowie die Bandbreite
und Latenz des verbindenden Netzwerks überprüft werden, um daraus die jeweilige optimale
Client-Server-Strategie zu ermitteln.
Beispielsweise können zu Beginn einer Sitzung die graphischen Kapazitäten des Client-
PCs ermittelt werden und bei Vorliegen entsprechender Hardware rein Client-seitige
Strategien zum Einsatz kommen. Andernfalls wird je nach Auslastung des Servers eine
Server-Strategie oder ein hybrider Ansatz gewählt. Die Wahl der jeweiligen Strategie kann
natürlich auch während einer Sitzung ständig neu angepasst werden. So kann beispielsweise
zu Beginn ein Server-seitiger Ansatz verfolgt werden. Steigt dann während der Sitzung die
Serverlast und damit auch die Antwortzeiten so ist ein Umstieg auf andere Strategien
denkbar.
87
4 Client-Server-basierte Visualisierung
88
Kapitel 5
Data Mining und Datenvisualisierung
Dieses sowie die zwei folgenden Kapitel beschäftigen sich mit dem zweiten thematischen
Schwerpunkt dieser Arbeit – der Visualisierung und dem Data Mining von großen, multidi-
mensionalen und multivariaten Datensätzen. Der erste Teil des Kapitels beschreibt zunächst
die diversen Begriffsdefinitionen und Eigenschaften des Data Mining (DM) und betrachtet
dabei die Aufgabe des Data Minings im chemischen Alltag. Darüber hinaus werden die wich-
tigsten, in der chemischen und pharmazeutischen Forschung eingesetzten Data Mining-
Methoden erläutert.
Die im Rahmen dieser Arbeit entwickelten Methoden und Applikationen basieren auf
einer besonderen und neuartigen Form des Data Mining – dem Visuellen Data Mining. Der
zweite Teil des Kapitels 5 widmet sich deshalb diesem speziellen Forschungsfeld und
beschreibt die grundsätzlichen Merkmale und Ansätze von visuellen Data Mining-Techniken.
Dabei werden ebenfalls die Vorteile des visuellen Data Minings gegenüber den klassischen
Data Mining-Ansätzen erläutert.
Visuelles Data Mining basiert auf Techniken der Informationsvisualisierung. Der letzte
Teil dieses Kapitels widmet sich deshalb den unterschiedlichen Ansätzen der Informationsvi-
sualisierung.
5.1 Data Mining und Knowledge Discovery in der Chemie
Mehr als in anderen wissenschaftlichen Disziplinen beruht der Alltag in der Chemie und
hier insbesondere in der Wirkstoffentwicklung zu großen Teilen auf der Abfrage und Analyse
von bereits bestehendem Wissen. So nutzen Chemiker während des langjährigen Entwick-
lungsprozess eines Medikaments unter anderem Erfahrungen und vorhandenes Wissen über
Struktur-Aktivitäts-Beziehungen, Syntheseregeln, Löslichkeiten und toxikologische Verhal-
tensweisen. Bis zur Marktreife eines neuen Medikaments werden dabei nicht nur große Men-
gen an bestehendem Wissen genutzt, sondern auch Unmengen an neuen Daten generiert
sowie größenordnungsmäßig 15 Jahre Forschungszeit und zwischen 500 - 800 Millionen US
89
5 Data Mining und Datenvisualisierung
Dollar investiert. Um den Zeitbedarf und die Entwicklungskosten zu verringern, wurde eine
Reihe von neuen, automatisierten Labortechniken wie beispielsweise die kombinatorische
Chemie, das High-Throughput-Screening (HTS) als auch Syntheserobotikanlagen entwickelt,
die die Zahl der synthetisierten und getesten, potentiellen Wirkstoffverbindungen erhöhen
sollten. Durch den mittlerweile routinemäßigen Einsatz dieser Techniken werden heute
Datenvolumina generiert, die um mehrere Größenordnungen höher sind als die Zahl der
durch herkömmliche Ansätze erhaltenen Versuchsergebnisse. Diese Daten werden dabei in
Datenbanken gespeichert und können bei Bedarf wieder abgefragt werden. Das weitaus grö-
ßere Potential der generierten Daten liegt jedoch in den in ihnen verborgenen Information, die
sich aus den Relationen zwischen den gesammelten Daten ergibt. Diese implizit in den Daten
enthaltene Information wie beispielsweise die Ähnlichkeit zwischen verschiedenen Struktur-
daten ist der zentrale Schlüssel für die Generierung von chemischen Modellen sowie zur Vor-
hersage von allgemeinen, chemischen Sachverhalten.
Das Ziel der Wirkstoffforschung ist daher in erster Linie nicht die Generierung von
Unmengen an Daten, sondern die Extraktion des in den Daten verborgenen, chemischen Wis-
sens. Der dabei durchlaufende Prozess wird als Data Mining, Knowledge Discovery in Data-
bases (KDD, Wissensextraktion aus Datenbanken) oder auch als Information Retrieval (IR)
bezeichnet. Dabei werden in zahlreichen auf diesem Gebiet erschienenen Veröffentlichungen
diese drei Begriffe teilweise sehr unterschiedlich definiert. Dies äußert sich unter anderem
dadurch, dass in der Informatik deutlich zwischen Data Mining, KDD und Information
Retrieval unterschieden wird während in anderen Gebieten wie beispielsweise der Chemoin-
formatik diese drei Begriffe häufig Synonyme für den gleichen Vorgang sind. Es soll daher an
dieser Stelle nicht der Versuch einer korrekten Begriffsdefinition unternommen sondern viel-
mehr die wesentlichen Eigenschaften und Eigenheiten des Data Mining sowie dessen Rolle in
der chemischen Forschung erläutert werden.
Die grundsätzlichen Stufen des KDD-Prozess sind in Abbildung 5-1 schematisch darge-
stellt.
Abb. 5-1: Schematische Darstellung des KDD-Prozessablaufs.
SelektionVorverar-beitung
Transfor-mation
InterpretationEvaluation
DataMining
Rohdaten Wissen
Integration vonApriori-Wissen
RauschunterdrückungBehandlung fehlender
Daten
DatenreduktionDatenprojektion
MustersucheKlassifikation
Clusteranalyse
Muster-VisualisierungEntfernen redundanter
Muster
90
5.1 Data Mining und Knowledge Discovery in der Chemie
Das Schema basiert dabei auf der allgemein anerkannten Definition des KDD-Begriffs von
Fayyad [129]:
"Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der
Identifizierung gültiger, neuartiger, potentiell nützlicher und verständlicher
Muster in (großen) Datenbeständen.“
Die einzelnen Prozessstufen wie Datenpräparierung, -auswahl, -säuberung, die Integration
geeigneten apriori-Wissens sowie eine entsprechende Interpretation und Analyse der Ergeb-
nisse sorgen schließlich dafür, dass wirklich nützliches und neues Wissen aus den Daten
abgeleitet werden kann.
In der Vorverarbeitung der Daten wird dabei vor allem das Hintergrundrauschen minimiert
und/oder fehlende Daten zur selektierten Datenmenge hinzugefügt. Durch anschließende
Datenreduktions- und Projektionstechniken werden die in der Regel hochdimensionalen
Datensätze in leichter handhabbare, niederdimensionale Daten transformiert. Der nachfol-
gende Analyseschritt ist die zentrale und wichtigste Stufe im gesamten Prozessablauf und
beinhaltet diverse Analyseverfahren zur Mustererkennung, Klassifizierung und Clusterung
der reduzierten Daten. Während innerhalb der KDD-Forschung dieser Schritt als Data Mining
definiert wird, steht außerhalb dieses speziellen Forschungsgebietes der Begriff "Data
Mining" als Synonym für den gesamten KDD-Prozess. Diese weiter verbreitete Begriffsdefi-
nition hat sich auch im Umfeld der Chemie durchgesetzt und soll daher auch im Rahmen die-
ser Arbeit als Oberbegriff für den gesamten KDD-Prozess dienen. Eine für die chemische
Forschung typische Data Mining-Sitzung ist in Abbildung 5-2 dargestellt.
Ausgangspunkt für die Extraktion verborgenen Wissens sind in diesem Beispielfall biolo-
gische Aktivitätsdaten, die mittels Hight-Throughput-Screening generiert wurden. Diese
Daten sind an sich zunächst nur bedingt nützlich. Um zu wertvollen Informationen zu gelan-
gen, müssen die Daten in einem bestimmten Kontext betrachtet werden. Im Fall der biologi-
schen Aktivitätsdaten bedeutet dies, dass die gemessenen Daten nur dann sinnvoll
weiterverarbeitet werden können, wenn die dazugehörigen Verbindungen bzw. Strukturdaten
ebenfalls bekannt sind. Erst durch diese Zuordnung werden aus experimentellen Rohdaten
verwertbare Informationen.
In erster Linie dienen die generierten Daten dem Chemiker nach wie vor zur Abfrage und
Analyse der experimentellen Werte. Dabei stehen einfache Fragestellungen wie beispiels-
weise die Suche nach der biologisch aktivsten Verbindung im Vordergrund. Während diese
Aufgabenstellung aufgrund der limitierten Größe herkömmlicher, durch klassische Synthese-
methoden generierter Datensätze problemlos zu lösen war, gleicht die Suche nach der richti-
gen Antwort in den heutigen, umfangreichen und durch automatisierte Techniken erhaltenen
91
5 Data Mining und Datenvisualisierung
Datensätzen der sprichwörtlichen Suche nach der Nadel im Heuhaufen. Eine Anforderung an
moderne, computergestützte Data Mining-Ansätze sind daher effektive Information Retrie-
val-Mechanismen, welche eine schnelle unf unkomplizierte Abfrage von Datenbankinforma-
tionen ermöglichen.
Abb. 5-2: Von chemischen Daten zu chemischen Modellen und Vorhersagen.
Die Hauptaufgabe des Data Mining ist jedoch die weitergehende Analyse der generierten
Datensätze, um in den Daten verborgene Gesetzmäßigkeiten zu extrahieren und diese in Form
von Vorhersagen zu nutzen. Im vorliegenden chemischen Beispielfall bedeutet dies, dass mit
Hilfe von statistischen Methoden oder Neuronalen Netzen neues Wissen über die Zusammen-
hänge zwischen Struktur und Aktivität ermittelt werden können. Die resultierenden Struktur-
Aktivitätsmodelle erlauben letztendlich die Vorhersage von biologischen Aktivitäten für
andere chemische Verbindungen. Eine kurze Beschreibung der für die Chemie wichtigsten
Data Mining-Verfahren wird im folgenden Abschnitt dargestellt.
5.2 Data Mining-Methoden in der Chemie
Der Prozess des Data Mining ist in der Chemie nicht neu. Chemiker nutzen seit den frühen
Anfängen der chemischen Forschung sowohl eigene Daten als auch Literaturangaben für die
Entwicklung von Modellen und zur Vorhersage von Sachverhalten. Die dramatische
Zunahme der Größe von Datensätzen fordertete jedoch den Einsatz von effektiven, computer-
gestützten Data Mining-Methoden. Dabei kamen zunächst nur klassische Statistikmethoden
Allgemein
Kontext Chemische Struktur
Neuronale Netze
Aktivitätsmodell
Vorhersage
Daten
Information
Wissen
Datenpaare
Wissen
Biol. Aktivität
Aktivitätsvor-hersage
Wirkstoffentwicklung
92
5.2 Data Mining-Methoden in der Chemie
zum Einsatz. Speziell ausgebildete Statistiker arbeiteten sich mit Hilfe besonderer Software-
pakete durch Unmengen an Daten und versuchten die darin verborgene Information zu extra-
hieren. Der dafür notwendige Arbeits- und Zeitaufwand war enorm und führte häufig nicht
zum gewünschten Erfolg. Erst durch die Entwicklung schneller Rechnersysteme konnten
neue, auf künstliche Intelligenz basierende Analyseverfahren, sogenannte Machine Learning-
Methoden entwickelt werden. Die darauf basierenden Techniken erlaubten erstmals die
Lösung komplexerer Data Mining-Probleme.
Aufgrund der teilweise sehr diversen Definitionen des Data Mining-Begriffs gestaltet sich
auch eine detaillierte und allgemein gültige Aufteilung und Klassifizierung der verschiedenen
Data Mining-Methoden als schwierig. So werden je nach Standpunkt des Betrachters statisti-
sche Methoden und Projektions- bzw. Transformationsverfahren entweder zu den Data
Mining-Methoden gezählt oder auch nicht. Darüber hinaus können die einzelnen Methoden
sehr unterschiedlich zusammengefasst bzw. klassifiziert werden. Eine mögliche Gruppierung
geht dabei von den Machine Learning-Ansätzen aus und unterscheidet beispielsweise zwi-
schen sogenannten supervised und unsupervised learning-Mechanismen. Andere Ansätze
wiederum unterscheiden die verwendeten Methoden anhand der zu analysierenden Datenty-
pen (z. B. hierarchisch vs. nicht-hierarchisch, linear vs. nicht-linear, etc.) oder anhand von
typischen Analysemodellen der Informatik (Sequenzanalyse, Verbindungsanalyse, zusam-
menfassende Analyse, Cluster-Analyse, etc.). Aus diesem Grund und der unüberschaubaren
Anzahl an verschiedenen Methoden soll im Folgenden auf eine detaillierte und genau diffe-
renzierte Beschreibung der einzelnen Data Mining-Techniken verzichtet werden und viel-
mehr nur eine grobe Übersicht der wichtigsten, für die chemische Forschung relevanten Data
Mining-Methoden vermittelt werden. Da nicht jede Data Mining-Methode für ein gegebenes
Analyse-Problem geeignet ist, muss in der Regel vorher eine Analyse der Stärken und Schwä-
chen der jeweiligen Technik vorgenommen werden. Darüber hinaus können durch Kombina-
tion diverser Data Mining-Methoden häufig bessere Ergebnisse erzielt werden.
Die chemische Information wird bei der computergestützten Analyse in der Regel
zunächst in eine sogenannte deskriptive Datenstruktur überführt. Diese Datenstrukturen wer-
den auch als molekulare Deskriptoren bezeichnet und sind das Ergebnis mathematischer Ver-
fahren, welche die chemische Information in sinnvolle, numerische Werte überführen. Es
existiert eine Vielzahl an molekularen Deskriptoren unter anderen für topologische, elektroni-
sche und strukturelle Eigenschaften. Chemische Datensätze enthalten in der Regel eine ganze
Reihe solcher Deskriptoren, da komplexe Sachverhalte und Relationen zwischen Datenobjek-
ten nicht ausreichend durch eine oder wenige molekulare Datendimensionen beschrieben
werden können. Der sich daraus ergebende, hochdimensionale Charakter der Datensätze setzt
jedoch besondere Analysemethoden voraus.
93
5 Data Mining und Datenvisualisierung
5.2.1 Mulivariate Statistikmethoden
Eine Möglichkeit zur Analyse multivariater bzw. multidimensionaler Daten stellen soge-
nannte multivariate Statistikmethoden dar, die auf Regressions- und Patter Recognition- bzw.
Projektionsverfahren basieren. Es kann dabei grundsätzlich zwischen linearen und nichtlinea-
ren Methoden unterschieden werden. Bei den linearen Ansätzen haben vor allem die Princi-
pal Component Analysis (PCA), die Linear Discriminant Analysis (LDA), die Principal
Component Regression (PCR), die Multiple Linear Regression (MLR) sowie die Partial
Least Squares(PLS)-Methode weite Verbreitung bei der Analyse chemischer Daten gefunden
[130-137]. Während die PCA lediglich eine klassische Projektionsmethode darstellt, die
hochdimensionale Datensätze in niederdimensionale Datensätze überführt, erlauben PCR,
MLR oder PLS darüber hinaus die Bildung von Vorhersagemodellen. Bei den nichtlinearen
Verfahren kommt vor allem das Multidimensional Scaling (MDS) zum Einsatz [139-141].
Stellvertretend für die beiden Ansätze sollen im Folgenden kurz auf die Vor- und Nachteile
sowie auf die Methodik der PCA und des MDS eingegangen werden.
5.2.1.1 Principal Component Analysis (PCA)
Die Principal Component Analysis [131] ist eine mathematische Methode, die einen hoch-
dimensionalen Datensatz mit korrelierenden Eigenschaftsvektoren in einen niederdimensio-
nalen Datensatz mit nicht-korrelierenden, orthogonalen Eigenschaftsvektoren, den
sogenannten Principal Components, transformiert.
Der Mechanismus der PCA lässt sich an folgendem Beispiel einfach verdeutlichen. Gege-
ben sind hundert chemischen Verbindungen, zu denen jeweils drei Eigenschaften bzw.
Deskriptoren ermittelt wurden. Die resultierenden 100 Datenpunkte können in einem Koordi-
natensystem eingetragen werden, dessen Koordinatenachsen durch die drei Eigenschaftsde-
skriptoren ausgedrückt werden. Die erste Principal Component (PC) wird nun so in das
Koordinationssystem integriert, dass die größtmögliche Varianz über alle Datenpunkte erfasst
wird. Bildlich gesprochen bedeutet dies, dass ein Vektor entlang des längsten Durchmessers
der Datenpunktwolke angeordnet werden muss. Die zweite PC wird nun so in die Datenwolke
eingebettet, dass sie zum einen orthogonal zur ersten PC ist und zum anderen die verbliebene
Datenvarianz bestmöglichst beschreibt. Für alle weitere PCs wird nach dem gleichen Schema
vorgegangen. Durch die orthogonale Anordnung der Principal Components spannen jeweils
zwei PCs eine rechtwinklige Fläche auf, auf die nun alle Datenpunkte linear projiziert wer-
den. Diese niederdimensionale Auftragung dient letztendlich zur Visualisierung und Analyse
der Daten.
In dem beschriebenen Beispiel wurde nur von drei Eigenschaftdeskriptoren ausgegangen.
Chemische Datensätze enthalten jedoch oft mehr als drei Dimensionen, so dass anstatt eines
94
5.2 Data Mining-Methoden in der Chemie
dreidimensionalen Koordinatensystem ein k-dimensionales System eingesetzt werden muss.
Obwohl solche höherdimensionalen Systeme in der Regel die menschliche Vorstellungskraft
übersteigen, sind sie aus der Sicht der Mathematik genauso leicht zu lösen wie das beschrie-
bene, dreidimensionale Beispielsystem.
Seit dem erstmaligen Einsatz der PCA in der Chemie in den Sechziger-Jahren hat sich
diese Methode zu einer der meistgenutzten Analysemethode für multivariate Daten entwik-
kelt [132]. Die PCA dient dabei nicht nur zur Reduktion der Dimensionalität bzw. Komplexi-
tät der Datensätze, sondern erlaubt zudem die Identifikation von Ausreissern, die Selektion
von Variablen und kann zur Vorhersage von Eigenschaften eingesetzt werden.
5.2.1.2 Multi-Dimensional Scaling (MDS)
Beziehungen zwischen chemischen Daten können nicht immer erfolgreich durch lineare
Ansätze beschrieben bzw. analysiert werden. In diesen Fällen kommen deshalb nicht-lineare
Analysetechniken wie nicht-lineare Projektionsmethoden zum Einsatz. Ein Vertreter dieser
Klasse von Analysemethoden ist das Multi-Dimensional Scaling(MDS)-Verfahren, das auch
unter den treffenden Namen Nonlinear Mapping (NLM) bekannt ist. Hierbei werden paar-
weise Ähnlichkeiten bzw. Distanzen zwischen Datenobjekten analysiert, um die Dimensiona-
lität des Datensatzes zu reduzieren. Häufig wird der Datensatz dabei in einen zwei- oder
dreidimensionalen, euklidischen Raum projiziert, der eine bessere Analyse und Visualisie-
rung der Relationen zwischen den Datenpunkten erlaubt [138].
In der Chemie werden MDS-Verfahren häufig zur Analyse von chemischen Ähnlichkeiten
eingesetzt. Die molekularen Ähnlichkeiten werden dabei zunächst in eine symmetrische
Matrix überführt, die alle paarweisen Beziehungen zwischen den Molekülen enthält. Da diese
Matrix nur schwer zu analysieren ist, werden die Datenobjekte in einem nächsten Schritt in
ein euklidisches System transformiert, wobei die paarweisen Beziehungen so gut wie möglich
erhalten bleiben. Ende der Siebziger-Jahren wurde dieses Verfahren erstmals in der Chemie
eingesetzt [139]. Jedoch hat das MDS vor allem in den letzten Jahren durch die kombinatori-
sche Chemie und der damit verbundenen Datenflut an Bedeutung gewonnen [140, 141].
5.2.2 Neuronale Netze
Künstliche neuronale Netze (KNN, engl. artificial neural network ANN) basieren auf
neurobiologischen Modellen. Dabei bestehen die Netze aus einer Vielzahl unabhängiger, ein-
facher Einheiten den sogenannten Neuronen, die in definierter Weise miteinander verbunden
[142]. Die einfachste Darstellung dieser Methode beschreibt ein neuronales Netz dabei als
"Black Box", welche eine m-dimensionale Eingabe in eine n-dimensionale Ausgabe transfor-
95
5 Data Mining und Datenvisualisierung
miert. In der Regel handelt es sich bei der "Black Box" um ein starres, geschichtetes Netzwerk
von verknüpften Neuronen, welches sich in verschiedene Ebenen aufteilt. Eine Eingabe-
schicht (engl. input layer) nimmt zunächst die Eingabedaten entgegen. Diese werden
anschließend in einer oder mehreren verborgenen Schichten (engl. hidden layer) prozessiert
und schließlich in der Ausgabeschicht (engl. output layer) wieder ausgegeben. Je nach Ver-
knüpfungsart der Schichten unterscheidet man zwischen vorwärts gerichteten, lateralen und
rückgekoppelten Netzen. Eine detailliertere Beschreibung neuronaler Netze findet sich an
anderer Stelle [143]. Der Einsatz von neuronalen Netzen bietet wahrscheinlich die umfang-
reichsten Analysemöglichkeiten. So können mit Hilfe dieser Analysetechnik diverse Pro-
blemstellungen wie Mustererkennung, Vorhersagen, Bestimmungen von Ähnlichkeiten,
Klassifizierungen und Transformationen bearbeitet werden. Aus diesem Grund gehören neu-
ronale Netze heute zu den am meistgenutzten Data Mining-Methoden.
Neuronale Netze werden seit 1988 im Bereich der Chemie eingesetzt [143] und haben seit-
dem eine große Verbreitung in diversen Einsatzgebieten erfahren. Eine entsprechende Über-
sicht findet man in dem Übersichtsartikel von Zupan und Gasteiger [144].
Neuronale Netze basieren auf sogenannten Lernregeln. Dabei kann grundsätzlich zwischen
überwachten und nicht-überwachten Strategien unterschieden werden. Stellvertretend für die
diversen Verfahren sollen im Folgenden das Counterpropagation- und das Kohonen-Netz-
werk vorgestellt werden.
5.2.2.1 Kohonen-Netzwerke
Zu den bekanntesten Vertretern der nicht-überwachten Lernmethoden (engl. unsupervised
learning) gehören die selbstorganisierenden Karten (engl. self-organizing feature map SOM).
Das Konzept dieses Verfahrens wurde von Teuvo Kohonen entwickelt, weshalb diese
Methode auch unter der Bezeichnung Kohonen-Karten bzw. Kohonen-Netzwerke bekannt ist
[145, 146, 147]. Im Fall der Kohonen-Netzwerke werden dem selbstorganisierendem, neuro-
nalem Netzwerk lediglich die Eingabemuster präsentiert. Während der anschließenden
Berechnung werden automatisch Ähnlichkeitsbeziehungen zwischen Datenobjekten ermittelt.
Dabei werden die Gewichtungsfaktoren des Netzes so verändert, dass ähnliche Eingabemu-
ster entweder in gleichen Neuronen oder nah benachbarten Neuronen projiziert werden.
Unähnliche Datenobjekte werden hingegen in weit voneinander entfernten Neuronen abge-
legt. Die Ausgabe von Kohonen-Netzwerken wird in der Regel in Form von zweidimensiona-
len Karten dargestellt. Diese niederdimensionale Auftragung erlaubt somit auch die
unkomplizierte Analyse und Visualisierung von hochdimensionalen Datensätzen.
96
5.2 Data Mining-Methoden in der Chemie
5.2.2.2 Counterpropagation-Netzwerk
Das Counterpropagation-Netzwerk gehört zu der Klasse der überwachten Lernverfahren
[143]. Beim überwachten Lernen (engl. supervised learning) werden dem neuronalen Netz
während des Trainingsprozesses im Gegensatz zu den Kohonen-Netzwerken sowohl die Ein-
gabemuster als auch die gewünschten Ausgabemuster übergeben. Während der Berechnung
wird das neuronale Netzwerk in der Weise modifiziert, dass ein Fehlersignal minimiert wird.
Das Fehlersignal ergibt sich dabei aus der Berechnung der Differenz zwischen erzeugter und
vorgegebener Ausgabe. Die Ausgabe des Counterpropagation-Netzwerkes basiert im Gegen-
satz zum Kohonen-Netzwerk nicht nur auf den Gewichtungen eines einzelnen Neurons und
ist ebenso nicht das Resultat eines Ausgabevektors aller Neuronen, wie beispielsweise im
Back-Propagation-Ansatz. Vielmehr basiert die Ausgabe aus den Gewichtungen des Gewin-
nerneurons mit allen Ausgabeneuronen. Counterpropagation-Netzwerke eignen sich insbe-
sondere für die Vorhersage von molekularen Eigenschaften. So können beispielsweise neue
chemische Strukturen hinsichtlich ihrer strukturellen Ähnlichkeit klassifiziert werden.
5.2.3 Genetische Algorithmen
Genetische Algorithmen basieren auf der Grundlage der biologischen Evolution (Muta-
tion, natürliche Auslese) und dienen der Suche nach einer optimalen Lösung innerhalb eines
Lösungsraums [148, 149]. Ein bestimmtes Problem wird dabei in Form einer Population von
Individuen beschrieben. Die Mitglieder dieser Generation geben in den folgenden Schritten
ihre Charakteristika in Form von sogenannten "Chromosomen" an die nächste Generation
weiter, wobei dieser Vorgang wie in der Natur durch Faktoren wie beispielsweise Mutation
und Crossover beeinflusst wird. Diese Faktoren werden daher auch als genetischen Operato-
ren bezeichnet. Anschließend werden die einzelnen Individuen der neuen Population hin-
sichtlich ihrer Eignung zur Lösung des zugrundeliegenden Problems beurteilt. Individuen mit
einer höheren Tauglichkeit werden mit hoher Wahrscheinlichkeit beibehalten während Indivi-
duen mit einer weniger guten Eignung im Vergleich zur Elterngenerartion mit hoher Wahr-
scheinlichkeit "aussterben". Dieser Vorgang wiederholt sich so lange bis eine maximale
Tauglichkeit erreicht ist.
Genetische Algorithmen sind in der chemischen Forschung weit verbreitet und kommen
häufig dann zum Einsatz, wenn mehr Regeln als Daten vorliegen. Darüber hinaus lassen sich
die Ergebnisse genetischer Algorithmen häufig gut erklären.
97
5 Data Mining und Datenvisualisierung
5.2.4 Weitere Data Mining-Methoden
Neben den bereits erwähnten Data Mining-Methoden haben auch andere Techniken wie
Klassifikations- und Clustering-Verfahren als auch regelbasierte Systeme eine breite Anwen-
dung in der Chemie gefunden [137, 150-152].
Regelbasierte Systeme versuchen, wie der Name schon sagt, in Daten verborgene Informa-
tionen durch allgemeine Regeln zu beschreiben. Einen Spezialfall stellen dabei die sogenann-
ten Entscheidungsbäume (engl. decision trees) dar. Im Gegensatz zu allgemeinen,
regelbasierten Systemen erlauben Entscheidungsbäume eine Rangfolge bzw. Gewichtung der
abgeleiteten Regeln und ermöglichen somit eine gröbere bzw. feinere Unterteilung des Daten-
satz. Mit zunehmender Anzahl an Verzweigungsknoten neigen Entscheidungsbäume jedoch
zu einer höheren Fehleranfälligkeit. Außerdem eignet sich diese Technik nicht zur Abschät-
zung bzw. Vorhersage von Variablen und kann zudem nur bei kategorischen bzw. diskreten
Datentypen angewendet werden.
Der bekannteste Vertreter von Klassifizierungsverfahren ist die Nächster-Nachbar-Klassi-
fizierung (engl. k-nearest neighbor KNN). Die Datenbasis dieser Analysemethode besteht
aus des Ergebnissen bereits bearbeiteter, ähnlicher Fragestellungen. Dabei wird für einen
gegebenen Einzelpunkt der Datenwert gesucht, der die größte Ähnlichkeit zu einem bereits
klassifizierten Datenpunkt aufweist. Dieser sogenannte nächste Nachbar wird dabei mit Hilfe
von Distanz- und Kombinationsfunkionen (in der Regel euklidische Distanzen) ermittelt. Das
unbekannte Datenobjekt wird letztendlich derjenigen Klasse zugeordnet, die die höchste
Anzahl an ähnlichen bzw. nächsten Nachbarn enthält.
Insbesondere in der Wirkstoffforschung wird zudem eine Reihe wichtiger Clustering-Ver-
fahren wie beispielsweise Multi-Domain clustering, Nearest-Neighbor clustering, Fuzzy clu-
stering oder Ward clustering eingesetzt [151, 152]. Das Ziel von Clustering besteht darin,
ähnliche Objekte zu Clustern zusammenzufassen, wobei die Gewichtung der verschiedenen
Variablen eine bedeutende Rolle spielt. Im Gegensatz zu Klassifizierungsverfahren ist zu
Beginn der Analyse allerdings nicht klar, welche Cluster durch das Clustering entstehen. Die
Interpretation der Cluster ist daher nicht ganz einfach und setzt ein gewisses Maß an Exper-
tenwissen voraus. Darüber hinaus ist in einigen Fällen die Wahl der richtigen Distanzwerte
nicht ganz einfach. Außerdem müssen die Initialparameter der Methode sehr vorsichtig
gesetzt werden. Aufgrund des hohen Maßes an Unsicherheitsfaktoren dürfen Ergebnisse aus
Clusteringanalysen nicht überinterpretiert werden, sondern sollten lediglich als näher zu
untersuchende Hinweise betrachtet werden. Auf die verschiedenen hierarchischen und nicht-
hierarchischen Methoden soll an dieser Stelle nicht näher eingegangen werden.
98
5.3 Visuelles Data Mining - Eine Einführung
5.2.5 Datenvisualisierung
Die Ergebnisse der oben beschriebenen Analysemethoden werden in der Regel nicht in
textueller oder numerischer Form betrachtet, sondern mit Hilfe von Datenvisualisierungs-
applikationen dargestellt und interpretiert. Dies ist sinnvoll, da eine visuelle Darstellung auf-
grund der bereits erwähnten überdurchschnittlichen Aufnahmefähigkeit des visuellen Cortex
(vgl. Abschnitt 2.1.1) eine weitaus effektivere Analyse komplexer Sachverhalte zulässt. Der
Einsatz von Visualisierungstechnologien führt in der Regel erst zu einem "Aha"-Erlebnis und
ermöglicht eine effektive und leichte Erkennung von Mustern, Beziehungen, Ausreisserdaten
und/oder fehlenden Werten.
Die Entwicklung entsprechender Methoden, Strategien und Applikationen zur Visualisie-
rung von Daten ist Aufgabe eines besonderen Gebiets der Computergraphik, der sogenannten
Informationsvisualisierung [153-155]. Die Informationsvisualisierung ist dabei nicht nur auf
das Gebiet des KDD- bzw. Data Mining-Prozess begrenzt, sondern wird heute standardmäßig
in fast allen Bereichen des Mensch-Computer-Bereichs eingesetzt. Darüber hinaus hat sich in
den letzten Jahren ein speziell auf die Bedürfnisse des Data Mining ausgerichtetes For-
schungsfeld innerhalb der Informationsvisualisierung etabliert – das visuelle Data Mining
(engl. Visual Data Mining) [156, 157]. Die Aufgaben des visuellen Data Minings reichen
dabei von der komfortablen Visualisierung und Analyse von Ergebnissen aus klassischen
Data Mining-Ansätzen bis hin zu Methoden, die eine vollständig visuelle Exploration von
Rohdaten erlauben und somit eine Alternative zu klassischen Data Mining-Ansätzen darstel-
len.
Die Entwicklung und Anwendung von Methoden des visuellen Data Mining stand im Vor-
dergrund des zweiten Themenschwerpunktes der vorliegenden Arbeit. In den folgenden
Abschnitten wird daher näher auf das Gebiet des visuellen Data Mining sowie den dort einge-
setzten Techniken und Methoden eingegangen.
5.3 Visuelles Data Mining - Eine Einführung
Obwohl der KDD-Prozess in den letzten Jahren durch die Entwicklung und den Einsatz
von computergestützten Data Mining-Methoden eine zunehmende Automatisierung erfahren
hat, ist eine effektive Extraktion von neuem Wissen und Information nicht ohne das Eingrei-
fen und die Interaktion des Menschen möglich. Insbesondere bei Vorlage von komplexen Pro-
blemstellungen kann eine erfolgreiche Lösung nur dann gewährleistet werden, wenn mensch-
liche Intuition, Flexibilität, Kreativität und Fachwissen mit in den Entscheidungprozess
einfliessen. Klassische, computergestützte Data Mining-Methoden stellen jedoch häufig
sogenannte "Black Box"-Systeme dar, die nur eine begrenzte oder keine Einflussnahme durch
99
5 Data Mining und Datenvisualisierung
den Benutzer zulassen. Darüber hinaus ist die Bedienung bzw. Anwendung der Data Mining-
Methoden oft auf das Spezialwissen von Experten wie beispielsweise Chemoinformatikern
angewiesen. Dieser Umstand macht die Anwendung sowohl zeit- als auch arbeitsaufwendig,
da eine schnelle Interpretation der Analyseergebnisse in der Regel nicht durch den Chemoin-
formatiker sondern durch den Wissenschaftler erfolgt, der die zugrundeliegende Problemstel-
lung ausgearbeitet und die entsprechenden Datensätze generiert hat.
Eine Lösung für dieses Problem stellen Verfahren zur visuellen Datenanalyse dar. Das Ziel
dieses Ansatzes ist, dass der Mensch sowie dessen visuelle Wahrnehmungsfähigkeiten mit
Hilfe von Informationsvisualisierungstechnologien in den Analyse- bzw. KDD-Prozess inte-
griert wird. Diese Form der Datenanalyse wird daher auch als visuelles Data Mining bezeich-
net. Die visuelle Repräsentation der Daten bietet dabei dem Analytiker eine größere und
einfachere Einsicht in die Daten, was zu schnelleren Schlussfolgerungen führen kann. Dar-
über hinaus können die Daten in einem dynamischen Prozess direkt an Benutzereingaben
angepasst werden, was somit eine direkte Prozesssteuerung und -beeinflussung erlaubt. Letzt-
endlich können diese Möglichkeiten zu einer signifikanten Verbesserung des Explorations-
prozesses führen. Dabei können sich durch die direkte Einbeziehung des Benutzers einige
entscheidende Vorteile ergeben, die im Folgenden näher betrachtet werden:
Höhere Qualität der resultierenden Muster. Durch den Einsatz von adäquaten Techni-
ken zur Daten- und Informationsvisualisierung können die natürlichen Fähigkeiten des Men-
schen zur Erkennung von Mustern und Beziehungen genutzt werden. Dies kann zu einer
signifikanten Effektivitätssteigerung bei der Mustererkennung führen.
Nutzung existierenden Expertenwissens. Im visuellen Data Mining stellt die Visualisie-
rung ein interaktives Kommunikationsmittel zwischen den Daten und dem Benutzer dar. Der
Anwender kann dabei vorhandenes Expertenwissen während des Data Mining-Prozesses nut-
zen, um direkt die Analyse bzw. Mustersuche zu beeinflussen. Dieser Vorgang ist mit Hilfe
klassischer Data Mining-Methoden wesentlich schwerer zu realisieren, da die entsprechenden
Analyseparameter durch einen Experten definiert werden müssen und in der Regel nicht
interaktiv geändert werden können.
Gesteigertes Vertrauen in die Mustererkennung. Die aktive Einbeziehung des Benut-
zers in den Data Mining-Prozess kann zu einem tieferen Verständnis der resultierenden
Muster führen. Dies bewirkt letztendlich, dass sich das Vertrauen des Benutzers in die gefun-
denen Muster stark erhöht. Im Gegensatz dazu erlauben klassische "Black Box"-Systeme kei-
nen oder nur einen begrenzten Einblick in die Prozesse, die zur Mustererkennung führen. Die
daraus resultierende Unsicherheit kann in letzter Konsequenz die Interpretation der Daten und
die Vorhersage von Modellen stark erschweren.
100
5.3 Visuelles Data Mining - Eine Einführung
Vereinfachte und intuitive Datenanalyse. Da die Mustererkennung bei der visuellen
Datenanalyse nur auf dem Fachwissen und der natürlichen Fähigkeit des Menschen, Zusam-
menhänge visuell schnell zu erfassen, basiert, gestaltet sich die Datenanalyse häufig einfach
und unkompliziert. Komplexe mathematische und/oder statistische Algorithmen und Metho-
den, wie sie für klassische Data Mining-Ansätze notwendig sind, entfallen.
Handhabung von problematischen Datensätzen. Der Vorteil von visuellen Data
Mining-Ansätzen gegenüber klassischen Data Mining-Techniken offenbart sich vor allem
dann, wenn wenig Information über die zu untersuchenden Daten bekannt ist und die erwarte-
ten Muster oder Relationen nicht klar definiert sind. Darüber hinaus können auch sehr inho-
mogene oder stark verrauschte Datensätze mit dieser Technik behandelt werden.
Zusammenfassend gilt, dass visuelles Data Mining im Allgemeinen eine schnellere und
unkompliziertere Datenanalyse erlaubt, häufig zu besseren Ergebnissen führt und insbeson-
dere oft auch in solchen Fällen zum Erfolg führt, die mit herkömmlichen Analysetechniken
nicht handhabbar sind. Darüber hinaus eignen sich die im visuellen Data Mining eingesetzten
Techniken hervorragend, um die erhaltenen Ergebnisse anderen Wissenschaftlern und vor
allem mit der Technik nicht vertrauten Entscheidungsträgern wie beispielsweise Managern zu
präsentieren. Nach der folgenden Definition werden durch visuelles Data Mining somit die
beiden letzten Schritte des KDD-Prozess realisiert (vgl. Abbildung 5-1) [157]:
„Visuelles Data Mining ist ein Teil des KDD-Prozesses, der Visualisierung
als Kommunikationsmittel zwischen Mensch und Computer nutzt, um neue
und interpretierbare Muster zu erkennen und Wissen zu generieren. „
Nach Shneiderman erfolgt die visuelle Datenerkundung im visuellen Data Mining in
einem dreistufigen Prozess [158]. Die drei Stufen sind: Übersicht, Zoom und Filterung sowie
Detaildarstellungen auf Abruf. Im Übersichtsschritt kann der Betrachter zunächst interessante
Muster identifizieren. Durch nachfolgende Zoom- und Filteroperationen können im zweiten
Schritt die identifizierten Muster näher betrachtet und in Form von Teildatensätzen selektiert
werden. Zur vollständigen Analyse der Muster können im letzten Schritt der Prozesskette
Detailinformationen zu den einzelnen Datenobjekten abgefragt werden.
Trotz der grundsätzlichen Übereinstimmung im Prozessablauf können drei unterschiedli-
che Formen des visuellen Data Mining unterschieden werden [156, 157]. Die Ansätze unter-
scheiden sich dabei vor allem durch ihre unterschiedlichen Einsatzgebiete im KDD- bzw.
Data Mining-Prozess (Abbildung 5-3). Im Folgenden werden die drei Ansätze näher
beschrieben.
101
5 Data Mining und Datenvisualisierung
Abb. 5-3: Verschiedene Ansätze des visuellen Data Minings [157].
5.3.1 Visualisierung von Data Mining-Ergebnissen
Der gesamte Data Mining-Prozess wird in diesem Ansatz vollständig durch klassische
Data Mining-Algorithmen durchgeführt (Abbildung 5-3a) und die resultierenden Muster bzw.
Analyseergebnisse anschließend durch entsprechende Visualisierungswerkzeuge dargestellt.
In diesem Prozess kommt der Visualisierung eine entscheidende Rolle zu, da erst durch effek-
tive Visualisierungstechniken eine einfache und schnelle Interpretation der Daten ermöglicht
wird. Ausgehend von den Ergebnissen der Interpretation kann der Benutzer in einem letzten
Schritt entscheiden, ob der Data Mining-Prozess erfolgreich war oder ob die Analyse in
modifizierter Form wiederholt werden soll. Auf diesen Ansatz basierende Visualisierungsme-
thoden werden in der Literatur auch als "Visual Data Mining Tools" bezeichnet [156] und
werden heute standardmäßig zur Darstellung von Ergebnissen aus klassischen Data Mining-
Ansätzen eingesetzt.
Im Rahmen dieser Arbeit wurde ein auf diesem Ansatz basierender Visualisierungsproto-
typ für die Antitumor-Datenbank des amerikanischen Krebsforschungsinstituts entwickelt
(vgl. Abschnitt 6-1).
Daten
Wissen
Visualisierung
Ergebnisse
Benutzer-eingaben
Daten
Algorithmus
Visualisierung
Zwischen-ergebnisse
Ergebnisse
Wissen
Daten
Wissen
Algorithmus
Visualisierung
a) b) c)
102
5.3 Visuelles Data Mining - Eine Einführung
5.3.2 Visualisierung von Zwischenergebnissen
Im Gegensatz zum vorherigen Ansatz kann durch die Visualisierung von intermediären
Ergebnissen der Benutzer stärker in den Data Mining-Prozess integriert werden (Abbildung
5-3b). Die Basis dieses Verfahren stellen Algorithmen dar, deren Ausgabe nicht die endgülti-
gen Muster bzw. Beziehungen sondern lediglich präprozessierte Zwischenergebnisse liefert.
Die relevanten Muster erhält der Benutzer erst durch die Anwendung von spezifischen Visua-
lisierungstechniken. Der Vorteil dieses Ansatzes ist, dass die Data Mining-Algorithmen unab-
hängig von der eigentlichen Problemstellung eingesetzt werden können. Wie bereits erwähnt
ist dies in klassischen Data Mining-Ansätzen nicht ohne weiteres möglich, da für ein spezifi-
sches Problem oder einen bestimmten Datensatz oft auch nur spezielle Data Mining-Techni-
ken zum Einsatz kommen können. Dabei muss sich der Benutzer bereits vor dem eigentlichen
Data Mining-Prozess intensiv mit den Vor- und Nachteilen der in Frage kommenden Metho-
den auseinandersetzen und eventuell systemspezifische Parameter festlegen. Dieses Proze-
dere entfällt durch diesen Ansatz. Der Benutzer entscheidet auf Basis der
Zwischenergebnisse, welche Algorithmen für eine weitere Analyse zum Einsatz kommen.
Dabei sind auch die im Data Mining übliche Kombinationen verschiedener Analysemethoden
einfach zu realisieren.
Diese spezielle Form des visuellen Data Minings kam im Rahmen dieser Arbeit nicht zum
Einsatz.
5.3.3 Visualisierung von (Roh-)Daten
In diesem Ansatz kommen im Gegensatz zu den beiden zuvor beschriebenen Verfahren
keine klassischen Data Mining-Methoden zum Einsatz (Abbildung 5-3c). Vielmehr werden
die Rohdaten direkt durch den Benutzer mit Hilfe von Visualisierungsverfahren dargestellt
und analysiert. Dabei wird der Benutzer sowie dessen Fachwissen vollständig in den Data
Mining-Prozess einbezogen und somit ein Höchstmaß an Benutzerinteraktion sichergestellt.
Durch den Einsatz von interaktiven Werkzeugen wie beispielsweise dynamischen Abfrage-
techniken kann der Benutzer mit den Datensätzen operieren, wobei jede Benutzerinteraktion
zu einer unmittelbaren Aktualisierung der Darstellung führt. Die verborgenen Muster und
Beziehungen werden somit letztendlich durch eine graphische Erkundung des Datensatzes
gewonnen. Nach Soukup und Davidson wird in diesem Zusammenhang auch von "Data
Visualization"-Techniken gesprochen [156].
Diese Form des visuellen Data Minings stand in dieser Arbeit im Vordergrund und war
Ausgangspunkt bei der Entwicklung des in Kapitel 6 vorgestellten InfVis-Programms (vgl.
Abschnitt 6-2).
103
5 Data Mining und Datenvisualisierung
5.4 Methoden der Informationsvisualisierung
Visuelles Data Mining basiert auf den Techniken der Informationsvisualisierung, einem
Gebiet der Computergraphik, welches sich, wie der Name schon sagt, mit der Darstellung von
Information beschäftigt. Bevor im Folgenden die für das visuelle Data Mining in Frage kom-
menden Techniken näher erläutert werden, sollen durch einen Vergleich mit der im Abschnitt
2.1.1 beschriebenen wissenschaftlichen Visualisierung die wichtigsten Grundzüge der Infor-
mationsvisualisierung zusammengefasst werden. Im Gegensatz zur wissenschaftlichen Visua-
lisierung dient die Informationsvisualisierung nicht zur Darstellung von chemischen oder
physikalischen Daten, Messwerten oder Simulationen, sondern vielmehr zur Visualisierung
von Beziehungen, Mustern und vor allem Information. Obwohl letztere Aufgabenstellung
durch die drastische Zunahme an Daten in den wissenschaftlichen Disziplinen stark an
Bedeutung gewonnen hat, spielen Informationsvisualisierungstechniken nicht nur auf diesem
Gebiet, sondern in fast allen Bereichen, die über große Mengen an digitalen Daten verfügen,
eine bedeutende Rolle. Die Informationsvisualisierung zeichnet sich deshalb vor allem durch
allgemeine, nicht auf wissenschaftliche Fragestellungen begrenzte Methoden aus. Die ent-
sprechenden Visualisierungstechniken werden daher auch in der Regel von nicht-spezialisier-
ten und nicht-wissenschaftlich orientierten Benutzern angewendet. Dieser allgemeine
Charakter der Informationsvisualisierung wird auch bei der Betrachtung des in Kapitel 6 vor-
gestellten InfVis-Programms deutlich. Obwohl die Anwendung speziell für den Einsatz in der
chemischen Forschung konzipiert wurde, ist sie nicht nur auf chemische Datensätze limitiert.
Die Methoden der Informationsvisualisierung können in drei Kategorien unterteilt werden:
präsentative Techniken, Techniken zur sogenannten "bestätigenden" Analyse (engl. confir-
mative analysis) und Techniken zur erkundenden Analyse (engl. explorative analysis). Aus-
gangspunkt für die präsentativen Technik sind fest definierte Fakten, welche durch geeignete
Visualisierungstechniken dargestellt werden. Im Gegensatz dazu basieren die Ansätze zur
"bestätigenden" Analyse auf bereits durch den Benutzer definierte Hypothesen zu den jewei-
ligen Datensätzen. Aufgabe der Visualisierung ist es, die Daten in einer geeigneten Form dar-
zustellen, die eine Bestätigung oder Entkräftung der aufgestellten Hypothese erlaubt. Die
letzte Klasse von Informationsvisualisierungstechnologien, die explorative Analyse, geht von
Datensätzen aus, über die weder Fakten noch Hypothesen bekannt sind. Durch eine visuelle,
interaktive und im Allgemeinen ungerichtete Suche nach Trends, Strukturen und Mustern ist
der Benutzer in der Lage, neue Information aus den Daten zu gewinnen und letztendlich eine
Hypothese zu definieren. Obwohl alle drei Technologieklassen im visuellen Data Mining ein-
gesetzt werden können, sind es vor allem die Techniken der explorativen Analyse, die für ein
effektives visuelles Data Mining essentiell sind. Im Folgenden werden deshalb nur die wich-
tigsten explorativen Visualisierungstechniken detailliert beschrieben.
104
5.4 Methoden der Informationsvisualisierung
Erste Ansätze zur explorativen Visualisierung wurden von den Arbeitsgruppen von Tufte
[159] und Bertin [160] entwickelt. Während dieser Pionierarbeiten wurden dabei die wichtig-
sten Grundregeln und Techniken wie zum Beispiel die Layoutgestaltung, der Einsatz von Far-
ben und Formen, Techniken der Attributabbildung usw. ausgearbeitet. Basierend auf diesen
Regeln und Grundsätzen entwickelten sie erste zwei- und dreidimensionale Informationsvi-
sualisierungstechniken. In den folgenden Jahren wurden von anderen Arbeitsgruppen weitere
Techniken zur Visualisierung von unterschiedlichen Datentypen entwickelt. Der Übersichts-
artikel von Wong und Bergeron [161] beschreibt dabei detailliert die einzelnen Fortschritte
dieser geschichtlichen Entwicklung. Heute steht dem Anwender eine fast unüberschaubare
Anzahl an verschiedenen Techniken und Anwendungen zur Verfügung [153, 154]. Dabei sind
vor allem solche Techniken in den Fokus des Interesses getreten, die sehr große und multiva-
riate Datensätze handhaben können. Diese Techniken können durch drei verschiedene Krite-
rien klassifiziert werden [162, 163]: die Art der zu visualisierenden Daten, die Art der
Technik an sich sowie durch Methoden zur Interaktion und visuellen Transformation. Diese
drei Klassen können beliebig miteinander kombiniert werden. Informationsvisualisierungs-
werkzeuge sind deshalb häufig in der Lage, verschiedene Datentypen zu visualisieren und
nutzen dazu kombinierte Ansätze von Visualisierungs- und Interaktionstechniken.
5.4.1 Datentypen und Dimensionalität
Große Datensätze wie beispielsweise Screeningdaten oder Resultate kombinatorischer
Experimente bestehen aus einer großen Anzahl an Einzeleinträgen den sogenannten
Datenrecords, die sich ihrerseits aus einer definierten Anzahl an Variablen, den Dimensionen,
zusammensetzen. Ein Dateneintrag kann dabei zum Beispiel einer chemischen Reaktion oder
einer chemischen Verbindung entsprechen, wobei die einzelnen Variablen den
korrespondierenden Werten der Reaktionsbedingungen oder biologischen Aktivitäten
entsprechen. In der Informationsvisualisierung wird die Zahl der Variablen auch als
Dimensionalität des Datensatzes bezeichnet. Nach Shneiderman [158] können Datensätze
ein- zwei- oder auch multi-dimensional sein oder auch aus komplexeren Datentypen wie
Texten, Hypertexten, Hierarchien, Graphen oder Algorithmen bestehen. Alternativ werden
diese Datesätze auch als uni-, bi- oder multivariaten Datensätze bezeichnet.
5.4.1.1 Eindimensionale Datensätze
Typische Vertreter von eindimensionalen Datensätzen sind zeitabhängige Daten. Dabei
können jedem Punkt auf der Zeitskala ein oder mehrere Messwerte zugeordnet werden. Ein
chemisches Beispiel stellen Langzeituntersuchungen von kontaminierten Böden dar, in denen
der zeitliche Verlauf von Schadstoffkonzentrationen ermittelt wird.
105
5 Data Mining und Datenvisualisierung
5.4.1.2 Zwei- und dreidimensionale Datensätze
Zwei- und dreidimensionale Datensätze bestehen aus zwei bzw. drei definierten Variablen.
Ein typisches Beispiel für solche Datensätze stellen geographische Karten dar. Aber auch in
der Chemie sind entsprechende Datensätze nicht unüblich. Darüber hinaus werden häufig die
Ergebnisse von klassischen Data Mining-Experimenten in zwei- oder dreidimensionaler
Form dargestellt (Auftragung von Principal Components oder Kohonen-Karten). Zwei- und
dreidimensionale Datensätze werden in der Regel durch einfache x-y- bzw. x-y-z-Plots
visualisiert. Auch wenn diese Darstellungsform einfach erscheint, können mit zunehmender
Datengröße bzw. -dichte schnell unübersichtliche und teilweise unbrauchbare Auftragungen
resultieren.
5.4.1.3 Multidimensionale Datensätze
Häufig bestehen Datensätze aus mehr als drei Dimensionen und können daher nicht mit
Hilfe von zwei- oder dreidimensionalen Plots dargestellt werden. Multidimensionale Daten-
sätze können in der Regel mehrere Hundert bis Tausend Dateneinträge enthalten. Sie werden
unter anderen durch automatisierte Laborsysteme wie HTS- und Kombinatorikanlagen gene-
riert und in relationalen Datenbanken gespeichert. Diese Daten können nur mit Hilfe weiter-
entwickelter Visualisierungstechniken dargestellt werden, da das effektive Mapping der
zahlreichen Dimensionen auf einen zweidimensionalen Bildschirm ein schwieriger Vorgang
ist.
Die Visualisierung multidimensionaler, chemischer Datensätze war das Ziel dieser Arbeit.
Aus diesem Grund beschränkt sich die Beschreibung der diversen Visualisierungstechniken
in Abschnitt 5.4.2 auch nur auf multidimensionale bzw. multivariate Ansätze.
5.4.1.4 Spezielle Datentypen
Nicht alle Datentypen können durch Angabe der Dimensionalität beschrieben werden.
Dies trifft beispielsweise auf digitale Texte und Hypertexte zu, deren Analyse vor allem im
Bereich des World Wide Web hohe Bedeutung beizumessen ist. Diese Datentypen können
nicht sinnvoll in Form von Zahlen dargestellt werden, weshalb viele Visualisierungstechniken
zur Darstellung dieser Daten nicht eingesetzt werden können. Eine weitere Klasse von Daten-
sätzen stellen Hierarchien und Graphen dar, die auf Beziehungen zwischen einzelnen Daten-
punkten basieren. Diese Daten sind auch in der Chemie und Biochemie von großer
Bedeutung (zum Beispiel in Form metabolischer Pfade). Algorithmen zählen ebenfalls zu der
Klasse der speziellen Datenformen und erfordern besondere Visualisierungstechniken.
106
5.4 Methoden der Informationsvisualisierung
5.4.2 Die Visualisierungstechniken
Im Laufe der letzten dreißig Jahre wurden, wie bereits erwähnt, zahlreiche Techniken zur
Visualisierung von Informationen und Daten entwickelt und die Zahl der Visualisierungstech-
niken wird auch in Zukunft weiter ansteigen. Da die Beschreibung aller Visualisierungstech-
niken den Rahmen dieser Arbeit sprengen würde, werden im Folgenden nur solche Ansätze
erwähnt, die der Darstellung von multivariaten und multidimensionalen Datensätzen dienen.
Multivariate Visualisierungstechniken können dabei in Abhängigkeit ihrer zugrundeliegen-
den Visualisierungsprinzipien in fünf Kategorien unterteilt werden – geometrische Techniken,
Icon- und Glyph-basierte Techniken, Pixel- und Voxel-orientierte Systeme, hierarchische
Techniken und Techniken, die auf sogenannten Graphen basieren. Darüber hinaus existieren
auch zahlreiche hybride Ansätze, die sich durch Kombination verschiedener Visualisierungs-
techniken aus den genannten Bereichen ergeben.
Die Visualisierung hierarchischer bzw. Graphen-basierter Datensätze war nicht Schwer-
punkt dieser Arbeit, weshalb im Folgenden die entsprechenden Ansätze nur grob skizziert
werden. Bei der Entwicklung der in Kapitel 6 beschriebenen Visualisierungsapplikationen
kamen unter anderem Geometrie- und Icon-basierte Techniken zum Einsatz. Von besonderer
Bedeutung waren dabei jedoch 3D-Glyph-basierte Visualisierungstechniken, die eine Kombi-
nation aus geometrischen und Icon-basierten Techniken darstellen. Aus diesem Grund werden
die wesentlichen Merkmale sowie die wichtigsten Vertreter dieser Techniken detaillierter
erläutert.
5.4.2.1 Geometrie-basierte Ansätze
Die Grundidee geometrischer Visualisierungstechniken basiert auf der Nutzung geometri-
scher Transformationen und Projektionen, um so eine bestmögliche Darstellung multidimen-
sionaler Daten zu realisieren. Dabei können sowohl zwei- als auch dreidimensionale
Darstellungstechniken zum Einsatz kommen.
Zur Klasse dieser Techniken zählen zum einen einfache Visualisierungsmethoden aus dem
Bereich der Statistik wie Liniengraphen (Abbildung 5-4a) [167], Scatterplots bzw. Scatter-
plot-Matrizen (Abbildung 5-4b) [167, 168] sowie sogenannte "Projection Pursuit"-Techniken
[169], wobei letztere auf multivariaten, statistischen Methoden wie der Principal Component
Analyse (vgl. Abschnitt 5.2.1.1) oder dem multidimensionalen Scaling (vgl. Abschnitt
5.2.1.2) basieren. Darüber hinaus zählen auch Techniken wie Barchart- und Histogramm-
Darstellungen (Abbildung 5-4c) [167], Landscapes [170], Prosection Views [171], Andrew’s
Curves [172] als auch HyperSlice [173] und Hyperbox [174] zu dieser Visualisierungsklasse.
Zu den komplexeren und fortgeschritteneren Techniken zählen dabei die Parallel Coordina-
tes (Abbildung 5-4d) [175] und die Methoden RadViz und GridViz [176].
107
5 Data Mining und Datenvisualisierung
Abb. 5-4: Geometrische Visualisierungstechniken: a) Multiple Liniengraphen (Excel [177]), b) Scatterplot-Matrix (Statistika [178]), c) 3D-Balkendiagramm (InfVis, vgl. Kapitel 6), d) Parallel Coordinates (XmdvTool [179]).
Stellvertretend für die Vielzahl der Ansätze soll im Folgenden zum einen auf die Scatter-
plot- und Barchart-Methoden, welche innerhalb der in Kapitel 6 beschriebenen Visualisie-
rungsapplikationen eingesetzt wurden, als auch auf den bekanntesten Vertreter der
Geometrie-basierten Techniken, der Parallel Coordinates-Technik, eingegangen werden.
Scatterplots und Scatterplot-Matrizen. Scatterplots zählen wahrscheinlich zu den
bekanntesten Data Mining-Visualisierungstechniken und werden standardmäßig von vielen
Statistik- und Tabellenkalkulationsprogrammen unterstützt. Dabei kommen sowohl zwei- als
auch dreidimensionale Darstellungen zum Einsatz. Im Regelfall können mittels Scatterplots
zwei bzw. drei Datendimensionen dargestellt werden, wobei jede Datendimension auf eine
der zwei- bzw. drei orthogonalen Achsen abgebildet wird. Um Datensätze mit höherer
Dimensionalität zu visualisieren, werden unter anderen sogenannte Scatterplot-Matrizen ver-
wendet. Dabei kann beispielsweise ein vierdimensionaler Datensatz durch eine 4x4-Matrix
von Scatterplots dargestellt werden (Abbildung 5-4b). Häufig werden Scatterplot-Darstellun-
gen durch interaktive Techniken wie Zoom erweitert, um eine komfortablere Analyse des
Datensatzes zu gewährleisten. Weite Verbreitung haben auch Kombinationen von Scatterplot-
Darstellungen mit Icon- bzw. Glyph-basierten Techniken gefunden (vgl. Abschnitt 5-10).
108
5.4 Methoden der Informationsvisualisierung
Scatterplots und Scatterplot-Matrizen können beispielsweise durch die Programme Stati-
stika [178] und XmdvTool [179] generiert werden. Darüber hinaus wurde die Scatterplot-
Technik auch in das in Abschnitt 6-2 beschriebene InfVis-Programm implementiert.
Barcharts und Histogramme. Balkendiagramme (engl. Barcharts) werden in erster Linie
zur Präsentation von Daten eingesetzt. Darüber hinaus existieren jedoch auch weiterentwik-
kelte Techniken, wie beispielsweise 3D-Barcharts mit variierenden Formen, Farben und Grö-
ßen (Abbildung 5-4c), Survey Plots [167] sowie Histogramm-Matrizen [167], die im Bereich
des Data Mining zum Einsatz kommen. Barchart-Techniken wurden im Rahmen dieser
Arbeit sowohl im prototypischen, VRML-basierten Datenbankinterface des amerikanischen
Krebsforschungsinstituts (vgl. Abschnitt 6-1) als auch im InfVis-Programm (vgl. Abschnitt
6-2) eingesetzt.
Parallel Coordinates. Der wohl prominenteste Vertreter geometrischer Visualisierungs-
techniken ist die Parallel Coordinates-Darstellung (Abbildung 5-4d). Bei dieser Technik wer-
den die einzelnen Dimensionen durch vertikale Achsen repräsentiert, wobei der
entsprechende Wertebereich der Variablen entlang der einzelnen Achsen aufgetragen ist.
Jeder Datenpunkt bzw. jedes Datenobjekt wird dabei durch eine polygonale Linie dargestellt,
welche die Achsen an den entsprechenden Stellen schneidet. Parallel Coordinates können
unter anderem vom XmdvTool [179] generiert werden.
5.4.2.2 Icon- und Glyph-basierten Techniken
Eine andere Klasse von explorativen Visualisierungstechniken stellen die sogenannten
Icon- bzw. Glyph-basierten Ansätze dar. Diese Techniken werden vor allem zur Darstellung
von diskreten, multivariaten Daten eingesetzt. Unter einem Glyphen versteht man dabei ein
graphisches Objekt, welches ein einzelnes multivariates Datenobjekt repräsentiert. Bei der
Generierung der Icons bzw. Glyphen werden die diversen Datendimensionen eines Datensat-
zes in systematischer Weise den verschiedenen graphischen Attributen wie Form, Farbe,
Größe, Orientierung, Textur, etc. des graphischen Objekts zugeordnet. Dieses Abbilden (engl.
Mapping) der Dimensionen auf die sogenannten retinalen Eigenschaften [180] wird auch als
visuelles Mapping bezeichnet. Abbildung 5-5 enthält eine Übersicht der wichtigsten retinalen
Eigenschaften. Neben der Anzahl der möglichen Dimensionen, die mit Hilfe der einzelnen
graphischen Eigenschaften beschrieben werden können, enthält die Abbildung auch Bei-
spiele, die den Gebrauch von Glyphen bei kontinuierlichen, numerischen sowie diskreten
bzw. kategorischen Daten zeigt. Viele der graphischen Attribute hängen dabei direkt vonein-
ander ab. So setzen beispielsweise Texturen mindestens eine Farbe zur Darstellung voraus
und Blinken kann mit der Darstellung von Bewegungen wechselwirken. Im Allgemeinen ist
daher eine sinnvolle Darstellung auf acht Dimensionen beschränkt.
109
5 Data Mining und Datenvisualisierung
Abb. 5-5: Retinale Eigenschaften in der Glyph-basierten Visualisierung.
Insbesondere bei Vorlage diskreter Daten muss eine gute Unterscheidung der einzelnen
Glyphen gewährleistet sein, um eine sinnvolle Visualisierung zu gewährleisten. Dabei müs-
sen unter anderem verschiedene psychologische (z.B. unterschiedliche und geschlechtspezifi-
sche Wahrnehmung von Farben und Orientierungen) und physiologische Aspekte (z.B. Rot-
Grün-Blindheit) berücksichtigt werden, auf die an dieser Stelle nicht näher eingegangen wird.
Eine gute Einführung in diese Thematik liefert das Buch "Information Visualization - Percep-
tion for Design" von Colin Ware [153].
Eine klare Identifizierung und Unterscheidung verschiedener Glyphen erlauben auch
einige spezielle Visualisierungstechniken, die auf sogenannten Icons basieren. Hierzu zählen
beispielsweise Chernoff Faces (Abbildung 5-8b) [181], Stick Figures [183], Star Glyphs
(Abbildung 5-8a) [182], Pies (Abbildung 5-8c) sowie Shape-Coding [184] und Color-Icons
[185]. Aufgrund ihrer weiten Verbreitung in aktuellen Standard-Applikationen sollen hier
stellvertretend die Chernoff Faces, Pies und Star Glyphs genauer betrachtet werden.
Pies. In der Pies-Methode (Abbildung 5-8) werden die einzelnen Datenobjekte durch Pie
Charts repräsentiert. Die einzelnen Dimensionen werden dabei in Form von "Kuchenstücken"
dargestellt, wobei die Größe dieser Stücke vom jeweiligen Maximalwert der Dimension
abhängt. Pies können ebenfalls mit Statistika [178] dargestellt werden.
DimensionalitätKontinuierliche Daten
Quantitatives MappingDiskrete Daten
Nominales MappingGraphisches
Attribut
Farbe
Form
Orientierung
Textur
Bewegung
Blinken
3 Dimensionen(Kontrast, Größe,
Orientierung)
U
StufenloseBlinkgeschwindigkeit
Blinken, Nicht-Blinken,klar definierte Stufen
Textur-Morphing(ungünstig)
1 Dimension
mind. 2-3 Dimensionen
3 Dimensionen (x, y, z)
max. 3 Dimensionen(3 bei color opponent)
max. 3 Dimensionen(x, y, z)
110
5.4 Methoden der Informationsvisualisierung
Abb. 5-6: Pies-Darstellung (Statistika [178]).
Star Glyphs. Star Glyphen (Abbildung 5-7) gehören wahrscheinlich zu den meist genutz-
ten, Icon-Visualisierungstechniken. Dabei werden die einzelnen Dimensionen durch gleich-
winklige, im Uhrzeigersinn angeordnete Speichen repräsentiert. Die äußeren Enden der
Speichen entsprechen dabei den maximalen Werten der Datendimensionen. Schließlich wer-
den die äußeren Enden noch durch eine polygonale Linie verbunden. Star Glyphen können
mit Programmen wie Statistika [178] oder XmdvTool [179] dargestellt werden.
Abb. 5-7: Star Glyphen (Statistika [178])
Chernoff Faces. Chernoff Faces (Abbildung 5-8) zählen zu den am kunstvoll ausgearbei-
testen Icon-Visualisierungsmethoden. Ein Datenobjekt wird dabei durch ein individuelles
Gesicht ausgedrückt, wobei die unterschiedlichen Datendimensionen auf markante Gesichts-
züge wie beispielsweise die Breite und Länge des Gesichts, die Größe und der Abstand der
Augen, die Höhe und Größe der Ohren, die Schwingung des Mundes oder die Höhe und Stel-
lung der Augenbrauen abgebildet werden. Durch die angeborene Fähigkeit des Menschen,
Gesichter und Stimmungen zu erkennen, wird jeder Datenpunkt zu einem leicht identifizier-
baren Individuum. Chernoff Faces werden unter anderem von Statistika [178] generiert.
111
5 Data Mining und Datenvisualisierung
Abb. 5-8: Chernoff Faces (Statistika [178]).
Das im folgenden Kapitel beschriebene und im Rahmen dieser Arbeit entwickelte InfVis-
Programm basiert in erster Linie auf einen modifizierten Glyph-basierten Ansatz (vgl.
Abschnitt 5-10).
5.4.2.3 Pixel- und Voxel-orientierte Techniken
In Pixel-orientierten Ansätzen wird jeder einzelne Dimensionswert einem farbigen Pixel
zugeordnet. Die Pixel werden darüber hinaus in Abhängigkeit von den jeweiligen Dimensio-
nen gruppiert und in separaten Regionen dargestellt [186]. Die Werte der einzelnen Dimen-
sionen werden durch die Farbe des Pixels repräsentiert. Da lediglich ein Pixel pro
Datenobjekt benötigt wird, können mit Hilfe dieser Technik die derzeit höchste Anzahl an
Datenpunkten gleichzeitig dargestellt werden. Die bekanntesten Vertreter dieser Visualisie-
rungsform sind die sogenannte Recursive Pattern-Technik [187] und die Circle Segment-
Technik [188].
Abb. 5-9: Pixel- und Voxel-basierte Visualisierungstechniken: a) Circle Segment-Technik [157], b) Voxel-basierte Visualisierung [238].
Der zweidimensionale, Pixel-orientierte Ansatz kann darüber hinaus auch auf drei Raum-
dimensionen erweitert werden. Das dreidimensionale Analogon zum Pixel ist dabei das soge-
112
5.4 Methoden der Informationsvisualisierung
nannte Voxel. Voxel- bzw. texturbasierte Ansätze erlauben aufgrund der zusätzlichen dritten
Dimension die Darstellung noch größerer Datensätze. Erste Arbeiten auf diesem Gebiet wur-
den von Becker [189] beschrieben. Zur Zeit werden im Rahmen des ChemVis-Projekts von
unseren Projektpartnern fortgeschrittenere, texturbasierte Techniken entwickelt.
5.4.2.4 Hierarchische und Graph-basierte Techniken
Hierarchische Techniken, auch Stacked Displays genannt, stellen Daten in Form von hier-
archisch aufgeteilten Untereinheiten dar. Im Fall von multidimensionalen Datensätzen dienen
dabei selektierte Dimensionen zur Aufteilung des Datensatzes und zum Aufbau der Hierar-
chie. Bekannte Vertreter sind das Dimensional Stacking [190] sowie die Cone Tree-Technik
[191].
Abb. 5-10: Hierarchische Visualisierungstechniken: a) Dimensional Stacking (XmdvTool [179]), b) Cone Tree [191].
5.4.2.5 Hybride Ansätze
Neben den erwähnten Visualisierungstechniken wurde auch eine Vielzahl hybrider
Ansätze entwickelt, die Kombinationen der oben beschriebenen Methoden darstellen. Im
Rahmen dieser Arbeit spielten dabei vor allem räumlich angeordnete 3D-Glyhpen eine zen-
trale Bedeutung (Abbildung 5-11).
Diese Visualisierungsform stellt dabei eine Kombination aus dreidimensionalen Scatter-
plots (vgl. Abschnitt 5.4.2.1) und Icon-Techniken (vgl. Abschnitt 5.4.2.2) dar. Im Gegensatz
zu klassischen, auf Glyphen basierenden Ansätzen können mit dieser Methode drei weitere
Datendimensionen durch Nutzung der drei orthogonalen Achsen dargestellt werden. Darüber
hinaus kann bei der 3D-Hardware-unterstützten Darstellung solcher Systeme auch eine wei-
tere retinale Eigenschaft, die Transparenz bzw. Opazität, der graphischen Objekte für das
visuelle Mapping genutzt werden. Wie bereits erwähnt, können mit Hilfe der Glyphgestalt
nicht nur die Werte einer einzelnen Dimension, zum Beispiel durch definierte, diskrete Gra-
113
5 Data Mining und Datenvisualisierung
phikprimitive wie Kugeln, Kegel oder Würfel dargestellt werden. Vielmehr besteht die Mög-
lichkeit die drei räumlichen Ausdehungsrichtungen (x, y, z) eines graphischen Objekts zu
verwenden, um bis zu drei Dimensionen durch die Form zu repräsentieren. Während die Dar-
stellung von zwei Dimensionen dabei auch mit klassischen, Icon-basierten Techniken leicht
zu realisieren ist, kann die Formveränderung in x-, y- und z-Richtung ebenfalls erst mit Hilfe
des hybriden, dreidimensionalen Ansatzes bewerkstelligt werden.
Abb. 5-11: Visualisierungsansatz mit dreidimensionalen Glyphen [192] (Farbabbildung: Anhang A, Abbildung A-10).
Der große Vorteil von auf 3D-Glyphen basierenden Visualisierungsansätze ist die einfache
und intuitive Handhabung und Interpretation dieser Darstellungsmethode. Da der Mensch
selbst in einer dreidimensionalen Welt existiert, setzen dreidimensionale Darstellungen keine
abstrakten und komplexen Denkweisen voraus. Aus diesem Grund können 3D-Glyphen im
Gegensatz zu anderen, abstrakteren Visualisierungstechniken wie beispielsweise der Parallel
Coordinates-Technik (vgl. Abschnitt 5.4.2.1) auch von ungeübten Benutzern angewendet
werden.
Ein 3D-Glyph-basiertes Visualisierungssystem zur explorativen Analyse und Darstellung
von multivariaten Datensätzen wurde von unseren Projektpartnern an der Universität Stutt-
gart entwickelt [192]. Darüber hinaus diente diese Visualisierungstechnik auch als zentrale
Darstellungsform bei der Realisierung des im nächsten Kapitel beschriebenen InfVis-Pro-
gramms.
114
5.4 Methoden der Informationsvisualisierung
5.4.3 Techniken zur Interaktion und Verzerrung
Applikationen zur explorativen Informationsvisualisierung können nicht nur in Hinblick
auf unterschiedliche Datentypen und Visualisierungstechniken differenziert sondern auch in
Abhängigkeit von diversen interaktiven und verzerrenden Techniken klassifiziert werden. Es
sind vor allem diese Techniken, die eine Visualisierungsapplikation erst zu einem effektiven
Datenanalysewerkzeug machen. Grundsätzlich können diese Techniken in interaktive bzw.
dynamische Techniken und sogenannte Distortion-Techniken (graphische Verzerrungstechni-
ken) unterteilt werden.
Interaktive Techniken wie beispielsweise Filter, Zoom und Linking erlauben dem Benutzer
eine direkte Interaktion mit Daten sowie eine dynamische Anpassung der graphischen
Darstellung an aktuelle analytische Fragestellungen. Im Gegensatz dazu dienen Distortion-
Techniken zur Fokussierung bzw. Darstellung von Detailinformationen bei gleichzeitiger
Visualisierung einer grob aufgelösten Übersicht. Dabei kann der Benutzer Daten, welche im
Fokus des Interesses liegen, in hochaufgelöster Form studieren während der Rest der
Datenlandschaft in einer niedrigen Auflösung ständig einsehbar und zugreifbar bleibt. Die
wichtigsten dynamischen und verzerrenden Techniken werden im Folgenden erläutert.
5.4.3.1 Dynamische Projektionstechniken
Mit Hilfe dieser Technik kann der Benutzer Datenprojektionen wie beispielsweise die
abgebildeten retinalen Eigenschaften dynamisch verändern, um eine bessere bzw. sinnvollere
Darstellung der multivariaten Daten zu erreichen. Entsprechende Techniken werden zum
Beispiel vom Programm XGobi [193] unterstützt und wurden auch in das im Rahmen dieser
Arbeit entwickelten InfVis-Programms implementiert.
5.4.3.2 Interaktive Filter-Techniken
Zu den wichtigsten Methoden im visuellen Data Mining zählen Techniken, die eine
interaktive Partitionierung von Datensätzen in Teildatensätze oder ausgewählte Teilmengen
erlauben. Dabei kann grundsätzlich zwischen Selektions- und sogenannten Querying-
Verfahren unterschieden werden. Selektionstechniken ermöglichen eine direkte Auswahl von
bestimmten Datenpunkten durch den Benutzer, während in Querying-Verfahren der
Teildatensatz aus durch den Benutzer definierten Spezifikationen von bestimmten
Eigenschaften zum Beispiel Angeben von Grenzwerten resultiert. Häufig werden dabei die
besten Resultate durch Kombination der beiden Ansätze erzielt. Bekannte Vertreter dieser
Technologieform sind das Magic Lenses- [194] und das InfoCrystal-Verfahren [195] sowie
die Dynamic Queries [196-198]. Letztere spielten auch in dieser Arbeit eine entscheidende
Rolle.
115
5 Data Mining und Datenvisualisierung
5.4.3.3 Interaktives Zooming
Zoom-Techniken spielen vor allem bei großen Datensätze eine wichtige Rolle. In der
Regel stellen Visualisierungsanwendungen große Datensätze zunächst in einer reduzierten
Form dar, um einen umfassenden Überblick zu gewährleisten. Mit Hilfe von Zooming-
Techniken hat der Benutzer anschließend die Möglichkeit in ausgewählte Bereiche
vorzudringen, um eine detailliierte Repräsentation der Daten zu erzielen. Dieser Vorgang geht
dabei häufig mit einer Änderung der Visualisierungsform einher. Fortschrittlichere Techniken
wie die Fisheye View-Projektionen [199] erlauben dabei die Darstellung von
Detailinformationen bei gleichzeitiger wenn auch grobaufgelöster Visualisierung der
restlichen Daten. Ein detailliierter Vergleich der diversen Techniken wurde von Schaffer et al.
beschrieben [200]. In der InfVis-Anwendung kamen einfache 3D-Zoomfunktionen zum
Einsatz.
5.4.3.4 Interaktive Distortion-Techniken
Die im vorangegangenen Abschnitt beschriebene Fisheye View-Technik kann nicht nur als
Zooming-Technik sondern auch als Distortion-Technik betrachtet werden. Distortion-Techni-
ken erlauben die Darstellung von Detailinformationen bei gleichzeitiger Erhaltung der Über-
sichtsrepräsentation. Distortion-Techniken kamen im Rahmen dieser Arbeit nicht zum
Einsatz, weshalb an dieser Stelle auf einen weiterführenden Übersichtsartikel verwiesen wird
[201].
5.4.3.5 Interaktive Linking- und Brushing-Techniken
Wie bereits beschrieben wurde, ist die Wahl einer Visualisierungstechnik von vielen Fak-
toren wie beispielsweise dem Datentyp abhängig. Darüber hinaus hängt die Wahl der richti-
gen Visualisierungstechnolgie auch häufig von der jeweiligen Fragestellung ab. Da häufig
verschiedene Fragestellungen an den gleichen Datensatz gestellt werden müssen, ist ein
Wechsel der Visualisierungstechnologie unvermeidlich. Aus diesem Grund kommen häufig
hybride Ansätze aber auch Visualisierungsapplikationen, die eine parallele Darstellung durch
verschiedene Techniken erlauben, zum Einsatz. Letztere Ansätze können mit Hilfe von Link-
ing- und Brushing-Verfahren dynamisch miteinander verknüpft werden. So kann der Anwen-
der beispielsweise in einer Scatterplot-Ansicht Daten selektieren, was zu einer automatischen
Aktualisierung der Datendarstellung in einer Parallel Coordinates-Darstellung führt. Ent-
sprechende Verfahren kamen in dieser Arbeit ebenfalls nicht zum Einsatz.
116
Kapitel 6
Visuelle Data Mining-Applikationen
Im vorausgehenden Kapitel wurden die Aufgaben und die Bedeutung des Data Mining im
Bereich der chemischen Forschung erläutert. Dabei wurden insbesondere die Methoden und
Eigenschaften des visuellen Data Minings sowie die hierfür notwendigen Techniken der
Informationsvisualisierung beschrieben. Die Methoden und Applikationen dieses speziellen
Data Mining-Feldes haben in jüngster Zeit insbesondere im Wirkstoffdesign aufgrund der
drastischen Zunahme an generierten Daten stark an Bedeutung gewonnen. Der entscheidende
Vorteil dieser Systeme gegenüber klassischen, "Black Box"-ähnlichen Data Mining-Ansätzen
ist die einfache und von speziellen Data Mining-Kenntnissen unabhängige Architektur. Visu-
elle Data Mining-Anwendungen können daher direkt von den Chemikern eingesetzt werden,
die auch für die Generierung der Datensätze verantwortlich sind und ermöglichen somit eine
best- und schnellstmögliche Analyse und Interpretation der Daten.
Screeningdatensätze und kombinatorische Daten liegen in der Regel in Form firmeninter-
ner oder öffentlich zugänglicher Datenbanken vor und sollten daher auch durch firmeninterne
Informationssysteme oder über das Internet zugreifbar und analysierbar sein. Zu Beginn der
dieser Dissertation zugrundeliegenden Entwicklungsarbeiten gab es jedoch keine portablen
Möglichkeiten, um hochdimensionale Datensätze im Internet zu visualisieren und zu analy-
sieren. Dieses Kapitel beschreibt verschiedene, im Rahmen dieser Arbeit entwickelte Ansätze
und Applikationen, die ein portables, WWW-fähiges visuelles Data Mining multivariater,
chemischer Datensätze ermöglichen.
Der erste Teil des Kapitels beschreibt ein auf VRML basierendes 3D-Interface für die
weltweit größte frei zugängliche chemische Strukturdatenbank, die Antitumor-Screening-
Datenbank des amerikanischen Krebsforschungsinstituts (National Cancer Institute, NCI).
Das Interface dient dabei der Visualisierung und Analyse der in der Datenbank enthaltenen
cancerotoxischen und cancerostatischen Messwerte.
Der zweite Teil des Kapitels widmet sich dem Aufbau und der Funktionsweise des in Java
implementierten InfVis-Programms. Das sowohl als Standalone-Anwendung als auch als
117
6 Visuelle Data Mining-Applikationen
Applet ausführbare Programm wurde nicht wie das zuvor erwähnte Interface zur Analyse
eines spezifischen Datensatzes sondern für den allgemeinen Umgang mit beliebigen, multiva-
riaten bzw. multidimensionalen Datensätzen konzipiert.
Abschließend wird im letzten Teil des Kapitels der Online-Dienst ’NCI Screening Data 3D
Miner’ vorgestellt. Der Online-Dienst stellt dabei eine auf InfVis basierende Weiterentwick-
lung des bereits erwähnten NCI Datenbank-Interfaces dar.
In vielen chemischen und mathematischen Modellen wird das dreidimensionale Koordina-
tensystem so dargestellt, dass die z-Achse nach oben weist. Im Gegensatz dazu ist in der 3D-
Visualisierung das kartesische Koordinatensystem in der rechtshändigen Form (Rechte-Hand-
Regel) weit verbreitet (Abbildung 6-1). Bei gespreizten Fingern der rechten Hand zeigt der
Zeigefinger in x-Richtung, der Mittelfinger in y-Richtung und der Daumen in z-Richtung.
Diese Form des Koordinatensystems liegt gewöhnlich allen 3D-Visualisierungsapplikationen
(darunter auch chemischen Anwendungen wie Molcad [250]) sowie den etablierten 3D-Gra-
phikschnittstellen wie beispielsweise OpenGL (vgl. Abschnitt 2.1.3.2) zugrunde und ist auch
Basis der in diesen Kapitel vorgestellten Applikationen.
Abb. 6-1: Dreidimensionales Koordinatensystem (Rechte-Hand-Form).
6.1 NCI Antitumor-Datenbank-Interface
6.1.1 Motivation und Zielsetzung
Die Antitumor- antivirale Screening-Datenbank des US Krebsforschungszentrums stellt
mit über 250.000 Verbindungen die derzeit größte, frei zugängliche chemische Strukturdaten-
bank dar. Seit Beginn des in-vitro Screeningtest im Jahre 1990 wurden dabei bereits über
70.000 (davon 40.000 frei zugängliche) dieser Verbindungen durch das NCI Developmental
Therapeutics Program (DTP) [202] gegen einen standardisierten Satz von sechzig Krebszell-
linien getestet (vgl. Anhang C) [203, 204]. Die resultierenden Screeningdatensätze wurden
y
z
x
vorne
hinten
118
6.1 NCI Antitumor-Datenbank-Interface
mit Hilfe verschiedener Data Mining-Experimente analysiert und waren Gegenstand zahlrei-
chen Publikationen [205]. Darüber hinaus wurden einige Online-Schnittstellen für die Suche
und Analyse der Datenbank entwickelt, wobei der Enhanced CACTVS NCI Database
Browser den umfangreichsten und am weitesten entwickelten Vertreter darstellt [93]. Dieser
in einer Kooperationsarbeit zwischen dem Computer-Chemie-Centrum und dem Laboratory
of Medicinal Chemistry des NCI (LMC, Center for Cancer Research, NCI, NIH) entwickelte
Online-Dienst vereint alle öffentlich zugänglichen Daten der NCI Datenbank und wurde dar-
über hinaus um dreidimensionale Strukturinformationen und berechnete und experimentelle
molekulare Eigenschaften erweitert. Trotz der Vielzahl der implementierten komplexen Such-
und Analysemöglichkeiten können in der gegenwärtigen Version keine Suchverfahren auf
den Antitumor-Screeningdaten durchgeführt werden. Darüber hinaus werden die Screening-
daten der einzelnen Verbindungen auch nur in einer tabellarischen Liste ausgegeben, was die
Identifikation potentieller Wirkstoffkandidaten erschwert. Im Gegensatz dazu ist eine durch
den Benutzer definierte Suche innerhalb der Screeningdaten mit Hilfe der vom DTP entwik-
kelten Online-Werkzeuge möglich. Leider beschränkt sich die Visualisierung der Screening-
daten jedoch nur auf ein zweidimensionales Balkendiagramm, das den Vergleich von
maximal zwei verschiedenen Verbindungen zulässt. Diese stark limitierte Darstellungsform
ist für die Erkennung allgemeiner Struktur-Aktivitätsprinzipien ungeeignet, da hierfür die
Screeningdaten einer Vielzahl strukturell ähnlicher Verbindungen betrachtet und verglichen
werden müssen.
Das Ziel war daher die Entwicklung einer Online-Anwendung, die eine effektive Darstel-
lung und Analyse der NCI Screeningdaten ermöglichte. Um eine visuelle Erkennung von
Struktur-Aktivitäts-Prinzipien zu gewährleisten, musste der Online-Dienst in der Lage sein,
die biologischen Aktivitäten einer Vielzahl von Verbindungen darzustellen. Da bei der Reali-
sierung der Anwendung der Internetstandard VRML eingesetzte wurde, sollte in einer weite-
ren Fragestellung die Verwendbarkeit dieses Graphikformats für den Einsatz im visuellen
Data Mining überprüft werden.
6.1.2 Funktionsbeschreibung
Das Eingabeformular (Abbildung 6-2) des Online-Dienstes besteht aus drei Bereichen.
Der obere Teil des HTML-Fomulars dient dabei zur Festlegung der Kriterien für die Struktur-
suche. Der Benutzer kann zum einen mit Hilfe von CAS-Nummern oder internen Kennzeich-
nungen des amerikanische Krebsforschungsinstituts, den sogenannten NSC-Nummern, nach
bestimmten Verbindungen suchen. Im Allgemeinen sind diese speziellen Identifier dem
Benutzer jedoch nicht bekannt und kommen daher nur in seltenen Fällen zum Einsatz. In der
Regel erfolgt die Suche nach Verbindungen über die chemische Struktur bzw. Konnektivität.
119
6 Visuelle Data Mining-Applikationen
Abb. 6-2: Eingabeformular des NCI Antitumor-Datenbank-Interface.
Der Benutzer hat deshalb die Möglichkeit Konnektivitätsdaten in Form der SMILES-Nota-
tion [104] an den Service zu übergeben. Dieses Austauschformat kann entweder von mit der
SMILES-Syntax vertrauten Benutzern direkt eingegeben oder mit Hilfe der Copy & Paste-
Funktion aus aktuellen, chemischen Struktureditoren übernommen werden. Darüber hinaus
bietet die Anwendung wie auch die im ersten Teil dieser Arbeit beschriebenen Online-Appli-
kationen die Nutzung eines Java-basierten Struktureditors [12] zur Generierung von
SMILES-Strings an. Der Anwender kann die eingegebene Konnektivitätsinformation zum
einen für die Suche nach exakten Strukturen einsetzen. Wesentlich interessanter ist jedoch die
Möglichkeit die strukturelle Information zur Substruktursuche zu verwenden. Neben der Sub-
struktursuche können auch noch diverse Ähnlichkeitssuchen (98%, 95%, 90% und 75%
strukturelle Ähnlichkeit) durchgeführt werden.
Der NCI in-vitro Screeningtest wurde so definiert, dass die sechzig Standard-Krebszellli-
nien sowohl die wichtigsten organbezogenen Krebsarten als auch die wichtigsten biochemi-
schen Mechanismen umfasst. Im mittleren Teil des Eingabeformulars kann der Benutzer
daher die für die Fragestellung interessanten Krebsfamilien wie Brust-, Lungen-, Eierstock-,
Prostata-, Augen- und Darmkrebs sowie Leukämie, Melanome und Krebsarten des Zentralen
Nervensystems selektieren.
Der untere Teil des Online-Dienstes dient letztendlich zur Selektion der biologischen Akti-
vitäten. Dabei kann der Benutzer zwischen drei unterschiedlichen Messwerten wählen –
120
6.1 NCI Antitumor-Datenbank-Interface
GI50, TGI und LC50. Der GI50-Wert beschreibt die Konzentration einer chemischen Verbin-
dung, bei der eine 50%-ige Wachstumsinhibition festgestellt wurde. Der TGI-Wert ist die
Konzentration bei der kein Wachstum der Zellen mehr beobachtet werden konnte und
beschreibt daher den cancerostatischen Effekt einer Verbindung. Der letzte zur Wahl stehende
Wert ist der LC50. Dieser Wert steht für die Konzentration bei der die Zellpopulation um
50 Prozent minimiert wurde und ist damit ein Indiz für den cytotoxischen Effekt einer Ver-
bindung. Darüber hinaus kann der Benutzer entscheiden, ob die biologische Aktivität in einer
absoluten oder relativen Form dargestellt werden sollen. Bei der absoluten Aktivität werden
die gemessenen logarithmischen Werte direkt eingesetzt. Die relative Aktivität wird hingegen
nach dem ’Mean Graph’-Prinzip von Paull definiert [204, 206]. Dabei wird für eine gegebene
Verbindung die gemittelte biologische Aktivität über alle Krebszelllinien bestimmt. Der
gemittelte Wert wird anschließend von den einzelnen, zellspezifischen Aktivitäten subtra-
hiert, wodurch sich eine relative Darstellung ergibt. Diese Auftragung hat sich als besonders
nützlich zur Identifikation spezifischer Wirkungsweisen herausgestellt.
Schließlich kann der Benutzer die Datenbanksuche starten. Um eine Überfrachtung der
graphischen Szene zu vermeiden, wird dabei die Trefferliste auf einhundert Verbindungen
begrenzt.
Abb. 6-3: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung (Farbabbildung: Anhang A, Abbildung A-11).
121
6 Visuelle Data Mining-Applikationen
Nachdem die Datenbankrecherche beendet ist, werden die biologischen Aktivitäten in
Form einer VRML-Szene in einem zweiten Browserfenster dargestellt (Abbildung 6-3).
Dabei werden die Krebszelllinien auf der x-Achse und die chemischen Verbindungen auf der
z-Achse aufgetragen. Die biologischen Aktivitäten werden zum einen durch die Größe (Aus-
lenkung entlang der y-Achse) als auch durch die Farbe der 3D-Balken dargestellt. Die Farb-
werte entsprechen dabei dem Spektrum des sichtbaren Lichtes und verlaufen von violett für
niedrige biologische Aktivitäten nach rot für große Aktivitätswerte. In der ’Mean Graph’-
Darstellung (relative Auftragung der Werte) wird der biologische Aktivitätswert zudem durch
die Ausrichtung der Balken repräsentiert. Verbindungen mit einer unterdurchschnittlichen
Aktivität zeigen dabei nach unten aus der xz-Ebene heraus, während überdurchschnittliche
Aktivitäten durch nach oben ausgerichtete Balken dargestellt sind. Fehlende Messwerte wer-
den in der graphischen Szene durch Löcher symbolisiert.
Neben den Namen der einzelnen Krebszelllinien sind auf der x-Achse auch zusätzliche
numerische Identifikatoren (ID) aufgetragen. Diese IDs wurden zur einfachen, weiter unten
beschriebene Selektion der Krebszellen eingefügt. Darüber hinaus enthält auch die z-Achse
neben den Identifikationsnummern für die chemischen Verbindungen zusätzliche Objekte in
Form von roten Kugeln. Diese graphischen Objekte sind sogenannte Ankerknoten, die den
Hyperlinks in HTML-Seiten entsprechen und dienen in diesem Fall zur Abfrage chemischer
Detailinformation. Jeder Ankerknoten enthält dabei eine HTTP-kodierte Datenbankabfrage
für den bereits erwähnten Enhanced CACTVS NCI Database Browser [93]. Durch Anklicken
der Kugeln kann der Benutzer diesen Online-Dienst in einem weiteren Browserfenster öffnen
und somit auf sämtliche in der Datenbank gespeicherten Daten der korrespondierenden Ver-
bindung zugreifen. Darüber hinaus kann der Benutzer den Service auch für weitergehende
Arbeitsschritte verwenden. Der Anwender kann sich innerhalb der Szene frei bewegen und
die dargestellte Datenlandschaft mit Standard-Navigationswerkzeugen wie Translation, Rota-
tion und Zoom erforschen.
Neben der Darstellung der VRML-Szene wird auch das ursprüngliche Dateneingabefor-
mular im ersten Browserfenster durch ein neues HTML-Formular ersetzt (Abbildung 6-4).
Dieses Formular besteht dabei ebenfalls wie das erste Formular aus drei Bereichen – der
obere Teil zur Selektion der chemischen Verbindungen, der mittlere Teil zur Wahl der Krebs-
zelllinien und der untere Teil zur Auswahl der Aktivitätsdaten. Im Gegensatz zum ursprüngli-
chen Formular dient das neue, dynamisch generierte HTML-Formular jedoch nicht zur
Formulierung einer neuen Datenbankanfrage sondern vielmehr zur Selektion interessanter
Aktivitätsdaten. Aus diesem Grund enthält das Formular zwei Textfelder, in denen die Identi-
fikationsnummern der in der VRML-Szene dargestellten chemischen Verbindungen und
Krebszelllinien enthalten sind. Nachdem der Benutzer interessante Struktur-Aktivitäts-
Muster innerhalb der graphischen Übersicht ausgemacht hat, kann er die Identifikationsnum-
122
6.1 NCI Antitumor-Datenbank-Interface
mern uninteressanter Verbindungs-Krebszelllinien-Kombinationen aus den Textfeldern ent-
fernen. Nach Betätigung des ’Refine Results’-Knopfes werden sowohl die in der VRML-
Szene dargestellten Aktivitäten als auch die im Selektionsformular enthaltenen Daten der
durch den Benutzer definierten Auswahl entsprechend angepasst. Dieser Vorgang kann dabei
so oft wiederholt werden, bis die gewünschten Struktur-Aktivitäts-Daten isoliert wurden.
Abb. 6-4: NCI Antitumor-Datenbankinterface: Selektionsformular.
Neben diesen grundsätzlichen Funktionen bietet der untere Formularteil einige zusätzliche
Selektionsoptionen. Zum einen kann zu jedem Zeitpunkt die graphische Darstellung der bio-
logischen Aktivitätsdaten von einer relativen in eine absolute Darstellung bzw. umgekehrt
geändert werden. Darüber hinaus kann der Benutzer für die selektierten Verbindungen und
Krebszelllinien die zugrundeliegenden biologischen Aktivitätsdaten (GI50, LC50, TGI) aus-
tauschen, um so beispielsweise Unterschiede im cytotoxischen und cytostatischen Verhalten
einer Verbindung zu identifizieren. In einigen Fällen ermöglicht das Formular auch den
Wechsel der Substanzkonzentration. Dies ist dann der Fall, wenn eine als hoch aktive Sub-
stanz identifizierte Verbindung in verschiedenen Verdünnungsgraden im in-vitro Screening-
test eingesetzt wurde. Liegt die entsprechende Information für den selektierten Datensatz in
der Datenbank vor, so werden alle entsprechenden Konzentrationen automatisch zur Auswahl
123
6 Visuelle Data Mining-Applikationen
gestellt. Der Online-Dienst informiert den Benutzer darüber hinaus, für wieviele der darge-
stellten Verbindungen die gewählte Konzentration relevant ist.
6.1.3 Implementierung
Wie auch die im ersten Teil der Arbeit beschriebenen Online-Dienste basiert das NCI
Datenbank-Interface auf dem chemischen Datenmanagementsystem CACTVS (vgl. Abschnitt
2.3.1). Darüber hinaus kamen zum einen die Datenbank (spezifisches CACTVS-Format) des
Enhanced CACTVS NCI Database Browser mit molekularen Eigenschaften und Strukturin-
formationen der über 250.000 Verbindungen der NCI Datenbank als auch eine MySQL-Daten-
bank [207] mit den NCI in-vitro Screeningdaten von 41.000 (Stand: April 2002) chemischen
Verbindungen zum Einsatz.
Im Gegensatz zu den im ersten Teil der Arbeit beschriebenen Visualisierungsansätzen wur-
den bei der Implementierung des Web-fähigen Datenbank-Interfaces keine zusätzlichen
CACTVS-Module entwickelt. Vielmehr diente das CACTVS-System zur Ausführung der auf-
wendigen Substruktur- und Ähnlichkeitssuchen sowie für den Zugriff auf die CACTVS-
Datenbank des Enhanced CACTVS NCI Database Browser. Die einzelnen Prozessabläufe der
in Abbildung 6-5 schematisch dargestellten Datenvisualisierungssitzung werden im Folgen-
den näher beschrieben.
Nachdem der Benutzer die gewünschten Suchparameter zur Auswahl der chemischen Ver-
bindungen und Krebszelllinien angegeben und die Datenbankrecherche gestartet hat, über-
prüft das CGI-Skript in einem ersten Schritt die Syntax der übermittelten Parameter.
Anschließend wird je nach Benutzereinstellung (CAS, NSC, Substruktur- oder Ähnlichkeits-
suche) die Datenbank des Enhanced CACTVS NCI Database Browser durchsucht und die
relevanten Treffer in Form von NSC-Nummern an das CGI-Skript zurückgeliefert. Die Suche
ist dabei durch Angabe zusätzlicher Suchparameter nur auf solche Verbindungen limitiert, für
die auch Antitumor-Screeningdaten vorliegen (41.000 von 250.000 Verbindungen). Die vom
CACTVS-System gefundenen NSC-Nummern werden anschließend mit den vom Benutzer
selektierten Krebszelllinien in Form einer SQL-Datenbankanfrage kombiniert und diese zur
Abfrage der biologischen Aktivitätsdaten an die MySQL-Datenbank übergeben. Darüber hin-
aus entnimmt das CGI-Skript der Datenbank die verschiedenen Konzentrationsangaben, die
für die entsprechende Kombination zur Verfügung stehen. Mit Hilfe der zurückgelieferten
Daten generiert das CGI-Skript schließlich zum einen die VRML-Szene zur graphischen Dar-
stellung der biologischen Aktivitäten und zum anderen das temporäre HTML-Formular zur
Selektion von Teildatensätzen.
124
6.1 NCI Antitumor-Datenbank-Interface
Abb. 6-5: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI-Datenbank-Interface. Der rautierte Bereich kennzeichnet Elemente des Enhanced CACTVS NCI Database Browser [93], welcher nicht Teil dieser Arbeit war.
Der Benutzer kann im Folgenden Verbindungen und Krebszelllinien, welche er vorher
anhand auffälliger Aktivitätsmuster in der graphischen VRML-Darstellung ausgemacht hat,
im dynamisch generierten HTML-Formular selektieren bzw. die uninteressanten Einträge
löschen und die Daten zur Aktualisierung an den Server übermitteln. Im Gegensatz zur ersten
Datenbanksuche muss dabei kein erneuter Zugriff auf die Datenbank des Enhanced CACTVS
NCI Database Browser erfolgen, da zu diesem Zeitpunkt bereits alle relevanten NSC-Daten
dem CGI-Skript bekannt sind. Die neuselektierten Daten werden wieder zur Generierung
einer MySQL-Datenbankanfrage verwendet und die resultierende, neue VRML-Szene sowie
das aktualisierte HTML-Formular an den Benutzer übertragen. Dieser Vorgang kann beliebig
oft wiederholt werden.
HTML-
Formular
Eingabe
Strukturen
Hitlist
CACTVS-System
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
Client ServerCGI-Skript
VRML-Szene
Auswahl
Detail-Information
HTML-
Formular
Auswahl
Ausgabe
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
MySQL-NCI-Datenbank
41.000Screening-
daten
CACTVS-System
Selektion
Kreb szellen
Strukturen
2346, 2569, 2890, 102020,
102200, 105000, 190230,
654666, 656743,...
1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
11, 12, 13, 14, 15, 16, 17,
18, 19, 20 - 28, 60,...
Detail
HTML-
Formular
N
NR2
VRML
CACTVS-NCI-Datenbank
>250.000Strukturdaten,
MolekulareEigenschaften
125
6 Visuelle Data Mining-Applikationen
Wie bereits erwähnt, ist die VRML-Szene mit sogenannten VRML-Ankerknoten ausge-
stattet, um dem Benutzer die Abfrage von Detailinformation zu erlauben. Diese Ankerknoten
enthalten dabei einen Hyperlink zum Enhanced CACTVS NCI Database Browser mit einer
kodierten NSC-Nummer der entsprechenden Verbindung. Durch Anklicken der entsprechen-
den, roten Kugeln wird dann eine reguläre Online-Sitzung des Database Browsers gestartet
und die korrespondierende Detailinformation in einem dritten Browserfenster dargestellt. Da
letztere Funktionalität nicht durch das NCI Datenbank-Interface realisiert wird, wurden die
entsprechenden Teile in Abbildung 6-5 besonders hervorgehoben (rautiert).
6.1.4 Diskussion
Während zum Implementierungszeitpunkt des graphischen Datenbank-Interfaces bereits
zahlreiche Web-Applikationen zur Visualisierung verschiedener Datentypen wie beispiels-
weise Volumen vorlagen, gab es kaum portable Informationsvisualisierungs-Anwendungen,
die zur Darstellung großer Datensätze und somit zur Analyse und Suche nach Mustern und
Beziehungen geeignet waren. Darüber hinaus erlaubte der Großteil der wenigen, verfügbaren
Applikationen lediglich die Präsentation aber nicht die für visuelles Data Mining essentielle
Exploration von Datensätzen.
Erste Arbeiten auf dem Gebiet der portablen, explorativen Informationsvisualisierung
wurden in der National Security Agency (NSA, USA) entwickelt und basierten auf der Virtual
Reality Modeling Language [208]. Der Visualisierungsansatz diente zur Darstellung hierar-
chischer Daten und Graphen wie beispielsweise der Organisationsstruktur der NSA und
nutzte deshalb spezielle Visualisierungstechniken wie die Cone Tree-Technik (vgl. Abschnitt
5.4.2.4). Wie auch im vorliegenden Datenbank-Interface wurde in diesem frühen Ansatz die
VRML-eigene Ankerknotentechnik eingesetzte, um Hyperlinks in die VRML-Szene zu inte-
grieren und somit zusätzliche Zugriffsmöglichkeiten in Form von statischen HTML-Seiten
oder CGI-vermittelten Datenbanksuchen zu erlauben. Obwohl mit Hilfe dieses Ansatzes eine
Visualisierung, Analyse und Navigation innerhalb großer Datensätze möglich war, fehlten
essentielle Funktionen wie beispielsweise Filter- und Selektionswerkzeuge, die für ein effek-
tives visuelles Data Mining nötig sind.
Ein anderer mehr zur Präsentation als zur explorativen Analyse geeigneter Ansatz wurde
von der Firma StockSmart, einem Provider von Online-Analysewerkzeugen für Finanz- und
Investmentdaten, entwickelt [209]. Durch einen auf VRML basierenden, dreidimensionalen
Liniengraphen (vgl. Abschnitt 5.4.2.1) wird der zeitliche Verlauf von Firmenbilanzen darge-
stellt. Die VRML-Szene wurde mit Berührungs-Sensoren sowie Skriptknoten ausgestattet,
die zur Darstellung von Detailinformationen innerhalb der VRML-Szene dienen. Der Benut-
zer kann dabei mit dem Mauszeiger über bestimmte Regionen des Liniengraphen fahren, was
126
6.1 NCI Antitumor-Datenbank-Interface
zu einer farblichen Hervorhebung der einzelnen Bereiche und zur textuellen Darstellung der
korrespondierenden Detailinformation führt. Weitere Funktionalitäten sind nicht vorhanden.
Da die im VRML-Standard vorhandenen Interaktionstechniken für ein effektives visuelles
Data Mining im Allgemeinen nicht ausreichen, wurden verschiedene Ansätze zur Erweite-
rung der Benutzerinteraktionsfähigkeiten entwickelt. Eine Möglichkeit bietet dabei die
bereits im ersten Teil dieser Arbeit vorgestellte Kombination von VRML und Java über das
External Authoring Interface. Eine auf dieser Technik basierende Demonstrationsapplikation
wurde von Roskothen vorgestellt [210]. Die Online-Demo besteht dabei aus einer VRML-
Szene mit einer Balkendiagramm-Darstellung sowie einem Java-Applet, an das ein Datenar-
ray übergeben wird. Durch Betätigung eines Schiebereglers kann der Benutzer nun direkt die
Histogramm-Darstellung beeinflussen. Eine konkrete Nutzung dieser Technik innerhalb einer
visuellen Data Mining-Anwendung ist uns nicht bekannt.
Ein anderer Weg zur Verbesserung der Interaktionsfähigkeiten wurde von der Firma EM7
beschrieben und stellt darüber hinaus die wahrscheinlich erste kommerzielle, VRML-basierte
Softwarelösung im Bereich der Informationsvisualisierung dar [211]. Zum einen beinhaltet
die auf einer Client-Server-Architektur aufbauende Anwendung ein ActiveX-basiertes Appli-
cation Programmable Interface (API), mit dessen Hilfe die Server-seitige Anbindung an
externe Programmpakete als auch an verschiedene Datenbankformate möglich ist. Darüber
hinaus entwickelte EM7 eine umfassende Sammlung an VRML-Erweiterungen, das soge-
nannte ProtoPac, das die limitierten Funktionen des VRML-Standards durch diverse, speziell
für die Bedürfnisse der Informationsvisualisierung angepasste Funktionen ergänzte. Diese
Sammlung enthält dabei Werkzeuge zur Navigation, Interaktion und Datenbankkommunika-
tion. Leider schliesst die Nutzung des Microsoft-Standards ActiveX den Einsatz dieser Tech-
nik auf nicht-Windows-basierten Systemen aus. Darüber hinaus zeigte ein kürzlicher Besuch
auf der Homepage von EM7, dass es innerhalb der letzten ein bis zwei Jahre keine Aktualisie-
rungen der Technik gegeben hat und daher offensichtlich auch keine neuen Webbrowser- und
VRML-Plugin-Generationen unterstützt werden. Dieser Verdacht bestätigte sich bei der Aus-
führung der EM7-Demonstrationsanwendungen, die unter Verwendung des CORTONA-
VRML-Plugins [212] und Netscape 6.2 keine sinnvollen Darstellungen ergab.
Schließlich sollen an dieser Stelle noch zwei besondere VRML-basierte Programme zur
Exploration und Analyse von Datensätzen erwähnt werden – RInvoice und 3D Active Chart
[213]. Die beiden von der Firma First Information Systems entwickelten Programme stellen
jedoch im Gegensatz zu den anderen hier beschriebenen Ansätzen keine portablen WWW-
Applikationen dar. Dennoch nutzen sie den VRML-Standard zur Visualisierung der Daten-
sätze. Im Gegensatz zu den Web-fähigen Ansätzen werden in diesem Fall die VRML-Szenen
durch die ActiveX-Schnittstelle des VRML-Players CORTONA [212] in Standalone-Win-
127
6 Visuelle Data Mining-Applikationen
dows-Applikationen eingebunden. Dies ermöglicht auf der einen Seite ein Maximum an
Datenzugiffsmöglichkeiten und interaktiver Datenmanipulation, aber beschränkt auf der
anderen Seite die Nutzung dieser Programme auf Einzelplatzrechner mit Windows-Betriebs-
systemen.
Das NCI Datenbank-Interface stellt nach unserem Wissen die erste VRML-basierte
Anwendung dar, die speziell zur Visualisierung und Analyse chemischer, multidimensionaler
Datensätze im Internet entwickelt wurde. Darüber hinaus ist uns bis dato kein anderer Online-
Dienst bekannt, der den VRML-Standard zur Darstellung und Exploration von Datensätzen
der Chemie (ausgenommen molekulare Modelle wie Strukturen und Oberflächen) verwendet.
Der Einsatz der Virtual Reality Modeling Language birgt dabei sowohl Vor- als auch Nach-
teile. Zum Zeitpunkt der Implementierung stellte der VRML-Standard die einzige standardi-
sierte Technologie zur Vermittlung dreidimensionaler Szenen über das Internet dar. Ein
wesentlicher Vorteil dieses Standards basiert auf der leichten Verfügbarkeit. VRML-Szenen
können durch diverse, frei verfügbare VRML-Plugins in fast allen wichtigen Webbrowsern
sowie nahezu auf allen Plattformen und Betriebssystemen dargestellt werden. Darüber hinaus
baut VRML auf low-level Graphikschnittstellen wie OpenGL oder Direct3D auf und nutzt
daher die Fähigkeiten moderner 3D-Graphikhardware.
Ein wesentlicher Nachteil des VRML-Standards stellen die begrenzten Interaktions- und
Dynamik-Fähigkeiten des VRML-Formates dar. Obwohl mit Hilfe der implementierten Funk-
tionen einige grundsätzliche, explorative Werkzeuge wie beispielweise weiterführende, auf
Hyperlink-Technik basierende Detail- und Datenbankabfragen realisiert werden können, sind
zur Realisierung effektiver, visueller Data Mining-Applikationen zusätzliche Interaktions-
werkzeuge nötig. Im vorliegenden Fall wird dieses Defizit durch die Kombination der
VRML-Darstellung mit dynamisch generierten HTML-Formularen gelöst, wodurch dem
Benutzer die Selektion von Datenpunkten bzw. interessanter Muster ermöglicht wird.
Die typische Client-Server-Architektur von VRML-basierten Online-Diensten kann eben-
falls zu Nachteilen bei der Visualisierung großer Datensätze führen. Dabei wird im Allgemei-
nen die VRML-Szene auf der Serverseite durch entsprechende Data Mining-Applikationen
aus den Originaldaten generiert und an den Client übermittelt. Während dieser Graphiktrans-
fer von Daten (vgl. Abschnitt 3.3.3) bei kleinen Datensätzen problemlos zu realisieren ist,
werden mit zunehmender Datensatzgröße die Übertragungszeiten zwischen Server und Client
immer größer was letztendlich eine effektive Arbeit unmöglich macht. Die Ursache für dieses
Problem liegt dabei nicht unmittelbar in der Größe der relativ kompakten, tabellarischen Ori-
ginaldaten begründet, sondern basiert auf der Größe der VRML-Dateien, die in der Regel um
ein Vielfaches größer sind als die korrespondierenden Rohdaten. Im Fall des NCI Datenbank-
Interfaces fällt dieser Sachverhalt weniger ins Gewicht, da zum einen die Datenbankrecher-
128
6.2 Das InfVis-Programm
che auf maximal einhundert Verbindungen limitiert ist und zum anderen der Benutzer nach
spezifischen Struktur- und Krebszellen-Kombinationen sucht, die in der Regel zu kleineren
Datensätzen führen.
Der generelle Einsatz von VRML zur Realisierung Web-fähiger Applikationen des visuel-
len Data Minings ist nach unserer Auffassung nur bei Vorlage relativ kleiner Datensätze und
innerhalb spezifischer, auf bestimmte Problemstellungen ausgerichteter Applikationen zu
empfehlen. Mit zunehmender Datensatzgröße und vor allem steigendem Unbekanntheitsgrad
der zugrundeliegenden Daten wird der Einsatz von VRML in der explorativen Visualisierung
zunehmend ungünstig und letztendlich sinnlos. Schlussfolgernd eignet sich VRML daher vor
allem zur Datenpräsentation und zur konfirmativen Datenanalyse aber nur im begrenzten
Umfang und unter Berücksichtigung spezieller Rahmenbedingungen für explorative Analyse-
ansätze.
Im Gegensatz zu den in Kapitel 4 beschriebenen Applikationen wurde das NCI Daten-
bank-Interface nicht als offizieller Online-Dienst betrieben. Vielmehr diente der Service zum
internen Gebrauch am Computer-Chemie-Centrum sowie am Laboratory of Medicinal Che-
mistry des NCI. Das VRML-Interface soll in die nächste Version des Enhanced CACTVS NCI
Database Browser integriert werden. Darüber hinaus wurde im Rahmen dieser Arbeit ein
weiterentwickeltes, auf der Programmiersprache Java basierendes Interface entwickelt, das
als Online-Dienst zur Verfügung steht (vgl. Abschnitt 6.3).
Neben VRML-Ansätzen wurden in den letzten Jahren auch Java-Applikationen sowie spe-
zielle auf Microsoft-Technologien aufbauende Applikationen zur explorativen Informations-
visualisierung entwickelt. Diese Ansätze werden in den Abschnitten 6.2 und 6.3 vorgestellt.
6.2 Das InfVis-Programm
6.2.1 Zielsetzung
Da die für visuelle Data Mining-Ansätze essentiellen, interaktiven Werkzeuge mit Hilfe
von VRML-Applikationen nur sehr begrenzt oder garnicht zu realisieren sind, war ein primä-
res Ziel des InfVis-Programms die Entwicklung und Einbettung interaktiver und dynamischer
Funktionen, die dem Benutzer unter anderem die Identifikation und Extraktion von Mustern
ermöglichen. Die Benutzung dieser Funktionen sollte darüber hinaus zu einer unmittelbaren
Aktualisierung der Datendarstellung führen, da nur so eine effektive, visuelle Exploration
sichergestellt werden kann. Eine Aufteilung der Data Mining-Mechanismen auf Client und
Server wie im Fall des NCI Datenbank-Interfaces kam aus diesem Grund nicht in Frage. Viel-
mehr musste die Client-seitige Applikation in der Lage sein, Rohdaten direkt zu importieren
129
6 Visuelle Data Mining-Applikationen
und zu speichern sowie die entsprechende graphische Darstellung zu generieren und zu mani-
pulieren. Das Programm sollte darüber hinaus nicht nur auf einen Datensatz wie beispiels-
weise die NCI Antitumor-Datenbank festgelegt sein, sondern die Darstellung und
Visualisierung beliebiger, chemischer Datensätze ermöglichen.
Zu Beginn der zugrundeliegenden Entwicklungsarbeiten hatte sich bereits eine visuelle
Data Mining-Applikation besonders in der LifeScience-Forschung etabliert – Spotfire [214,
215]. Obwohl das auf dem Microsoft-Betriebssystem basierende Programm in großen Stück-
zahlen in vielen großen Pharmaunternehmen wie Pfizer oder Bayer speziell für den Gebrauch
durch Laborchemiker angeschafft wurde, blieb der erhoffte Erfolg, nämlich die Integration
der Synthesechemiker sowie ihres Fachwissens in den Data Mining-Prozess, zunächst aus
[216]. Die Ursache hierfür lag vor allem in der großen und auf den ersten Blick unüberschau-
baren Anzahl an Funktionen der Applikation sowie dem für die Industrie typischen, enormen
Zeitdruck der Mitarbeiter begründet, der eine langwierige Einarbeitung in das Programm nur
bedingt oder garnicht zulässt. Viele vor allem mit Computern weniger vertraute Chemiker
lehnten aus diesen Gründen die Arbeit mit Spotfire ab [216].
Darüber hinaus ergaben interne Umfragen innerhalb der Bayer AG, dass sich die betroffe-
nen Chemiker eine simple Visualisierungsapplikation mit ein bis zwei interaktiven Funktio-
nen wie beispielsweise Zoom wünschten [217]. Diese Erfahrungswerte sollten bei der
Implementierung des InfVis-Programms berücksichtigt werden. Die Applikation sollte daher
neben den bereits erwähnten Zielen einfach und intuitiv und vor allem ohne die Notwendig-
keit einer langwierigen Einarbeitungszeit zu bedienen sein. Außerdem sollte die Interpreta-
tion bzw. die visuelle Mustererkennung ebenfalls möglichst intuitiv erfolgen.
Schließlich sollte das Programm wie alle anderen in dieser Arbeit vorgestellten Entwick-
lungen unabhängig von spezifischen Plattformen und Betriebssystemen sein und auch den
Einsatz im Internet bzw. Intranet ermöglichen.
6.2.2 Übersicht
Um alle im vorhergehenden Abschnitt aufgelisteten Zielsetzungen zu erfüllen, wurde zur
Implementierung der InfVis-Applikation die plattformunabhängige Programmiersprache Java
(vgl. Abschnitt 2.2.4) eingesetzt. Darüber hinaus wurde zur Realisierung einer möglichst ein-
fachen visuellen Datenexploration wie auch bereits im NCI Datenbank-Interface (vgl.
Abschnitt 6.1) eine dreidimensionale Datenrepräsentationstechnik verwendet. Nach unserer
Meinung erlauben insbesondere dreidimensionale Visualisierungsansätze wie Balkendia-
gramme oder Scatterplots eine einfache Interpretation der dargestellten Datensätze, während
komplexere Verfahren wie die Parallel Coordinates-Technik eine ablehnende Haltung bei
130
6.2 Das InfVis-Programm
ungeübten bzw. im Umgang mit Computern weniger erfahrenen Benutzer hervorrufen kön-
nen. Um insbesondere die Darstellung multidimensionaler Datensätze zu ermöglichen, basiert
das InfVis-Programm auf der 3D-Glyph-Technik, welche bereits in Abschnitt 5-10 vorgestellt
wurde. Dieser Ansatz nutzt zum einen die weite Verbreitung und hohe Akzeptanz der Scatter-
plot-Technik und erlaubt zum anderen das Abbilden einer Vielzahl von Datendimensionen
durch retinale Eigenschaften.
Zur Darstellung der dreidimensionalen Szenen wurde die verhältnismäßig junge Java-
Erweiterung Java3D (vgl. Abschnitt 2.2.6) eingesetzt, die zum einen Client-seitig vorhandene
3D-Kapazitäten nutzt und zum anderen im Gegensatz zu VRML frei programmierbar ist, so
dass ein Maximum an Interaktion innerhalb der Szene realisiert werden kann. Darüber hinaus
kann die Erweiterung problemlos mit vorhandenen Java Virtual Machines und Java-Plugins
eingesetzt werden.
Abb. 6-6: Das InfVis-Programm (Farbabbildung: Anhang A, Abbildung A-12).
131
6 Visuelle Data Mining-Applikationen
Abbildung 6-6 zeigt einen Screenshot des InfVis-Programms. Das graphische User-Inter-
face des Programms besteht aus vier Bereichen – dem Menü (Abbildung 6-6, oben), dem
Visualisierungsfenster (Abbildung 6-6, oben rechts), dem Werkzeugfenster (Abbildung 6-6,
oben links) und dem ’Mapping’-Fenster (Abbildung 6-6, unten). Die einzelnen Fenster sind
dabei durch sogenannte SplitPanes miteinander verbunden, die sowohl eine Größenverände-
rung als auch das Ein- und Ausblenden der einzelnen Fenster erlauben. Auf die verschiedenen
Funktionen der einzelnen graphischen Elemente soll im Folgenden nicht näher eingegangen
werden. Vielmehr werden die grundsätzlichen Konzepte und Eigenschaften des Programms
erläutert. Eine detaillierte Funktionsbeschreibung der Applikation kann über das Internet her-
untergeladen werden (URL in Anhang B).
6.2.3 Daten-Integration und -Management
Eine der wichtigsten Aufgaben bei der Planung und Entwicklung einer visuellen Data
Mining-Applikation besteht in der Implementierung von Schnittstellen, die eine einfache
Integration von Daten aus verschiedenen Datenquellen ermöglichen. Die umständliche und
vor allem zeitaufwendige Konvertierung von Daten führt ansonsten beim Benutzer zu einer
deutlichen Abnahme der Akzeptanz. Die InfVis-Applikation ist deshalb mit zwei verschiede-
nen Datenschnittstellen ausgestattet. Zum einen kann das Programm mit Hilfe der Java Data-
base Connectivity-Erweiterung (JDBC) [218] auf diverse frei verfügbare und kommerzielle
Datenbanken zugreifen. In der derzeitigen Version unterstützt die Anwendung dabei lediglich
den JDBC-vermittelten Zugriff auf MySQL-Datenbanken [219]. Jedoch kann diese Funktio-
nalität zu jeder Zeit ohne großen Aufwand auf andere Datenbanksysteme erweitert werden.
Die zweite Schnittstelle erlaubt die Dateneingabe durch Dateien, in denen die diversen Daten-
werte durch Kommas getrennt sind (CSV-Dateien, Comma Separated Value Format). Dieses
Datenformat wird vor allem von Tabellenkalkulationsprogrammen wie beispielsweise Excel
aber auch von anderen Softwareanwendungen als Standardausgabeformat unterstützt. In bei-
den Fällen analysiert das InfVis-Programm die eingelesenen Daten und extrahiert neben den
eigentlichen Rohdaten auch zusätzliche Information wie beispielsweise Spaltenüberschriften.
Darüber hinaus wird während des Lesevorgangs der Datentyp der einzelnen Dimensionen
ermittelt. Dabei unterscheidet die Anwendung zwischen kontinuierlichen und diskreten
Datentypen sowie Metadaten wie beispielsweise Hyperlinks oder Base64-kodierten Bildda-
teien.
Neben der Datenintegration ist im visuellen Data Mining auch das Datenmanagement von
großer Bedeutung. Unter Datenmanagement ist dabei in erster Linie die parallele Verwaltung
verschiedener Datensätze zu verstehen. Erst durch die Verfügbarkeit diverser Datensätze wie
beispielsweise unter bestimmten Bedingungen selektierten oder in verschiedenen Darstellun-
132
6.2 Das InfVis-Programm
gen vorliegenden Teildatensätzen ist ein Vergleich zwischen den einzelnen Daten möglich
und der Benutzter letztendlich in der Lage, relevante Informationen oder Beziehungen zu
erkennen. Im InfVis-Programm kann der Benutzer selektierte oder gefilterte Teildatensätze in
separaten Datenspeichern ablegen. Dabei werden nicht nur die entsprechenden Rohdaten son-
dern auch alle für die Darstellung relevanten und vom Benutzer definierten graphischen Ein-
stellungen gespeichert. Der Benutzer kann zwischen den verschiedenen Datenslots hin- und
herschalten, was zu einer unmittelbaren Aktualisierung der graphischen Szene führt. Darüber
hinaus besitzt das Programm ein Datenmanagementfenster, in dem zum einen die wichtigsten
Informationen zu dem entsprechenden Datensatz dargestellt werden. Zum anderen enthält das
Fenster auch Funktionen, die dem Benutzer die Umbenennung und das Löschen von Daten-
sätzen ermöglichen.
6.2.4 Datenvisualisierung
Wie bereits erwähnt, erlaubt die Verwendung dreidimensionaler Visualisierungstechniken
wie 3D-Balkendiagrammen, Scatterplots und 3D-Glyphen eine einfache visuelle Exploration
von multidimensionalen Datensätzen. Da auch im Umgang mit Visualisierungstechniken
weniger erfahrene Chemiker im Allgemeinen bereits mit diesen Darstellungsformen gearbei-
tet haben, ist die Akzeptanz bei der Verwendung dieser Techniken entsprechend hoch. In der
InfVis-Applikation wurde zur Realisierung der dreidimensionalen Szenen die Java3D API
verwendet. Im Gegensatz zu alternativen Ansätzen wie der Pseudo-3D-Visualisierung (vgl.
Abschnitt 2.1.3.1) erlaubt Java3D die Nutzung aktueller, fortgeschrittener 3D-Hardwarefä-
higkeiten. Darüber hinaus wird in der Regel eine bessere Darstellungsqualität erzielt und der
Einsatz von Virtual Reality-Peripherie (vgl. Abschnitt 2.1.3.3) wie beispielsweise Stereobril-
len ermöglicht.
Abb. 6-7: InfVis: a) Balkendiagramm, b) Scatterplotdiagramm, c) 3D-Glyph-Technik (Farbabbildung: Anhang A, Abbildung A-13).
133
6 Visuelle Data Mining-Applikationen
Die Applikation nutzt in erster Linie die 3D-Glyph-Technik (Abbildung 6-7c), um multidi-
mensionale Datensätze darzustellen. Darüber hinaus werden aber auch andere, weitverbrei-
tete Darstellungsformen wie die Balkendiagramm- (Abbildung 6-7a) oder die Scatterplot-
Technik unterstützt (Abbildung 6-7b).
6.2.5 Visuelles Mapping
Beim visuellen Mapping werden die einzelnen Datendimensionen bzw. Tabellenspalten
auf diverse visuelle Attribute graphischer Objekte sowie auf die drei orthogonalen Koordina-
tenachsen abgebildet. Die visuellen Eigenschaften der InfVis-Applikation basieren dabei vor
allem auf den von Bertin definierten retinalen Eigenschaften Form, Farbe und Größe [180].
Das Abbilden der Datendimensionen auf visuelle Dimensionen ermöglicht dabei die Generie-
rung einer Vielzahl verschiedener Datenrepräsentationen, was letztendlich höhere Interpreta-
tions- und Analysemöglichkeiten zulässt.
Beim Einlesen der Datensätze generiert InfVis automatisch eine vordefinierte Darstel-
lungsform, wobei der Abbildungsvorgang der Reihenfolge der Datendimensionen im Daten-
satz sowie der InfVis-internen Reihenfolge der graphischen Attribute (X > Y > Z > Größe >
Farbe > Form) folgt. Diese Darstellung kann zu jedem Zeitpunkt vom Benutzer interaktiv
verändert werden, wodurch eine wichtige Anforderung an visuelle Data Mining-Applikatio-
nen erfüllt wird. Die Wahl der besten Datenpräsentation bzw. Abbildungsreihenfolge hängt
dabei stark von den Daten selbst, von der Fragestellung des Analysten aber auch von den Vor-
lieben und den Wahrnehmungsfähigkeiten des Benutzers ab.
Neben den Datendimensionen müssen auch die entsprechenden Datenwerte bzw. der
Datentyp der einzelnen Dimensionen während des Abbildungs-Prozesses (Mapping) berück-
sichtigt werden. Ob und wie eine Datenvariable repräsentiert wird, hängt dabei von der Cha-
rakteristik der Daten ab. Grundsätzlich kann hierbei zwischen diskreten und kontinuierlichen
Datenwerten unterschieden werden. Ein diskreter Datentyp, auch kategorische Variable
genannt, liegt dann vor, wenn alle in einer Datenspalte enthaltenen Werte durch eine limitierte
Anzahl einzigartiger Werte beschrieben werden können. Zu diesem Datentyp zählen unter
anderen textuelle Enumerationen aber unter Umständen auch eine begrenzte Abfolge von
Integerwerten. In der Regel bewegt sich der Datenwertbereich diskreter Datenvariablen zwi-
schen einem bis wenigen Hundert Einzelwerten. Im Gegensatz zu den diskreten Datentypen
basieren kontinuierliche bzw. numerische Datentypen auf Datendimensionen deren Variablen
in einem weitgesteckten numerischen Wertebereich liegen. Typische Vertreter dieses Daten-
typs sind daher vor allem Dezimalwerte oder auch Datumsangaben, deren Wertebereich dabei
zwischen einigen zehn bis theoretisch unendlich vielen Dateneinheiten variieren kann. Bevor
im Folgenden der Mappingprozess der kontinuierlichen und diskreten Datentypen auf die gra-
134
6.2 Das InfVis-Programm
phischen Dimensionen näher beschrieben wird, soll noch eine dritte Klasse von Datentypen
erwähnt werden – die Metadaten. Metadaten werden im Gegensatz zu den zuvor genannten
Datentypen nicht auf visuelle Attribute abgebildet, da die darin enthaltene Information nur
beschreibenden Charakter hat. Dabei kann es sich beispielsweise um Hyperlinks oder
Base64-kodierte Bilder handeln. Datendimensionen mit Metainformation werden daher von
InfVis gesondert behandelt und interpretiert und in der Detailansicht dargestellt (vgl.
Abschnitt 6.2.6.4).
6.2.5.1 Orthogonale Raumachsen
Stellvertretend für die drei Raumachsen wird an dieser Stelle das Einstellungsfenster für
die x-Achse beschrieben. Wie alle Mapping-Fenster enthält auch das x-Optionsfenster einen
Bereich (Abbildung 6-8, oben rechts), welcher Informationen über den Datentyp (kontinuier-
lich, numerisch), die Anzahl der einzelnen Datenwerte und den Namen der entsprechenden,
abgebildeten Datendimension enthält. Dieser Bereich dient darüber hinaus auch zur Ände-
rung der abgebildeten Datendimension. Auf die drei Raumachsen können sowohl kontinuier-
liche als auch kategorische Datenvariablen abgebildet werden. Während bei Vorlage
kategorischer Variablen die diskreten Datenwerte in einem standardisierten Abstand auf den
Achsen abgebildet werden, können numerische Daten direkt und entsprechend ihres Wertes
aufgetragen werden. Darüber hinaus kann bei Vorlage numerischer Werte zwischen einer
sogenannten ’nice numbers’ und einer Grenzwert-Skalierung gewählt werden. Bei Bedarf
können numerische Werte auch in kategorischer Form aufgetragen werden, während der
umgekehrte Fall natürlich ausgeschlossen ist. Das Optionsfenster enthält weitere Funktionen,
mit denen die graphische Eigenschaften beeinflusst werden können. Nähere Informationen
hierzu können dem InfVis-Handbuch entnommen werden.
Abb. 6-8: InfVis: Einstellungsfenster für die x-Achse.
135
6 Visuelle Data Mining-Applikationen
6.2.5.2 Größe
Die Größe der graphischen Objekte kann ebenfalls verwendet werden, um sowohl kontinu-
ierliche als auch diskrete Datentypen darzustellen (Abbildung 6-9). Dabei gelten die gleichen
Voraussetzungen wie beim Mapping der Datendimensionen auf die Raumachsen. Der Benut-
zer kann zudem die absolute Größendarstellung (maximale und minimale Ausdehnung der
Szenenobjekte) mit Hilfe von Schiebereglern beeinflussen. Die Größe der graphischen
Objekte sollte vor allem zur Repräsentation numerischer Daten verwendet werden, die der
Wissenschaftler ohnehin als Größenangaben versteht. Eine entsprechende Datendimension
wäre beispielweise die Reaktionsausbeute. Datendimensionen mit kategorischen Variablen
sollten nur dann zum Einsatz kommen, wenn die Anzahl der diskreten Datenwerte klein ist
und somit eine Unterscheidung der einzelnen Datenwerte durch den Benutzer noch gewähr-
leistet ist.
Abb. 6-9: InfVis: Einstellungsfenster für die Objektgröße.
6.2.5.3 Farbe
Die Farbgebung der Datenobjekte spielt eine wichtige Rolle bei der Analyse und Identifi-
kation von Mustern und Relationen, da sie die retinale Eigenschaft darstellt, die am leichte-
sten und besten zur Darstellung von Information genutzt werden kann. Dennoch müssen
diverse physiologische und psychologische Aspekte beim Einsatz von Farben berücksichtigt
werden. So existieren bei einigen Menschen physiologische Einschränkungen wie die Rot-
Grün-Sehschwäche, was beim Einsatz bestimmter Farbkombinationen zu einer Fehlinterpre-
tation der Datensätze führen kann. Darüber hinaus ist auch die visuelle Wahrnehmungsfähig-
keit der Menschen sehr unterschiedlich ausgeprägt. So können Männer im Allgemeinen
zwischen einer wesentlich geringeren Zahl von Farbwerten als Frauen unterscheiden, was
insbesondere beim Abbilden kategorischer bzw. diskreter Datendimensionen berücksichtigt
werden muss. Für eine detaillierte Betrachtung dieser Thematik sei an dieser Stelle das Buch
von Colin Ware empfohlen [153].
136
6.2 Das InfVis-Programm
Abb. 6-10: InfVis: Einstellungsfenster für die Objektfarbe: a) Mapping kategorischer Daten, b) Mapping numerischer bzw. kontinuierlicher Datentypen.
Farben können sowohl zum Abbilden diskreter als auch numerischer Daten verwendet
werden. Um eine gute Unterscheidung diskreter bzw. kategorischer Variablen zu ermögli-
chen, sollten die eingesetzten Farben
− sich stark voneinander unterscheiden
− nur bei Vorhandensein weniger Datenwerten zum Einsatz kommen
− einen genügend großen Kontrast zum Hintergrund bieten
− Sehschwächen berücksichtigen
− nur in Verbindung mit ausreichende großen graphischen Objekten eingesetzt werden
− allgemein gebräuchliche Assoziationen berücksichtigen(z. B. rot = heiß, negativ, blau = kalt, positiv)
In der InfVis-Applikation kommen daher beim kategorischen Mapping (Abbildung 6-10a)
Farben zum Einsatz, die sich aufgrund langjähriger Untersuchungen als Standardfarben für
kategorischen Daten etabliert haben: rot, grün, gelb, blau, schwarz, weiß, pink, cyan, grau,
orange, braun und lila. Die ersten vier Farben sowie schwarz und weiß stellen dabei soge-
137
6 Visuelle Data Mining-Applikationen
nannte Grundfarben dar und erlauben die beste Unterscheidung von Variablen. Sie sollten
daher auch vor den nachfolgenden sechs Farben zum Einsatz kommen. Obwohl das InfVis-
Programm dieser Farbsequenz folgt, ist diese nur als Vorschlag zu verstehen. Der Benutzer
hat zu jedem Zeitpunkt die Möglichkeit, die Farben für die einzelnen Variablen nach seinem
eigenen Ermessen anzupassen.
Im Fall kontinuierlicher Datenwerte sollte auch der Farbverlauf möglichst kontinuierlich
erfolgen. InfVis unterstützt daher sowohl weitverbreitete Farbpaletten wie das HUE-Modell,
das kontinuierliche Spektrum-Modell und das Primary Color-Modell, als auch Farbesequen-
zen mit zwei oder drei Grenzwertfarben, die durch den Benutzer frei definiert werden können
(Abbildung 6-10b) [220]. Darüber hinaus kann der Benutzer bei Vorlage numerischer Daten-
werte auch Grenzwerte definieren, um die Farbskala zu beeinflussen.
6.2.5.4 Form
In der derzeitigen Version kann der Benutzer keine Einstellungen zur Beeinflussung der
Objektform vornehmen. Das Programm unterstützt darüber hinaus auch nur das Abbilden dis-
kreter Datendimensionen, wobei maximal vier einzelne Datenwerte innerhalb der Dimension
vorliegen dürfen. Diese werden entsprechend ihrer Reihenfolge im Datensatz auf die graphi-
schen Objekte Kugel, Würfel, Kegel und Zylinder abgebildet. Der Einsatz der Objektform zur
Darstellung kontinuierlicher Daten ist nach unserer Ansicht nicht sinnvoll, da dies vor allem
den ungeübten Benutzer überfordert und den Mustererkennungsprozess deutlich erschwert.
6.2.6 Interaktive und dynamische Techniken
Im Gegensatz zu klassischen Data Mining-Ansätzen kann visuelles Data Mining das Ver-
trauen und Verständnis des Benutzers in identifizierte Muster und Modelle maßgeblich erhö-
hen. Zur Realisierung dieses Vorteils müssen visuelle Data Mining-Applikationen jedoch
über geeignete, intuitive Interaktionswerkzeuge verfügen. Im Gegensatz zu dem zuvor
beschriebenen, VRML-basierten Datenbank-Interface (vgl. Abschnitt 6.1) konnte durch die
Verwendung von Java und Java3D eine Vielzahl interaktiver und dynamischer Techniken in
das InfVis-Programm integriert werden. Bei der Entwicklung dieser Werkzeuge wurden dabei
folgende Richtlinien berücksichtigt [27]:
− Realisierung einfacher und logischer Interaktionssequenzen
− Vermeidung von unübersichtlichen und zu vieler verschiedener Funktionen
− Permanenter Zugriff auf alle wichtigen Funktionen zu jedem Zeitpunkt der Interaktion
− Verfügbarkeit geeigneter Feedback-Mechanismen
− Undo-Funktionalität bei irrtümlichen Benutzereingaben
138
6.2 Das InfVis-Programm
Das InfVis-Programm verfügt sowohl über interaktive Funktionen, die direkt innerhalb der
dreidimensionalen Szene ausgeführt werden können, als auch über Interaktionswerkzeuge,
die in einem separaten Werkzeugfenster zur Verfügung stehen. Dabei kann grundsätzlich zwi-
schen interaktiven und dynamischen Funktionen unterschieden werden. Unter interaktiven
Techniken versteht man dabei Benutzereingaben, die direkt und unmittelbar zu einer Verän-
derung beispielsweise einer Aktualisierung der graphischen Datendarstellung führen. Dyna-
mische Techniken erlauben im Gegensatz dazu die Änderung diverser Parameter ohne einen
unmittelbaren Effekt. Die neudefinierten Einstellungen werden erst dann wirksam, wenn der
Benutzer dies durch eine bestimmte Funktion, zum Beispiel in Form eines Aktualisierungs-
knopfes veranlasst. Die verschiedenen in der InfVis-Applikation zum Einsatz kommenden
Interaktionswerkzeuge werden im Folgenden näher beschrieben.
6.2.6.1 Navigationswerkzeuge
Neben den Java3D-basierten und durch Zeigergeräte (z.B. Maus) vermittelten Navigati-
onsmöglichkeiten wie Zoom, Rotation und Translation wurde das InfVis-Programm mit
zusätzlichen Navigationshilfen ausgestattet. Diese ermöglichen dem Benutzer die Ausrich-
tung der Szene auf definierte Standardaufsichten und erweisen sich vor allem dann als nütz-
lich, wenn der Benutzer die Orientierung innerhalb der dreidimensionalen Szenenlandschaft
verloren hat. Darüber hinaus erlauben diese Funktionen ein schnelles und unkompliziertes
Umschalten zwischen den verschiedenen Ansichten.
6.2.6.2 Filterwerkzeuge (Dynamic Queries)
Die wichtigste Interaktionstechnik des InfVis-Programms stellen die sogenannten Dynamic
Queries (DQ) dar [196 - 198, 221, 222]. Die Dynamische Query-Technik kann dabei als eine
visuelle Alternative zur SQL-vermittelten Datenbankabfrage verstanden werden. Im Gegen-
satz zu SQL-basierten Datenbanksuchen erfordern dynamische Queries allerdings kein Spezi-
alwissen. Darüber hinaus erlaubt diese Technik eine schnellere und unkompliziertere Abfrage
und ist das Mittel der Wahl, wenn die resultierenden Daten in graphischer Form dargestellt
werden sollen. Dynamic Queries führen zu einer unmittelbaren Aktualisierung der dargestell-
ten Datenlandschaft und stellen daher eine der wichtigsten Techniken des visuellen Data
Mining dar. Im Prinzip können alle graphischen Standardeingabeelemente wie Slider (Schie-
beregler), Checkboxes und Radiobuttons als graphische Benutzerschnittstellen für
Dynamic Query-Werkzeuge verwendet werden. Diese Frontends werden im Anschluss vom
Benutzer mit Datendimensionen verknüpft und die einzelnen Variablenwerte auf den Aus-
wahlelementen beispielsweise in Form von Einheiten auf dem Schieberegler oder einer Liste
von Checkboxes abgebildet. Diese Form der Selektion von Werten durch die DQ-Werkzeuge
führt schließlich zur Aktualisierung der graphischen Darstellung. Dem Anfänger ermöglichen
139
6 Visuelle Data Mining-Applikationen
sich somit Wege, um auch komplexe Datenbankrecherchen auf Basis visueller Suchstrategien
durchzuführen. Der Anwender kann schnell Informationsmuster in Daten erkennen und
erlernt in kürzester Zeit fast spielerisch die Definition effektiver Dynamic Queries. Darüber
hinaus können Benutzer, die bereits über SQL- bzw. Datenbankerfahrung verfügen, mit Hilfe
von diversen Kombinationen der dynamischen Filter schnell und einfach komplizierte
Suchenanfragen realisieren und die resultierenden Datenpunkte betrachten.
Abb. 6-11: Diverse Dynamic Query-Filterfunktionen des InfVis-Programms.
Die Dynamic Query-Technik erfüllt somit eine Reihe der oben geforderten Vorgaben für
die Realisierung von Interaktionswerkzeugen, wie beispielsweise die schnelle und reversible
Kontrolle oder das unmittelbare Benutzer-Feedback.
Das InfVis-Programm unterstützt Dynamic Query-Techniken in Form von Checkboxes,
Radiobuttons, Slidern und Range Slidern, wobei die beiden letzten Werkzeuge zu den effek-
tivsten Varianten zählen (Abbildung 6-11). So kann beispielsweise mit Hilfe von Range
Slidern und bei Vorlage entsprechender Daten die Lipinsky’s Rule of 5 [223] einfach auf einen
Datensatz angewendet werden. Der Benutzer kann für jede beliebige Dimension des Daten-
satzes (außer Metainformation) einen DQ-Filter definieren und auch zu jedem Zeitpunkt der
Analyse wieder entfernen.
6.2.6.3 Selektionswerkzeuge
Neben der Filterung von Datensätzen durch Dynamic Querys verfügt das InfVis-Programm
auch über Werkzeuge, die eine direkte Selektion von Datenpunkten durch den Benutzer erlau-
140
6.2 Das InfVis-Programm
ben (Abbildung 6-12). Diese Funktionalität ist insbesondere zur Extraktion identifizierter
Muster bzw. Informationen hilfreich. Die Selektion kann dabei auf zwei verschiedenen
Wegen erfolgen. Zum einen kann der Benutzer sogenannte Selektionsboxen in die Szene inte-
grieren. Diese dreidimensionalen Auswahlrahmen können mit Hilfe achsenabhängiger
Range Slider zum einen in x-, y- und z-Richtung vergrößert oder verkleinert und zum anderen
innerhalb des Datensatzes verschoben werden (Abbildung 6-12a).
Abb. 6-12: Selektionswerkzeuge der InfVis-Applikation: a) Selektion mittels Selektionsboxen, b) Maus-vermittelte Selektion einzelner Datenpunkte (Farbabbildung: Anhang A, Abb. A-14 a, b).
Nachdem der Benutzer mit Hilfe eines oder mehrerer Auswahlrahmen die gewünschten
Datenpunkte erfasst hat, kann er die selektierten Werte in einen neuen Datensatz überführen.
Alternativ dazu kann der Benutzer mit dem Mauszeiger direkt einzelne Datenpunkte selektie-
141
6 Visuelle Data Mining-Applikationen
ren (Abbildung 6-12b). Da in der Glyph-Repräsentation diverse Datenpunkte überlagert oder
zum Teil verdeckt sind, wurde das Selektionstool mit einer Auswahlliste erweitert, welche
alle unter dem Mauszeiger befindlichen Datenpunkte enthält und die Selektion der gewünsch-
ten Datenpunkte ermöglicht. Alle selektierten Datenpunkte werden in einer Selektionsliste
verwaltet (Abbildung 6-12b, rechts) und können bei Bedarf beispielsweise bei einer irrtümli-
chen Selektion wieder von der Selektion ausgeschlossen werden. Darüber hinaus ist eine
Kombination der beiden Selektionswerkzeuge möglich.
6.2.6.4 Detailwerkzeuge
Im Gegensatz zum NCI Datenbank-Interface (vgl. Abschnitt 6.1) kann die InfVis-Applika-
tion Detailinformationen zu den einzelnen Datenwerten direkt darstellen. Der Benutzer kann
dazu mit Hilfe des Mauszeigers einen Datenpunkt innerhalb der 3D-Szene selektieren. Das
entsprechende Datenobjekt wird daraufhin in der Szene graphisch hervorgehoben und die
korrespondierende Detailinformation im Detailfenster angezeigt (Abbildung 6-13). Wie auch
bei den Selektionswerkzeugen kann beim Vorliegen überlagerter oder verdeckter Daten-
punkte eine Auswahlliste aufgerufen werden.
Abb. 6-13: Detailwerkzeug des InfVis-Programms (Farbabbildung: Anhang A, Abbildung A-14 c).
142
6.2 Das InfVis-Programm
Das Detailfenster enthält alle Variablenwerte des entsprechenden Datenpunktes, wobei die
Reihenfolge der Dimensionsabfolge im Datensatz entspricht. Darüber hinaus können auch
Metainformationen wie Hyperlinks oder Bilder dargestellt werden. So werden im Stringfor-
mat kodierte Bilder automatisch erkannt, dekodiert und im Detailfenster eingebettet. Hyper-
links werden in Form von Knöpfen zur Verfügung gestellt, die beim Anklicken einen
Webbrowser mit der entsprechenden URL starten.
6.2.7 Implementierung
Wie bereits erwähnt, wurde das InfVis-Programm mit der Programmiersprache Java ent-
wickelt. Um eine möglichst komfortable und ansprechende Bedienungsoberfläche zu gewähr-
leisten kam dabei die in Java2 (Version 1.2 oder höher) enthaltene SWING-Bibliothek zum
Einsatz. Die dreidimensionale Darstellung der Datenpunkte wurde mit der Java3D-Erweite-
rung realisiert, wodurch auch die potentiellen 3D-Graphikfähigkeiten moderner Personal-
computer genutzt werden können. Da die Programmiersprache Java vom Betriebssystem und
den zahlreichen Computerplattformen unabhängig ist, kann die Applikation auf nahezu allen
Computern eingesetzt werden.
Während der Entwicklung von InfVis wurde darauf geachtet, dass das Programm nicht nur
als Standalone-Variante sondern auch als Applet in Web-Anwendungen zum Einsatz kommen
kann. Die Applet- und Standalone-Version unterscheiden sich daher auch nur minimal durch
ihre Frontends und hinsichtlich der Unterstützung des lokalen Dateizugriffs (Standalone-Ver-
sion) bzw. von Applet-Parametern (Applet-Version). Obwohl die Applikation 106 Klassen
und über 39.000 Zeilen Quellcode umfasst, ist das Programm in komprimierter Form nur ca.
160 KB groß und ein Softwaretransfer über das Internet somit problemlos möglich.
Zur Ausführung der Standalone-Applikation muss eine Java2-unterstützende Java Virtual
Machine sowie die Java3D-Erweiterung auf dem Client installiert sein. Analog dazu benötigt
die Applet-Version das Java-Plugin, welches von aktuellen Browserversionen standardmässig
unterstützt wird und in einigen Versionen wie Netscape 6 oder Mozilla bereits integriert ist,
sowie die Java3D-Bibliothek.
6.2.8 Diskussion
Visuelles Data Mining ist in den letzten zwei bis drei Jahren zu einer bedeutenden Technik
im Bereich der LifeScience- und Wirkstoffforschung geworden. Dies ist vor allem auf die ste-
tig wachsende Zahl an generierten Daten und der daraus resultierenden Problematik der
Datenanalyse zurückzuführen. Während in der chemischen und pharmazeutischen Chemie
anfänglich nur das Programm Spotfire [214, 215] zum Einsatz kam, haben in jüngster Zeit
143
6 Visuelle Data Mining-Applikationen
auch andere Firmen das enorme Marktpotential des LifeScience-Sektors erkannt und zahlrei-
che, alternative Applikationen zum visuellen Data Mining entwickelt. Im Folgenden sollen
die wichtigsten, für die chemische Forschung relevanten Programme vorgestellt und im Ver-
gleich zur InfVis-Applikation diskutiert werden.
Das bereits erwähnte Programm Spotfire zählt nicht nur zu den ersten kommerziellen,
visuellen Data Mining-Applikationen, sondern wurde auch zum erfolgreichsten und weitver-
breitesten Vertreter innerhalb der Wirkstoffforschung und im HTS-Bereich. Obwohl Spotfire
generell zur Analyse großer Datensätze und nicht speziell zur Verwendung in der Chemie ent-
wickelt wurde, führte der enorme Zuspruch von Seiten der chemischen Industrie in den nach-
folgenden Jahren zur Einbettung zusätzlicher chemischer Module wie beispielsweise
Strukturbetrachtern. Aktuelle Produkte der gleichnamigen Firma sind heute speziell auf die
Bedürfnisse des High Throughput Screening und der Wirkstoffforschung ausgerichtet. Ein
Grund für den unerwarteten Erfolg der Anwendung war und ist die intuitive Dynamic Query-
Technik, die durch Spotfire erstmals in kommerzieller Form zum Einsatz kam.
Trotz der starken Verbreitung der Anwendung in der chemischen Industrie war die Akzep-
tanz insbesondere der Laborchemiker zum Teil sehr verhalten. Viele Chemiker fühlten sich
durch die vielfältigen Funktionen des Programms überfordert und lehnten eine langwierige
Einarbeitungszeit aufgrund des in der chemischen Forschung vorherrschenden Zeitdrucks ab
[216]. In anderen vergleichenden Studien zeigten sich darüber hinaus weitere Schwächen
[224]. Die in Spotfire übliche Verfügbarkeit und parallele Darstellung verschiedener Visuali-
sierungstechniken erwies sich in zahlreichen Fällen nicht wie geplant als Stärke des Pro-
gramms, sondern stellte insbesondere für unerfahrene Benutzer ein ernstes
Orientierungsproblem dar. Um eine gegebene Problemstellung zu lösen, war in der Regel nur
eine der zur Verfügung stehenden Darstellungsformen sinnvoll. Die Benutzer benötigten
daher sehr viel Zeit, um diese optimale Darstellung zu finden und eine vernünftige Zuord-
nung der Datendimensionen für die entsprechende Darstellungsform zu gewährleisten. Des
Weiteren wurde beobachtet, dass Benutzer, die sich anfänglich für eine weniger geeignete
Visualisierungstechnik entschieden, diese trotz enormer Schwierigkeiten nur widerwillig oder
auch garnicht verwarfen, um sie gegen eine geeignetere Technik zu ersetzen. Diese Verhal-
tensweise verstärkte sich insbesondere bei Problemstellungen, deren Lösungsweg mehrere
Einzelschritte umfasste [224]. Weitere Probleme ergaben sich durch die unzureichende
Datenintegration sowie die Limitation auf zweidimensionale Scatterplots, was insbesondere
bei hochdimensionalen Datensätzen eine schnelle und unkomplizierte Datenanalyse aus-
schloss. Diese letztgenannten Einschränkungen wurden jedoch in aktuellen Spotfire-Versio-
nen durch Implementierung geeigneter Datenschnittstellen und Verwendung der 3D-Glyph-
Technik weitgehend beseitigt. Spotfire kann sowohl als Standalone-Version als auch als Cli-
ent-Server-Applikation in Microsoft-Netzwerken betrieben werden. Aufgrund des plattform-
144
6.2 Das InfVis-Programm
abhängigen Charakters ist jedoch der Einsatz als Web-Applikation im Gegensatz zum InfVis-
Programm ausgeschlossen.
Einen ähnlichen Ansatz wie Spotfire verfolgt das relativ neue Programm Partek von der
gleichnamigen Firma [225]. Partek basiert auf einer interaktiven Spreadsheet-Darstellung
und erlaubt darüber hinaus eine dreidimensionale Scatterplot-Darstellung der Datenpunkte.
Als eines der ersten kommerziellen Programme erweiterte die Applikation den visuellen Data
Mining-Ansatz durch klassische Data Mining-Techniken. Dabei werden neben statistischen
Methoden wie der Principal Component Analysis (vgl. Abschnitt 5.2.1.1) oder dem Multidi-
mensional Scaling (vgl. Abschnitt 5.2.1.2) auch Techniken aus dem Bereich des Machine
Learnings wie beispielsweise Neuronale Netze (vgl. Abschnitt 5.2.2) oder genetische Algo-
rithmen (vgl. Abschnitt 5.2.3) unterstützt. Detailinformationen können mit Hilfe des Internet
Explorers dargestellt werden. Neben zahlreichen Schnittstellen zum Datenaustausch mit aktu-
ellen Datenbanken verfügt die Applikation auch über diverse chemische Module, die von der
Firma MDL im Rahmen eines Kooperationsvertrages zur Verfügung gestellt wurden. Wie
auch Spotfire basiert Partek auf Microsoft Windows-Betriebssystemen. Während Spotfire
jedoch in einem Microsoft-Netzwerk als Client-Server-Applikation betrieben werden kann,
existiert Partek lediglich als Standalone-Version. Bei der Evaluierung des Programms erwie-
sen sich vor allem die Navigationswerkzeuge als außerordentlich gewöhnungsbedürftig.
Miner3D [226] ist eine weitere Applikation die 3D-Glyphen und dynamische Filterfunk-
tionen zur Exploration von Datensätzen verwendet. Im Gegensatz zu den beiden zuvor
erwähnten Applikationen ist Miner3D jedoch speziell für den Einsatz mit dem Tabellenkalku-
lationsprogramm Excel der Firma Microsoft entwickelt worden. Dementsprechend einge-
schränkt stellen sich die vorhandenen Eingabemöglichkeiten dar. Neben einem eigenen
Datenformat erlaubt Miner3D nur den Import von Excel-Daten. Die Darstellung der Daten-
punkte erfolgt primär durch eine 3D-Glyph-Szene. Allerdings unterstützt Miner3D auch
andere Visualisierungstechniken wie Balkendiagramm-Ansichten. Im Gegensatz zu den
bereits erwähnten Programmen und der InfVis-Applikation gestattet Miner3D ein Abbilden
der Datendimensionen auf fast alle erdenklichen retinalen Eigenschaften wie Größe, Farbe,
Form (inkl. Dimensions-abhängige Änderung entlang der x- und y-Achsen), Orientierung,
Transparenz und Texturen. Darüber hinaus werden auch diverse akkustische Attribute wie
Ton- und Spracherkennung zur Kodierung von Datendimensionen eingesetzt. Wie auch das
InfVis-Programm kann Miner3D die 3D-Fähigkeiten moderner Personalcomputer nutzen, da
es auf den OpenGL-Standard aufsetzt. Neben den integrierten dynamischen Filterfunktionen
verfügt die Applikation über keine Werkzeuge, die eine direkte Selektion von Datenpunkten
durch den Benutzer zulassen, wodurch die Extraktion identifizierter Muster stark einge-
schränkt ist. Die Ergebnisse des Mining-Prozesses können in Form statischer HTML-Seiten
exportiert werden. Des Weiteren können mit dem Miner3DSite-Plugin auch interaktive Dar-
145
6 Visuelle Data Mining-Applikationen
stellungen im Internet Explorer realisiert werden. Letztere Möglichkeit dient jedoch lediglich
einer interaktiven Präsentation der Daten und weniger zum visuellen Data Mining. Aufgrund
seiner beschränkten Mining-Werkzeuge und vor allem dem stark an Excel angelehnten Ein-
satz ist Miner3D weniger gut als universell einsetzbare, visuelle Data Mining-Applikation
nutzbar.
Ein vollkommen anderes Prinzip zur Darstellung chemischer Datensätze kommt im Pro-
gramm LeadScope zum Einsatz [227]. LeadScope wurde im Gegensatz zu den bisher erwähn-
ten Applikationen speziell für die Bedürfnisse der medizinischen Chemie entwickelt und
basiert auf molekularen Spreadsheets sowie zweidimensionalen Balkendiagrammen. Die
Applikation hilft dem medizinischen Chemiker bei der Visualisierung und Interpretation che-
mischer und biologischer Screeningdaten. Die chemischen Daten werden dabei hinsichtlich
struktureller Gemeinsamkeiten hierarchisch geclustert und zur Auswertung in 2D-Balkendia-
grammen dargestellt. Durch spezifische, strukturorientierte Filter kann die Darstellung
anschließend interaktiv eingeschränkt werden. Dieser hochspezialisierte Ansatz birgt jedoch
nicht nur Vorteile. So kann die Applikation aufgrund ihrer Ausrichtung auf bestimmte chemi-
sche Teilgebiete und dem Charakter der implementierten Fragmentbibliothek nicht generell
für chemische Problemstellungen und Datensätze verwendet werden. Des Weiteren gestaltet
sich die Darstellung hochdimensionaler Datensätze aufgrund der begrenzten Darstellungsfä-
higkeiten der zweidimensionalen Spreadsheets und Balkendiagramme als problematisch.
Obwohl LeadScope vollständig mit der Programmiersprache Java entwickelt wurde, unter-
stützt das Programm nur den Standalone-Betrieb und kann daher nicht als Applet in Web-
Anwendungen zum Einsatz kommen.
Schließlich soll noch die High Throughput Experimentation Data Applikation (HTE) der
Firma Unilever erwähnt werden [228]. HTE wurde speziell für die Analyse von HTS-Daten-
sätzen entwickelt und basiert im Kern auf OpenVis [229], einer kommerziellen Graphikbiblio-
thek zum visuellen Data Mining der Firma Advanced Visual Systems, die alle grundsätzlichen
Funktionen zur Analyse, Visualisierung und Import der Daten bereitstellt. HTE kann sowohl
als Standalone- als auch als Netzwerk-Version auf Microsoft-Plattformen betrieben werden.
Um HTE ausführen zu können, müssen neben der Applikation selbst auch MS ActiveX8.0
sowie die OpenViz-Bibliothek auf dem Client installiert sein. HTE stellt die chemischen
Daten in Form von Parallel Coordinates (vgl. Abschnitt 5.4.2.1), 3D-Scatterplots und einer
speziellen Mikrotiterplattendarstellung dar. Obwohl HTE nur als Standalone- bzw. Netzwerk-
version zum Einsatz kommt, können mit OpenViz generell auch ActiveX- und Java-basierte
Web-Applikationen entwickelt werden. Diese sind jedoch aufgrund ihrer Architektur nur auf
Systemen mit Microsoft-Betriebssystemen realisierbar.
146
6.2 Das InfVis-Programm
Der wichtigste Unterschied und Vorteil des InfVis-Programms im Gegensatz zu den
erwähnten kommerziellen Applikationen basiert auf der vollkommen plattformunabhängigen
Architektur der Anwendung. Das Programm kann sowohl als Standalone-Version auf diver-
sen Rechnersystemen als auch in Applet-Form in Web-Anwendungen zum Einsatz kommen.
Die Applet-Version kann dabei in aktuellen Browser-Versionen mit Hilfe des Java-Plugins
ausgeführt werden. Dieser portable Charakter der Applikation wurde dabei sowohl anhand
der Standalone- als auch der Applet-Version auf diversen Microsoft- und SGI/Irix-Plattfor-
men getestet. InfVis stellt daher nach unseren Kenntnisstand die erste 3D-Hardware-unterstüt-
zende Web-Applikation zum dreidimensionalen, visuellen Data Mining dar. Darüber hinaus
zählt InfVis neben dem SRS3D-Modul der Firma LionBioscience [92] zu den ersten Chemie-
applikationen, die den neuen Java3D-Standard nutzen.
Ein wichtiger Aspekt bei der Entwicklung von InfVis war die einfache und intuitive
Bedienbarkeit des Programms. Benutzerprobleme, wie sie beispielsweise beim Einsatz von
Spotfire berichtet wurden, sollten von vorneherein ausgeschlossen werden. Aus diesen Grund
wurde im InfVis-Programm bewusst auf zusätzliche Funktionalitäten wie beispielsweise stati-
stischen Methoden oder Clustering-Algorithmen verzichtet. Die Applikation wurde vielmehr
als alternatives visuelles Data Mining-Werkzeug für Laborchemiker entwickelt, die im Allge-
meinen nicht über das nötige Spezialwissen zum Betreiben klassischer Data Mining-Ansätze
verfügen. Das Abbilden der Datendimensionen sowie das Finden der optimalen Datenreprä-
sentation sollte daher ebenfalls leicht und ohne größere Einarbeitungszeiten möglich sein. Da
der Mensch von Natur aus mit dreidimensionalen Welten vertraut ist und viele Chemiker all-
gemeine Erfahrungen im Umgang mit Scatterplot-Darstellungen besitzen, kam deshalb in der
InfVis-Applikation die dreidimensionale Glyph-Technik zum Einsatz. Darüber hinaus stellt
diese Visualisierungstechnik nach unserer Auffassung insbesondere für unerfahrene und nicht
spezialisierte Benutzer ein geeignetes Instrument zur Darstellung multidimensionaler Daten-
sätze dar. Diese Idee wird unter anderem auch durch die Beobachtung bekräftigt, dass Scat-
terplot-Techniken (und somit auch die 3D-Glyph-Technik) vor allem für unerfahrene
Anwender das geeignete Werkzeug zur Identifikation von Mustern und Beziehungen darstel-
len [224]. Im Gegensatz zu Spotfire ist in InfVis die Datendarstellung auf Scatterplot- bzw.
Scatterplot-ähnliche Techniken begrenzt, so dass der Benutzer nicht erst in einem zeitaufwen-
digen Prozess die optimale Visualisierungstechnik finden muss. Darüber hinaus wurde die
Zahl der möglichen retinalen Eigenschaften im Gegensatz zu Miner3D streng limitiert, da
nach unserer Überzeugung zu viele graphische Attribute zu einer Überladung der Szene füh-
ren können. Dies kann insbesondere unerfahrene Anwendern verwirren und letztendlich zu
einer ablehnenden Haltung gegenüber dem Programm führen. Des Weiteren ist die Verwen-
dung der graphischen Attribute bzw. retinalen Eigenschaften auch stark von den jeweiligen
Datensätzen und der entsprechenden Fragestellung abhängig. So ist in vielen Fällen der Ein-
147
6 Visuelle Data Mining-Applikationen
satz aller zur Verfügung stehenden Attribute nicht sinnvoll, sondern führt vielmehr zu einem
erschwerten Explorationsprozess (vgl. Abschnitt 7.1.2).
Durch den offenen und vor allem nicht auf spezifische chemische Fragestellungen ausge-
richteten Charakter kann das InfVis-Programm für ein breites Spektrum tabellarischer Daten-
sätze verwendet werden. Dabei ist die Applikation nicht nur auf chemische Daten limitiert.
Vielmehr können alle Datensätze eingelesen und analysiert werden, die in einem tabellari-
schen Format wie beispielsweise Datenbankausgaben oder CSV-Dateien (vgl. Abschnitt
6.2.3) vorliegen. Die Anzahl der darstellbaren Datenpunkte hängt dabei zum einen von der
3D-Performance des Clients als auch von der Visualisierungstechnik ab. Bei Graphikkarten
ohne zusätzliche 3D-Funktionalitäten sollte der Datensatz nicht mehr als 500 Datenpunkte
umfassen, um eine interaktive Betrachtung der 3D-Szene zu gewährleisten. Bei Nutzung von
3D-Graphikkarten wie beispielsweise einer GeForce-Karte können ohne Probleme zwischen
zwei und drei Tausend Datenpunkte in der Glyph-Technik sowie mehrere Tausend Daten-
punkte in der Scatterplot-Darstellung repräsentiert werden.
Vor allem der plattformunabhängige und portable Charakter und die damit verbundenen
Einsatzmöglichkeiten in firmeninternen Informationssystemen machen InfVis für den Einsatz
in der chemischen Industrie interessant. Die Applikation erregte daher bereits in der fortge-
schrittenen Entwicklungsphase Interesse bei Industrievertretern und wurde unter anderen von
den Firmen Novartis und Avantium evaluiert.
Die Fähigkeiten des InfVis-Programms werden in Kapitel 7 anhand diverser Anwendungs-
beispiele genauer erläutert. Der Einsatz des Programms sowie die Entwicklung einer lei-
stungsfähigen, auf der Applet-Version basierenden Web-Applikation wird im folgenden
Abschnitt beschrieben.
6.3 NCI Screening Data 3D Miner
6.3.1 Zielsetzung
Die Zielsetzung des Online-Dienstes entsprach im Wesentlichen der des VRML-basierten
NCI Datenbank-Interfaces (vgl. Abschnitt 6.1). Allerdings sollte in diesem Fall die Applet-
Version des InfVis-Programms (vgl. Abschnitt 6.2) zum visuellen Data Mining der Antitu-
mor-Screeningdatensätze zum Einsatz kommen. Darüber hinaus sollten neben den eigentli-
chen Screeningdaten auch weitere molekulare Eigenschaften wie beispielsweise der logP-
Wert oder das Molgewicht mit in den analytischen Prozess integriert werden.
148
6.3 NCI Screening Data 3D Miner
6.3.2 Funktionsbeschreibung
Im Gegensatz zum prototypischen Online-Dienst aus Abschnitt 6.1 wurde diese Web-
Anwendung als eigenständiger und öffentlich zugänglicher Service entwickelt. Der Service
verfügt daher über zahlreiche Suchfunktionen sowie Parameter zur Beeinflussung der Daten
und der graphischen Darstellung. Einige dieser Funktionalitäten wie beispielsweise die durch
einen Java-Editor vermittelte Struktur- und 3D-Pharmakophoreingabe wurden dabei aus dem
Enhanced CACTVS NCI Database Browser [93] übernommen und sollen daher an dieser
Stelle nicht näher erläutert werden. Vielmehr werden die spezifischen Neuerungen und Funk-
tionalitäten in Hinblick auf die Screeningdaten detaillierter beschrieben.
Abb. 6-14: Eingabeformular des NCI Screening Data 3D Miners.
Die Eingangsseite des Online-Dienstes ist in Abbildung 6-14 dargestellt. Die Abbildung
zeigt die Navigationsleiste sowie das eigentliche Eingabeformular (Query Form) zur Defini-
tion der diversen Suchkriterien. Die Navigationsleiste beinhaltet die Namen bzw. Verknüp-
fungen zu den vier wichtigsten Stufen bzw. HTML-Seiten, die der Benutzer während der
Online-Sitzung durchlaufen müssen (Structure Editor, Query Form, Data Display Settings,
3D Visualization/Mining). Darüber hinaus enthält die Navigationsleiste noch zusätzliche
149
6 Visuelle Data Mining-Applikationen
Links zu statischen HTML-Seiten, die vor allem zusätzliche Information zur Bedienung und
Beschreibung des Online-Dienstes enthalten (Help, News, Credits).
Die ’Structure Editor’-Seite dient zur Eingabe von Strukturen und 3D-Pharmakophoren
und muss lediglich bei entsprechenden Suchanfragen wie beispielsweise Substruktur- oder
Ähnlichkeitssuchen bearbeitet werden. Da dieser Teil des Services vom Enhanced CACTVS
NCI Database Browser übernommen wurde, soll im Folgenden nicht näher darauf eingegan-
gen werden. Der Aufbau des Eingabeformulars (Query Form) basiert ebenfalls zum Teil auf
dem Eingabeformular des Enhanced Database Browsers. Allerdings wurde die Eingabeseite
um einige spezifische Suchfunktionen für die Screeningdaten erweitert und in vielen Berei-
chen überarbeitet. Das Formular besteht im oberen Teil aus drei identischen Query-Feldern
zur Definition struktureller bzw. molekularer Suchkriterien. Der Benutzer kann dabei unter
anderem nach Namen oder Namensfragmenten, CAS- und NSC-Nummern, Summenformeln,
Molgewicht und logP-Werten, Anzahl der H-Donoren und H-Akzeptoren, Zahl der frei rotier-
baren Bindungen, Druglikeness oder auch definierten Substrukturen oder strukturell ähnli-
chen Verbindungen suchen. Die Inhalte dieser drei Eingabefelder können auch mittels des
Negate-Knopfes als Ausschlusskriterien für die Datenbanksuche definiert werden. Das vierte
QueryFeld dient der Definition spezifischer Screeningdatenkriterien. So kann der Benutzer
Werte oder Wertebereiche für die Wachstumshemmung (GI50), den cytotoxischen (LC50)
oder auch den cytostatischen Effekt (TGI) definieren und entscheiden, ob das Kriterium nur
für eine beliebige Krebszelle oder für alle Krebszelllinien erfüllt sein muss. Alle Suchfelder
können durch logische AND, OR oder XOR-Bedingungen kombiniert werden. Im unteren
Teil des Formulars kann der Benutzer zudem Angaben über das Ausgabeformat (Tabelle,
Tabelle mit Strukturplots, Tabelle mit einigen Beispielstrukturplots) sowie die Reihenfolge
(auf- und absteigende Sortierung nach NSC- und CAS-Nummern, Anzahl der Atome, Molge-
wicht, Komplexität, GI50, LC50 und TGI-Werten) der Suchergebnisse vornehmen.
Nachdem die Datenbanksuche erfolgreich abgeschlossen wurde, werden die erhaltenen
Verbindungen in einer dynamisch generierten HTML-Seite in Form einer Trefferliste ange-
zeigt (Abbildung 6-15, unterer Teil). Die erhaltene Trefferliste liefert dem Benutzer die wich-
tigsten Daten zu den jeweiligen Verbindungen wie beispielsweise den Namen oder die CAS-
Nummer. Falls dem Anwender diese Angaben nicht genügen, kann auch ein spezifisch
kodierter Hyperlink zum Enhanced CACTVS NCI Database Browser genutzt werden, um alle
verfügbaren Detailinformationen zu der jeweiligen Verbindung in einem zweiten Browserfen-
ster darzustellen. Mit Hilfe von Checkboxen kann der Benutzer anschließend die für ihn inter-
essanten Strukturen für eine weitergehende Analyse im InfVis-Applet selektieren. Falls die
Trefferliste allerdings nicht die gewünschten Verbindungen enthält, ist auch eine Benutzer-
definierte Reorganisation der Trefferliste wie beispielsweise die Anzeige des nächsten Tref-
ferblocks möglich.
150
6.3 NCI Screening Data 3D Miner
Abb. 6-15: Dynamisch generiertes HTML-Eingabeformular zur Selektion der chemischen Verbindungen, Krebszelllinien, Konzentrationen, Aktivitätsdaten und molekularen Eigenschaften.
Wie auch im VRML-Prototyp müssen neben den chemischen Verbindungen auch die
gewünschten Krebszelllinien zur Analyse der Struktur-Aktivitätsbeziehungen ausgewählt
werden. Durch Betätigung des ’Select Cell Lines’-Knopfes im Eingabeformular wird ein
separates Fenster geöffnet das dem Benutzer im Gegensatz zur Web-Applikation aus
Abschnitt 6.1 eine Vielzahl an diversen Selektionsmöglichkeiten bietet (Abbildung 6-16).
So kann der Benutzer neben der Wahl von Wirkortsklassen auch jede einzelne der sechzig
Krebszelllinien selektieren. Des Weiteren erlaubt das Formular die Auswahl von Krebszellen
nach weiteren funktionellen Kriterien wie beispielsweise die Selektion von Zelllinien mit
151
6 Visuelle Data Mining-Applikationen
einer niedrigen Multi-Drug Resistance (MDR) [230] oder einer p53-Wildtyp bzw. -Mutanten-
Funktionalität [231]. Die selektierten Zelllinien werden anschließend wieder an das Daten-
Selektionsformular (Abbildung 6-15) zurückgeliefert und dort unter Verwendung von Java-
Skript-Variablen gespeichert.
Abb. 6-16: Ausschnitt aus dem Krebszelllinien-Selektionsformular.
Während im NCI Datenbank Interface immer nur eine der drei vorhandenen biologischen
Aktivitäten betrachtet werden konnte, erlaubt der NCI Screening Data 3D Miner die parallele
Analyse der cytotoxischen, cytostatischen sowie wachstumhemmenden Effekte. Die
gewünschten Aktivitäten müssen dazu mit Hilfe von Checkboxen selektiert werden. Wie auch
beim VRML-Pendant werden bei der Datenbanksuche alle Substanzkonzentrationen für die
in der Trefferliste enthaltenen Verbindungen ermittelt und im Anschluss im Datenselektions-
formular zur Auswahl gestellt. Während der Selektion der einzelnen Verbindungen, Krebszel-
len und biologischen Aktivitäten wird mit Hilfe einer auf Java-Skript basierenden
Rechenfunktion automatisch die Anzahl der Datenpunkte berechnet (Abbildung 6-15, No. of
152
6.3 NCI Screening Data 3D Miner
Datapoints). Da es sich bei dieser Funktion um eine simple Hochrechnung der möglichen,
sich aus der Datenselektion ergebenen Kombinationen handelt aber nicht alle dieser Kombi-
nationen in der Datenbank enthalten sein müssen, ist die berechnete Zahl der Datenpunkte in
der Regel größer als die tatsächliche Zahl der resultierenden Datenpunkte. Für den Benutzer
stellt diese Funktion aber dennoch ein geeignetes Hilfsmittel dar, weil er damit eine unge-
fähre Vorstellung von der Größe des resultierenden Datensatzes erhält und gegebenenfalls,
zum Beispiel im Fall einer leistungsschwächeren Graphikkarte, die Zahl der Datenpunkte
durch Überarbeitung der Selektionsangaben verändern kann.
Im Gegensatz zum NCI Datenbank Interface stehen im nachfolgenden visuellen Data
Mining-Prozess nicht nur die Aktivitätswerte zur Verfügung. Vielmehr kann der Benutzer
zusätzliche molekulare Dimensionen wie Molgewicht, Anzahl der H-Donoren und H-Akzep-
toren, Anzahl der frei rotierbaren Bindungen, logP-Werte oder die Verbindungskomplexität
mit in den Datensatz aufnehmen und während des visuellen Data Minings zum Beispiel in
Form von Dynamic Query-Filtern nutzen. Schließlich enthält das Datenformular noch einige
Optionen, mit denen sich die graphische Darstellung im InfVis-Applet beeinflussen lässt. So
kann zum Beispiel die Visualisierungstechnik (Glyph, Scatterplot, Barchart) oder auch die
Reihenfolge der chemischen Verbindungen auf der x-Achse festgelegt werden.
Nachdem der Benutzer den ’Visualize & Mine Data’-Knopf betätigt hat, wird ein temporä-
rer Datensatz entsprechend der Selektionsangaben generiert und zusammen mit dem InfVis-
Applet an den Client übermittelt (Abbildung 6-17). Das Browserfenster enthält neben dem
Applet zwei Hyperlinks zum Aufruf des Applet-Manuals oder einer kurzen Zusammenfas-
sung der Systemvoraussetzungen. Der generierte Datensatz wird beim Start des Applets auto-
matisch eingelesen und in Abhängigkeit zu den Applet-Parameterangaben dargestellt. Dabei
werden durch die Applet-Parameter die in Tabelle 6-1 aufgelisteten Zuordnungen definiert.
Dieser Zuordnungsvorschlag kann vom Benutzer zu jedem Zeitpunkt wieder geändert wer-
den. Der Datensatz kann im Folgenden mit allen in InfVis verfügbaren Werkzeugen und Funk-
tionen analysiert werden. Neben den im Datenselektionsformular definierten
Datendimensionen enthält der transferierte Datensatz auch Metainformation in Form von
Graphisches Attribut Datendimensionx-Achse NSCNr, kategorisch
y-Achse Biologische Aktivität, numerisch
z-Achse Krebszelllinien, kategorisch
Form Typ der biol. Aktivität, kategorisch
Farbe Biologische Aktivität, numerisch
Größe Keine Zuordnung
Tab. 6-1: Zuordnung der Datendimensionen auf retinale Eigenschaften.
153
6 Visuelle Data Mining-Applikationen
Hyperlinks. Mit Hilfe dieser Hyperlinks können für jeden Datenpunkt detaillierte Informatio-
nen zu der jeweiligen Verbindung aus dem Enhanced CACTVS NCI Database Browser in
einem zweiten Browserfenster dargestellt werden.
Abb. 6-17: InfVis-Applet mit ausgewählten Daten aus dem Datenselektionsformular.
6.3.3 Implementierung
Da der NCI Screening Data 3D Miner zum gleichen Zweck wie das NCI Datenbank Inter-
face (vgl. Abschnitt 6.1) entwickelt wurde, weisen die zugrundeliegenden Prozessabläufe
starke Parallelen auf. Die schematische Prozessdarstellung des NCI Screening Data 3D Miner
in Abbildung 6-18 hebt deshalb vor allem die grundsätzlichen Unterschiede zwischen den
beiden Online-Diensten hervor. Die Prozesse zur Detaildarstellung durch den Enhanced
CACTVS NCI Database Browser werden zur Vereinfachung nur angedeutet. Wie auch das
NCI Datenbank Interface basiert die vorliegende Online-Anwendung sowohl auf der
154
6.3 NCI Screening Data 3D Miner
CACTVS-Datenbank (250.000 Verbindungen mit molekularen Eigenschaften) als auch auf der
MySQL-Datenbank (41.000 Verbindungen mit Screeningdaten). Während der Online-Dienst
aus Abschnitt 6.1 eine Verbindungssuche ausschliesslich mit Hilfe der in der CACTVS-Daten-
bank enthaltenen molekularen Eigenschaften erlaubt, können im vorliegenden Fall auch die
biologischen Aktivitäten der MySQL-Datenbank zur Ermittlung der Struktur-Trefferliste her-
angezogen werden. Dieser optionale Suchmechanismus ist in Abbildung 6-18 durch eine
gepunktete Linie dargestellt.
Abb. 6-18: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI Screening Data 3D Miner. Die gepunkteten und gestrichkelten Pfade stellen optionale Prozesse dar.
Nach der Selektion der chemischen Verbindungen, Krebszellen und biologischen Aktivi-
tätsdaten werden vom CGI-Skript die entsprechenden Daten mittels einer SQL-Abfrage aus
der MySQL-Datenbank abgerufen und der resultierende Datensatz als temporäre Datei abge-
speichert. Im Gegensatz zum NCI Datenbank Interface können darüber hinaus weitere mole-
Strukturen
Softwaretransfer
CACTVS-System
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
Client ServerCGI-Skript
Datentransfer
MySQL-NCI-Datenbank
41.000Screening-
datenSelektion
CACTVS-NCI-Datenbank
>250.000Strukturdaten,
MolekulareEigenschaften
HTML-
Formular
Auswahl
HTML-
Formular
Eingabe
Ausgabe
Applet
temporäreSpeicherung
der Daten
InfVis-Applet
Hyperlink zum externen ServiceEnhanced CACTVS
NCI Database Browser
155
6 Visuelle Data Mining-Applikationen
kulare Eigenschaften wie beispielsweise das Molgewicht oder der logP-Wert in den Datensatz
integriert werden. Dabei fragt das CGI-Skript die entsprechenden Daten zu den jeweiligen
Verbindungen aus der CACTVS-NCI-Datenbank ab. Diese ebenfalls optionale Funktion wird
in Abbildung 6-18 durch eine gestrichelte Linie dargestellt.
Schließlich erfolgt die Übertragung und Visualisierung der Daten. Dieser Schritt stellt
dabei den maßgeblichen Unterschied zum VRML-Ansatz dar. Im Fall des NCI Datenbank
Interfaces werden die ermittelten Daten vom CGI-Skript in eine VRML-Szene umgewandelt
und diese anschließend an den Client übertragen. Im Gegensatz zu diesem auf einem Gra-
phiktransfer basierenden Ansatz kommt im NCI Screening Data 3D Miner eine Kombination
aus Datentransfer (temporärer Datensatz) und Softwaretransfer (InfVis-Applet) zum Einsatz.
Während der visuelle Data Mining-Prozess dadurch komplett auf der Clientseite durchgeführt
werden kann, ist im VRML-Datenbank-Interface eine visuelle Datenanalyse nur durch Inter-
aktion von Client und Server (hybrider Ansatz) möglich. Die Vorteile des Client-seitigen
Ansatzes gegenüber einer Client-Server-verteilten Data Mining-Sitzung werden im nächsten
Abschnitt erläutert.
Der durch Hyperlinks vermittelte Aufruf des Enhanced CACTVS NCI Database Browser
zur Darstellung zusätzlicher Detailinformation ist auch im vorliegenden Online-Dienst mög-
lich. Die schematische Darstellung dieser Funktionalität ist in Abbildung 6-18 nur andeu-
tungsweise skiziert (rautiertes Rechteck, rechts unten).
6.3.4 Diskussion
Während im Abschnitt 6.1.4 die VRML-Ansätze im visuellen Data Mining vorgestellt und
im Vergleich mit dem NCI Datenbank Interface diskutiert wurden, sollen im Folgenden die
auf Java basierenden Web-Applikationen sowie deren Vergleich mit dem NCI Screening Data
3D Miner im Vordergrund stehen.
Eine sehr umfangreiche Sammlung an Java-basierten Datenvisualisierungstechniken stellt
das Programmpaket NetCharts der Firma VisualMining zur Verfügung [232]. Die Applet-
Sammlung umfasst dabei zahlreiche Darstellungen wie beispielsweise Balkendiagramme,
Box Charts, Pie Charts, Combo Charts, Linien- und Kurven-Graphen oder 2D-Scatterplots.
Des Weiteren können die Diagramme durch einige interaktive Basisfunktionen wie Scrolling,
Zooming und Rotation beeinflusst werden. NetCharts wurde vor allem für eine komfortable
und interaktive Datenpräsentation und weniger zur interaktiven Exploration bzw. zum visuel-
len Data Mining von Datensätzen entwickelt. Aus diesem Grund stehen auch keine speziel-
len, für visuelles Data Mining essentiellen Interaktionswerkzeuge wie zum Beispiel
Dynamic Query-Filter zur Verfügung.
156
6.3 NCI Screening Data 3D Miner
Ein höheres Maß an Interaktion bieten zum Teil die Softwareprodukte (Data Vista Explo-
erer, Data Vista Screener, VantagePoint) der Firma Visualize [233]. Die Programmpakete
basieren auf einer Client-Server-Architektur und enthalten ein auf die jeweilige Aufgaben-
stellung angepasstes Applet zur Visualisierung und Analyse der Daten. Leider variieren die
verfügbaren Funktionalitäten zwischen den einzelnen Applikationen sehr stark, wobei entwe-
der die Datenvisualisierung oder die Datenfilterung im Vordergrund steht. So unterstützen der
Data Vista Explorer und die VantagePoint-Applikation diverse Visualisierungstechniken wie
Balkendiagramme, Scatterplots oder HeatMaps. Allerdings verfügen diese beiden Pro-
gramme nur über einfache Interaktionstechniken. Da hier bevorzugt hierarchische Daten im
Fokus des Interesses liegen, sind vor allem die implementierten Drill-Down-Funktionalitäten
komfortabel. Dynamische Filterfunktionen stehen aber auch hier nur in sehr rudimentärer
Form oder garnicht zur Verfügung.
Fortgeschrittenere Techniken sind hingegen im Data Vista Screener enthalten. Allerdings
stellt diese Applikation die Daten lediglich in tabellarischer Form oder als Ein-Balkendia-
gramm dar, wobei keine weiteren Navigations- und Interaktionsmöglichkeiten zur Verfügung
stehen. Darüber hinaus ist die Bedienung der Filterfunktion umständlich, wenig intuitiv und
nicht dynamisch. Die Filterung wird in einem separaten Fenster zur Verfügung gestellt. Aller-
dings muss der Benutzer dazu die zu filternde Dimension aus einer Liste heraussuchen und
die Grenzwerte manuell in Textfelder eintragen. Dynamische Schieberegler für die einzelnen
Datendimensionen werden nicht unterstützt. Aufgrund der fehlenden Dynamik, der dieser
Ansatz birgt, kann der Benutzer nicht unmittelbar die Folgen seiner Interaktion beobachten
und gegebenenfalls darauf reagieren. Vielmehr muss der Anwender nach Betrachtung der
Szene erneut das Filterfenster aufrufen, um seine Auswahl zu korrigieren. Der für visuelles
Data Mining notwendige Feedback-Mechanismus entfällt somit. Warum die Darstellungsfä-
higkeiten des Data Vista Explorers nicht mit den Filterfunktionen des Data Vista Screeners
kombiniert werden, ist mir unverständlich. Darüber hinaus können nur numerische Daten mit
Hilfe der Programme dargestellt werden.
VisMine von Hewlett Packard basiert ebenfalls auf einer Client-Server-Architektur [234].
Die Applikation besteht zum einen aus einer auf einem Server installierten Data Mining
Engine und zum anderen aus einem Java-Benutzerinterface, das auf dem Client ausgeführt
wird. Im Gegensatz zu den anderen, in diesem Kapitel erwähnten Applikationen enthält Vis-
Mine keine eigenen Techniken bzw. Anwendungen zur Visualisierung der Datenpunkte. Viel-
mehr erfolgt die Visualisierung der Daten mit externen portablen
Informationsvisualisierungs-Werkzeugen, die mit dem Client-seitigen Interface verbunden
werden können. Dabei kommen unter anderem das Star Tree-Applet der Firma Inxight (Dar-
stellung hierarchischer Datensätze) [235] sowie die 3D Master Suite der Firma Template Gra-
phics Software (TGS) [236] zum Einsatz. Die Client-seitige VisMine-Schnittstelle ermöglicht
157
6 Visuelle Data Mining-Applikationen
zum einen den Datentransfer zu den externen Visualisierungsapplikationen und zum anderen
die Rückgabe von Benutzerinteraktionen innerhalb der externen Applets an die VisMine-
Architektur. Da VisMine ebenfalls über keine zusätzlichen Interaktionswerkzeuge verfügt,
kann zur Analyse der Datensätze nur auf die in den Visualisierungsapplets implementierten
Funktionalitäten zurückgegriffen werden.
So erlaubt das Star Tree-Applet nur die Navigation durch eine hyperbolische Baumstruktur
sowie die Abfrage von Detailinformationen. Letztere Funktionalität wird von VisMine ver-
wendet, um einen entsprechenden Data Mining Prozess zu starten und die resultierenden
Daten an das Applet zurückzusenden. Die 3D Master Suite ist eine in Java implementierte,
OpenGL-unterstützende OpenInventor-Variante und ermöglicht daher im Gegensatz zum Star
Tree-Applet eine Vielzahl verschiedener Visualisierungstechniken. Darüber hinaus können
die Daten durch diverse Techniken modifiziert werden. Da OpenInventor in erster Linie zur
Datenvisualisierung und nicht zum visuellen Data Mining entwickelt wurde, fehlen auch hier
spezielle, explorative Interaktionswerkzeuge. VisMine kann daher vor allem zur "bestätigen-
den" Informationsvisualisierung eingesetzt werden und entspricht im Grunde dem Ansatz aus
Abbildung 5-3a. Eine explorative Informationsvisualisierung ist hingegen nur bedingt mög-
lich.
Eine Applikation, die alle Voraussetzungen einer visuellen Data Mining-Anwendung
erfüllt, ist die Java-Applikation Parallel Coordinate Tool von Haller et al. [237]. Wie der
Name schon zu erkennen gibt, basiert die Anwendung auf der Parallel Coordinates-Technik
(vgl. Abschnitt 5.4.2.1). Obwohl diese Technik hervorragend zur Darstellung hochdimensio-
naler Datensätze geeignet ist, setzt diese spezielle Visualisierungsform ein gewisses Maß an
Erfahrung voraus. Insbesondere der im Umgang mit Visualisierungstechniken ungeübte
Benutzer muss unter Umständen erst an die auf dem ersten Blick abstrakte Technik herange-
führt werden.
Wie auch die Parallel Coordinate-Applikation enthält das InfVis-Applet alle notwendigen
Funktionen zur Datenvisualisierung als auch eine Vielzahl essentieller Data Mining-Werk-
zeuge. Damit zählt das InfVis-Applet zu den seltenen WWW-fähigen Web-Applikationen, die
nicht nur auf die Präsentation limitiert sind, sondern ein komfortables, visuelles Data Mining
ermöglichen. Im Gegensatz zum Parallel Coordinates-Applet basiert InfVis auf der 3D-
Glyph-Technologie, die nach unserer Überzeugung eine intuitive und natürliche Datenvisuali-
sierung ermöglicht und daher auch von unerfahrenen Benutzern ohne zusätzliche Vorkennt-
nisse eingesetzt werden kann. Des Weiteren verwendet InfVis die plattformunabhängige
Graphikschnittstelle Java3D. Dieser Ansatz ermöglicht zum einen die Realisierung portabler,
Hardware-unterstützter 3D-Hochleistungsgraphiken und erlaubt zum anderen die Nutzung
des enormen Graphikpotentials heutiger Personalcomputer. Die bereits erwähnte 3D Master
158
6.3 NCI Screening Data 3D Miner
Suite von TGS verfolgt das gleiche Ziel. Jedoch kommt hier anstelle der Java3D-Erweiterung
die OpenInventor-Bibliothek zum Einsatz, die ebenfalls auf OpenGL aufbaut und damit Gra-
phikfunktionen der Client-Hardware nutzen kann. Während Java3D frei und für alle aktuellen
Rechnerplattformen erhältlich ist, handelt es sich bei der OpenInventor-Bibliothek um ein
kommerzielles Produkt, welches nur für Windows-, Solaris- und Linux-Systeme zur Verfü-
gung steht. Darüber hinaus wird die aktuelle Java-Version 1.4 nicht unterstützt.
Im Gegensatz zu anderen Client-Server-basierten Data Mining-Ansätzen, sind im InfVis-
Applet alle zum visuellen Data Mining notwendigen Funktionalitäten integriert. Diese rein
Client-seitige Strategie birgt dabei viele Vorteile. Ein entscheidender Vorteil ist, dass die rela-
tiv kompakten Rohdaten direkt an den Client übermittelt werden können, während bei einem
Graphiktransfer-Ansatz wie beispielsweise dem auf VRML basierenden NCI Datenbank
Interface die Rohdaten zunächst auf der Serverseite in eine wesentlich größere, graphische
Form überführt werden müssen, was zum einen zeitaufwendig ist und zum anderen zu länge-
ren Übertragungszeiten führt. Des Weiteren kann durch einen Client-seitigen Ansatz ein
Maximum an Interaktivität realisiert werden. Da die Rohdaten direkt auf dem Client zur Ver-
fügung stehen, können alle Operationen ohne eine zeitaufwendige Serveranfrage interaktiv
und unmittelbar durchgeführt werden. Somit ist die InfVis-Applikation weder von der Netz-
werklast noch von der Bandbreite des Netzwerkes abhängig.
Das InfVis-Applet ist nach unserem Kenntnisstand einzigartig, da es sowohl Visualisie-
rungs- als auch Interaktionstechniken, die bis dato nur auf einigen wenigen, plattformabhän-
gigen Standalone-Programmen zur Verfügung standen, in einer portablen,
plattformunabhängigen Form realisiert.
Der Online-Dienst zeigt, dass durch die offene Architektur (Handhabung beliebiger nume-
rischer und kategorischer Datensätze) der InfVis-Applikation auf bestimmte Problem- und
Aufgabenstellungen ausgerichtete Anwendungen realisiert werden können. So erlaubt der
NCI Screening Data 3D Miner zunächst eine leistungsfähige, Server-seitige Datenbanksuche
und eine anschließende Client-seitige Analyse des vorselektierten Datensatzes durch das Inf-
Vis-Applet. Die Funktionalitäten des Online-Dienstes übertreffen sowohl die des NCI Daten-
bank Interfaces (vgl. Abschnitt 6.1), als auch die der Online-Werkzeuge des amerikanischen
Krebsforschungsinstituts [202]. Vor allem die Möglichkeit zusätzliche molekulare Eigen-
schaften mit in den Data Mining-Prozess zu integrieren, war bis dato nur den klassischen, auf
Standalone-Applikationen basierenden Data Mining-Verfahren vorbehalten. Der NCI Scree-
ning Data 3D Miner stellt deshalb nach unserem Wissen das umfangreichste Online-Analyse-
Tool für die Antitumor-Datensätze des National Cancer Institutes dar.
159
6 Visuelle Data Mining-Applikationen
Der Online-Dienst wurde vor wenigen Monaten auf unserem Web-Server eingerichtet,
allerdings noch nicht durch Bekanntmachungen in entsprechenden Mailinglisten und Foren
einem breiteren, wissenschaftlichen Publikum vorgestellt.
6.4 Ausblick
Die im Rahmen dieser Arbeit verwendeten, dreidimensionalen Visualisierungstechniken
wie Balkendiagramme, Scatterplots und die 3D-Glyph-Technik erlauben eine intuitive Dar-
stellung und Analyse tabellarischer Datensätze. Insbesondere der Glyph-Ansatz eignet sich
dabei aufgrund der Vielzahl verfügbarer, graphischer Attribute wie Form, Farbe oder Größe
der graphischen Objekte zur Darstellung multidimensionaler Datensätze. Da diese Ansätze
die 3D-Fähigkeiten aktueller Graphikkarten nutzen, hängt die Anzahl der darstellbaren
Datenpunkte unmittelbar von der Graphikleistung des Clients ab. So können bei Verwendung
einfacher 2D-Graphikkarten lediglich einige Hundert Datenpunkte dargestellt werden, wäh-
rend spezielle 3D-Graphikkarten wie die GeForce-Serie die Visualisierung einiger Tausend
Datenpunkte ermöglichen. Eine Visualisierung extrem großer Datensätze (10 Tausend bis 1
Million Datenpunkte) ist aufgrund der enormen, hierfür notwendigen Rendering-Kapazitäten
auch nicht mit aktueller 3D-Graphikhardware mit der gewünschten und notwendigen Interak-
tionsrate möglich. Aus diesem Grund wurde von unseren ChemVis-Projektpartner an der Uni-
versität Stuttgart ein alternativer, Textur-basierter Informationsvisualisierungsansatz
entwickelt [238].
Texturen setzen im Gegensatz zu Isoflächen-Darstellungen keine speziellen Rendering-
Kapazitäten voraus. Vielmehr nutzt diese Technologie vorhandene Rasterisierungs- und Mul-
titexturing-Verfahren moderner Graphikkarten. Während auf Rendering aufbauende Techni-
ken wie der 3D-Glyph-Ansatz unmittelbar von der Anzahl der durch Polygone dargestellten
Datenpunkte abhängen, ist die Auflösung des Textur-Ansatzes nur durch die Größe der Textur
und somit letztendlich durch die Speicherkapazitäten der Graphikhardware limitiert. Eine
direkte Abhängigkeit von der Anzahl der Datenpunkte besteht nicht. Textur-basierte Techni-
ken erlauben daher auch die Darstellung mehrerer Millionen Datenpunkte. Die Anzahl der
darstellbaren Datendimensionen ist jedoch im Gegensatz zur Glyph-Visualisierungstechnik
eingeschränkt. In Textur-Ansätzen wird ein Datenpunkt durch ein sogenanntes Voxel (dreidi-
mensionales Analogon zum Pixel) dargestellt (vgl. Abschnitt 5.4.2.3). Deshalb stehen nur die
drei orthogonalen Achsen sowie die Farbe und Transparenz als mögliche graphische Attribute
zur Verfügung.
Dieser Ansatz wird zur Zeit im Rahmen einer Doktorarbeit an der Universität Stuttgart
weiterentwickelt. Nach der Entwicklung einer entsprechenden Applikation soll schließlich
eine Schnittstelle zum InfVis-Ansatz implementiert werden. So kann der Benutzer beispiels-
160
6.4 Ausblick
weise zunächst den Textur-Ansatz nutzen, um einen Überblick über den vorliegenden Daten-
satz zu erhalten. Mit Hilfe der dort vorhandenen Data Mining-Werkzeuge ist der Anwender in
der Lage, interessante Datenpunkte oder Regionen zu selektieren und zu einer weiterführen-
den Analyse an das InfVis-Programm zu übermitteln. Hier kann dann der Datensatz auf
gewohnte Weise einem weiterführenden, visuellen Data Mining unterzogen werden.
161
6 Visuelle Data Mining-Applikationen
162
Kapitel 7
Anwendungsbeispiele
Während in den beiden vorausgegangenen Kapiteln die theoretischen Grundlagen sowie
die im Rahmen dieser Arbeit entwickelten Ansätze und Applikationen des visuellen Data
Minings vorgestellt wurden, sollen im Folgenden die Möglichkeiten des visuellen Data
Mining im Allgemeinen als auch die Fähigkeiten der InfVis-Applikation im Speziellen
anhand ausgewählter chemischer Datensätze und Fragestellungen beschrieben werden.
Der erste Teil des Kapitels basiert auf der neuartigen Datenbank chemischer Reaktionen
der Firma ChemCodes [239]. Dabei wird zunächst auf die Charakteristika der Datenbank
sowie auf die Unterschiede zu anderen aktuellen Reaktionsdatenbanken eingegangen.
Anhand ausgewählter Datensätze wird anschließend der visuelle Data Mining-Prozess an
zwei Anwendungsbeispielen erläutert.
Grundlage für das Anwendungsbeispiele des zweiten Kapitelteils ist die bereits erwähnte
Antitumor-Screening-Datenbank des amerikanischen Krebsforschungszentrums [202]. Nach
einer kurzen Einführung wird der Einsatz des InfVis-Programms zur visuellen Exploration
von Struktur-Aktivitäts-Beziehungen demonstriert.
7.1 ChemCodes-Reaktionsdatenbank
7.1.1 Zielsetzung und Aufbau der Datenbank
Während chemische Verbindungen und Strukturdaten bereits sehr früh in computergestüt-
zen Datenbanken archiviert wurden, begann man erst relativ spät mit der elektronischen Spei-
cherung publizierter Reaktionsdaten. Um einen möglichst effektiven Zugriff auf die bis dahin
bereits zahlreich vorhandenen Reaktionsdaten zu ermöglichen, wurden sogenannte Reakti-
onsdatenbanken aufgebaut, die eine elektronische Recherche der Information erlaubten. Zu
den bekanntesten Vertretern zählen dabei die ChemInform RX-Datenbank des FIZ Chemie
[240] sowie die CrossFireplusReactions-Datenbank von Beilstein Information Systems [241].
163
7 Anwendungsbeispiele
Obwohl Reaktionsdatenbanken heute standardmäßig in zahlreichen Anwendungsgebieten
wie beispielsweise der Syntheseplanung oder der Reaktionsvorhersage eingesetzt werden,
müssen diese Informationsreserrvoire sehr kritisch und mit Vorsicht betrachtet werden. Eines
der größten Probleme der in den Datenbanken enthaltenen Information liegt darin begründet,
dass für eine Vielzahl der archivierten Reaktionen nicht alle Reaktionsbedingungen angege-
ben sind. Ein weiteres Problem stellt der Umstand dar, dass die betrachteten Reaktionen unter
ganz unterschiedlichen Bedingungen durchgeführt wurden und somit ein Vergleich zwischen
den einzelnen Datenwerten kaum möglich ist. Des Weiteren werden in der Regel Nebenreak-
tionen aber auch solche Reaktionen, die zu unerwünschten Ergebnissen führen, nicht doku-
mentiert. Diese Fehldaten bzw. Negativergebnisse sind jedoch für eine Mustererkennung oder
zur Vorhersage neuer Reaktionsmodelle ebenso wichtig wie positive Reaktionsdaten. Ein
weiteres Problem von Reaktionsdatenbanken stellt die unvollständig Funktionelle-Grup-
pen(FG)-Kompatibilitätsinformation der publizierten Reaktionsdaten dar. So kann mit Hilfe
der Datenbankinformation in der Regel keine Aussage darüber getroffen werden, ob ein
bestimmtes Eduktderivat, welches sich vom Originaledukt durch zusätzliche oder veränderte
funktionelle Gruppen unterscheidet, in gleicher Weise reagiert oder ob eine Nebenreakion
bevorzugt wird.
Stellt man die in aktuellen Reaktionsdatenbanken enthaltene Information in Form einer
Funktionellen-Gruppen-Reaktivitäts-Matrix dar, so ergibt sich die in Abbildung 7-1a darge-
stellte Auftragung. Bei der Betrachtung der Matrix wird dabei deutlich, dass ein sinnvolles
Data Mining aufgrund des hohen Anteils an Fehlinformation sowie der häufig unzuverlässi-
gen Reaktionsdaten nur bedingt oder überhaupt nicht zu realisieren ist. Eine vernünftige
Mustererkennung bzw. zuverlässige Reaktionsmodellvorhersage fordert daher eine möglichst
umfassende Erschliessung des chemischen Reaktionsraums sowie eine hohe Konsistenz und
Zuverlässigkeit der enthaltenen Reaktionsdaten (Abbildung 7-1b). Der Aufbau einer entspre-
chenden Reaktionsdatenbank ist ein Ziel der Firma ChemCodes. Um dieses Ziel zu erreichen,
hat ChemCodes ein (an dieser Stelle nicht näher beschriebenes) Synthese- und Analyse-Ver-
fahren entwickelt, welches eine High-Throughput-Vermessung von Reaktionen ermöglicht.
Dabei sollen zahlreiche für chemische Problemstellungen wichtige funktionelle Gruppen bei
unterschiedlichen Reaktionsbedingungen umgesetzt werden. Mit Hilfe einer aus diesen
Ergebnissen generierten Reaktionsdatenbank können erstmals die Grenzen von Standardreak-
tionen aber auch die FG-Kompatibilität ermittelt werden. Darüber hinaus erlaubt der Daten-
satz die Generierung von Regeln sowie die Vorhersage chemischer Reaktionen.
Im Rahmen dieser Arbeit wurden zwei von der Firma ChemCodes zur Verfügung gestellte
Datensätze aus dieser Reaktionsdatenbank mit Hilfe der InfVis-Applikation analysiert. Dabei
stand zum einen die Optimierung einer ausgewählten Reaktion und zum anderen eine Reakti-
onsplanung im Vordergrund.
164
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-1: Matrix-Darstellung der Funktionellen-Gruppen-Reaktivität in a) aktuellen Reaktionsdatenbanken und b) in einer idealen Reaktionsdatenbank (ChemCodes-Ansatz) [14].
7.1.2 Reaktionsoptimierung
7.1.2.1 Zielsetzung
Grundlage des ersten ChemCodes-Datensatz ist die gemischte Aldolkondensation von
Benzaldehyd mit Acetophenon, die sogenannte Benzalacetophenon- bzw. Chalcon-Synthese
(Abbildung 7-2).
Abb. 7-2: Gemischte Aldolkondensation von Benzaldehyd und Acetophenon.
FG 1 2 3 4 49
123
4849
n
n
+/-
+
-
---
+
+++/-
a) AktuelleReaktionsdatenbanken
- Keine Reaktion
Keine DatenWiderspruch
Reaktionsdaten+/-
FG 1 2 3 4 49
123
4849
n
n
-
--
65%
85%
60%
70%
55%
45%30%
b) Reaktionsdatenbank
ChemCodes
------------
---
--
-
- -
---
--
--
+
O
H
H3C
O
OH+
H O
H
Benzaldehyd Acetophenon 1,3-Diphenyl-propen-2-on-1(Benzalaacetophenon, Chalcon)
165
7 Anwendungsbeispiele
Die Synthese wurde bereits 1891 erstmals durch Claisen und Claparede [242] sowie durch
Schmidt [243] beschrieben und wird daher auch als Claisen-Schmidt-Kondensation
bezeichnet. Bis heute wurden nach Angaben des Chemical Abstract Service (CAS) 50
verschiedene Chalcon-Synthesen sowie weitere 670 Synthesen von Chalconderivaten
publiziert.
Neben den beiden Edukten – Benzaldehyd (125 mM) und Acetophenon (immobilisiert auf
Trägerharz) – kamen in den Reaktionsansätzen von ChemCodes vier verschiedene
Lösungsmittel, fünf Basen, zwei unterschiedliche Reaktionstemperaturen sowie zwei
verschiedene Trägerharze zum Einsatz:
− 5 Basen (125 mM): LiOH, KOH, NaOMe, iPr2EtN, Keine Base
− 4 Lösungsmittel: MeOH, EtOH/H2O (4/1), DMSO, Dioxan
− 2 Temperaturen: 23 °C, 60 °C
− 2 Trägerharze: Polystyrol (PS), Tentagel (TG)
− 1 Zeit: 12 h
Durch Kombination dieser Reaktionsbedingungen konnten insgesamt achtzig
Syntheseansätze realisiert werden, die jeweils nach zwölf Stunden Reaktionszeit abgestoppt
und durch massenspektrometrische Verfahren analysiert wurden. Die einzelnen
Reaktionsansätze wurden dabei nicht nur einmal sondern bis zu sechs mal druchgeführt und
vermessen, um eine möglichst hohe Genauigkeit und Verlässlichkeit der experimentellen
Daten zu gewährleisten. Von den sich so ergebenen 480 Reaktionen (80 Einzelreaktionen x 6
Durchläufe) wurden uns die Ergebnisse von 364 Einzelreaktionen in Form einer Excel-
Tabelle zur Verfügung gestellt. Dieser eingeschränkte Datensatz enthielt im Gegensatz zum
Originaldatensatz nur noch 63 der 80 möglichen Kombinationen.
7.1.2.2 Datenaufbereitung
Der Datensatz mit den 364 verbliebenen Einzelreaktionen enthielt neben den oben
aufgeführten Reaktionsbedingungen auch einen ChemCodes-internen Zahlenwert, welcher
zur Klassifizierung der Reaktionsergebnisse diente (Tabelle 7-1).
Kategorie Beschreibung1 nur Produkt2 Produkt + Edukt4 nur Edukt7 Meßfehler
Tab. 7-1: ChemCodes-interne Reaktionskategorisierung.
166
7.1 ChemCodes-Reaktionsdatenbank
Die einzelnen Paralleldurchläufe der 63 Reaktionsansätze sollten zunächst gruppiert und
die entsprechenden Ausbeuten gemittelt werden. Dazu wurden die 364 Dateneinträge
nochmals überarbeitet, wobei vor allem Ausreisserdaten (stark abweichende Ausbeutenwerte)
und missglückte Reaktionsansätze (Tabelle 7-1, Kategorie 7) entfernt wurden. Da die im
Datensatz angegebenen Ausbeutewerte lediglich Faktoren des ChemCodes-internen
Analyseprogramms darstellen, mussten die gemittelten Werte im Anschluss auf eine 100
Prozentskala normiert werden, um allgemein übliche, prozentuale Reaktionsausbeuten zu
erhalten. Die so aufbereiteten Daten wurden schließlich mit dem InfVis-Programm visuell
analysiert.
7.1.2.3 Visuelles Data Mining
Nach dem Einlesen der Daten wurden die einzelnen Datendimensionen auf die
graphischen Attribut-Eigenschaften des InfVis-Programms abgebildet. Dabei wurde die
ChemCodes-Reaktionskategorie auf die x-Achse, die Lösungsmittel auf die y-Achse sowie
die Trägerharze auf die z-Achse aufgetragen (Abbildung 7-3, links).
Abb. 7-3: InfVis-Programm; 364 Reaktionen aus der ChemCodes-Datenbank.
Abb. 7-4: Legende für die Abbildungen 7-3 bis 7-7.
Kategorie 1
Kategorie 2
Kategorie 4
Kategorie 7
23 °C
60 °C
167
7 Anwendungsbeispiele
Die Reaktionsausbeute wurde durch die Größe der graphischen Objekte und die
Temperatur durch die Objektform repräsentiert (Abbildung 7-4). Die Objektfarbe diente
ebenfalls zur Darstellung der Reaktionskategorie (Abbildung 7-4). Darüber hinaus wurde
jeweils ein graphischer Filter in Form eines Schiebereglers für Basen, Temperatur und
Trägerharze eingefügt (Abbildung 7-3, rechts).
Bei der visuellen Exploration des Datensatzes konnten zunächst zwei grundsätzliche Ten-
denzen festgestellt werden. So zeigten zum einen Reaktionen, die bei höheren Temperaturen
(60 °C) durchgeführt wurden, deutlich niedrigere Ausbeuten als Ansätze bei Raumtemperatur
(Abbildung 7-5a). Zum anderen konnte beobachtet werden, dass Reaktionen auf Polystyrol-
harz ebenfalls zu kleineren Ausbeuten bzw. zu höheren Nebenproduktanteilen (kleine Objekt-
größen bzw. Ausbeuten in Kategorie 1) führten als die entsprechenden Reaktionen auf
Tentagel-Trägerharz (Abbildung 7-5b).
Abb. 7-5: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen bei 60 °C, b) Reaktionen auf Polystyrol-Harz (Farbabbildung: Anhang A, Abbildung A-15a, b).
168
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-6: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Kaliumhydroxid bei 23 °C auf Tentagel, b) Reaktionen mit Lithiumhydroxid bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15c, d).
Mit Hilfe des Basenfilters wurde anschließend der Einfluss der diversen Basen sowie der
Lösungsmitteleffekte genauer betrachtet. Dabei konnte eine Abnahme der Produktausbeuten
für die Basenreihenfolge KOH > NaOMe > LiOH > kein Base > iPr2EtN beobachtet werden
(Abbildung 7-6 und 7-7).
Die höchsten Aubeuten wurden im ChemCodes-Experiment mit Kaliumhydroxid in einem
4:1-Gemisch aus Ethanol und Wasser sowie mit reinem Ethanol als Lösungsmittel bei 23 °C
und unter Verwendung von Tentagel erzielt (Abbildung 7-6). In DMSO waren die Ausbeuten
aufgrund von Nebenreaktionen wesentlich geringer und in Dioxan wurde das Edukt schließ-
lich nur noch in geringen Maße umgesetzt (Abbildung 7-6a, grüne Kugel).
Der Einsatz von Lithiumhydroxid in Ethanol/Wasser zeigte im Gegensatz zu Kaliumhy-
droxid eine deutliche Zunahme der Nebenprodukte während die Reaktion in reinem Ethanol
zu unvermindert hohen Ausbeuten führte. Der Einsatz von Dioxan und DMSO zeigte hinge-
169
7 Anwendungsbeispiele
gen keine nennenswerte Umsetzung der Edukte (Abbildung 7-6b). Im Gegensatz zu mit Kali-
umhydroxid aktivierten Reaktionen konnten mit Lithiumhydroxid in Ethanol auch noch bei
hohen Reaktionstemperaturen moderate Ausbeuten erzielt werden.
Bei der Verwendung von Natriummethanolat konnten insbesondere in Ethanol/Wasser
sowie in DMSO hohe Ausbeuten erzielt werden. Entsprechende Reaktionen in Ethanol und
Dioxan führten allerdings zu geringeren Umsätzen sowie einer höheren Nebenproduktrate
(Abbildung 7-7a). Während diese Beobachtungen auf Ansätzen mit Tentagel beruhten, zeig-
ten die analogen Ansätze auf Polystyrol nur geringe Ausbeuten.
Abb. 7-7: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Natriummethanolat bei 23 °C auf Tentagel, b) Reaktionen ohne Zugabe von Basen bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15e, f).
Chalcon-Synthesen ohne Zugabe von Basen führten lediglich in DMSO bei 23 °C auf
Polystyrol zu einer Produktbildung (Abbildung 7-7b). Die Ansätze mit Diisopropylethylamin
wurden nicht näher betrachtet, da die entsprechenden Ansätze extrem fehlerbehaftet waren
170
7.1 ChemCodes-Reaktionsdatenbank
und große Unterschiede in den Ausbeuten zeigten. Die genaue Ursache hierfür ist uns nicht
bekannt.
7.1.2.4 Diskussion
ChemCodes nutzt zur Analyse und Auswertung der generierten Datensätze eine Vielzahl
sowohl externer Programme als auch eigene computergestützte Analysemethoden. Dennoch
gestaltet sich die Auswertung dieser Datensätze aufgrund der Datenmenge, aber vor allem
auch aufgrund des multidimensionalen Charakters der Daten oft umständlich und schwierig.
So wurde in der Vergangenheit der oben beschriebene Datensatz mit Hilfe von zweidimensio-
nalen Scatterplot-Darstellungen visualisiert und analysiert. Um eine gleichzeitige Darstellung
aller sechs Dimensionen (Lösungsmittel, Base, Temperatur. Trägerharz, Ausbeute und Reak-
tionskategorie) zu ermöglichen, war ein paralleles Abbilden mehrerer Datendimensionen auf
den x- und y-Achsen notwendig (z. B. Lösungsmittel und Reaktionskategorie auf der x-
Achse), was zu unübersichtlichen Darstellungen führte und letztendlich die visuelle Identifi-
kation der gewünschten Ergebnisse erschwerte (Abbildung 7-8).
Abb. 7-8: Spreadsheet-Darstellung (Spotfire [214]) mit ChemCodes-Datensatz [14].
171
7 Anwendungsbeispiele
Im Gegensatz zu solchen Standardvisualisierungsansätzen ist die Darstellung und Analyse
multidimensionaler und multivariater Datensätze im InfVis-Programm problemlos zu realisie-
ren. So können mit Hilfe der drei Raumdimensionen als auch durch die diversen Objekteigen-
schaften zahlreiche Dimensionen gleichzeitig dargestellt werden, ohne dabei den Benutzer
visuell zu überfordern. Der Einsatz aller zur Verfügung stehenden retinalen Eigenschaften ist
dabei nicht immer zwingend erforderlich und kann in einigen Fällen sogar unzweckmäßig
sein. So werden beispielsweise im obigen Ansatz nicht alle graphischen Eigenschaften
genutzt, um jeweils eine Datendimension abzubilden. Vielmehr dient sowohl die Objektfarbe
als auch die x-Achsenauftragung zur Vermittlung der Reaktionskategorie, während die unter-
schiedlichen Basen nicht durch ein eigenes graphisches Attribut symbolisiert werden. Eine
solche Entscheidung kann in einigen Fällen zu einer übersichtlicheren Darstellung der Daten-
punkte führen. Obwohl die Baseninformation auf diese Weise nicht direkt dargestellt werden
kann, steht mit Hilfe der Dynamic Query-Filter-Technologie ein geeignetes, alternatives
Werkzeug zur Verfügung, das eine Darstellung der Baseneinflüsse in der graphischen Szene
erlaubt. Dabei führen die vom Benutzer vorgenommenen Änderungen der Filtereinstellungen
zu einer unmittelbaren Aktualisierung der dargestellten Datenpunkte. Auf diese Weise kön-
nen auch mehr als die durch die sechs graphischen Eigenschaften darstellbaren Datendimen-
sionen visualisiert werden. Die Dynamic Query-Filter eignen sich nicht nur zur Analyse von
multidimensionalen Datensätzen, sondern erlauben auch eine schnelle Exploration großer
Datenmengen. So reichte im oben geschilderten Fall lediglich ein Mausklick auf dem Tempe-
ratur- bzw. Trägerharz-Filter aus, um die allgemeine Ausbeutenabnahme bei höheren Tempe-
raturen bzw. bei Verwendung von Polystyrol-Harz zu erkennen. Komplizierte
Fragestellungen, wie beispielsweise die Suche nach Reaktionsausbeuten unter Verwendung
von Kaliumhydroxid bei 23 °C auf Tentagelharz sind einfach durch Kombination der entspre-
chenden Filter möglich. Der oben geschilderte visuelle Data Mining-Prozess der 364 Einzel-
reaktionen benötigte daher lediglich ein paar Minuten.
Obwohl das Anwendungsbeispiel in erster Linie zur Darstellung der InfVis-Fähigkeiten
diente, sollen im Folgenden auch kurz die Ergebnisse des Data Mining-Prozesses diskutiert
werden. Der verwendete Datensatz zählte zu den ersten experimentellen Studien der Firma
ChemCodes und diente vor allem zur Evaluierung und Feinabstimmung des experimentellen
Workflows. Dies zeigt sich vor allem anhand der stark abweichenden Ergebnisse zwischen
Tentagel- und Polystyrol-basierten Reaktionen, was auf damalige, grundsätzliche Probleme
bei den Reaktionen auf Polystyrol-Trägerharzen schließen lässt. Darüber hinaus konnten zum
damaligen Zeitpunkt auch einige Reaktionen mit bestimmten Basen wie beispielsweise Diiso-
propylethylamin nicht in der gewünschten Form umgesetzt werden. Trotz dieser Probleme,
die heute zum größten Teil behoben sind, zeigt die visuelle Exploration des Datensatzes, dass
der Großteil der durchgeführten Reaktionen den veröffentlichten Daten entspricht bzw. allge-
172
7.1 ChemCodes-Reaktionsdatenbank
mein gültigen, chemischen Tendenzen wie den Lösungsmitteleffekten folgt. So lassen sich
beispielsweise die nicht bzw. nur in geringen Ausbeuten beobachteten Reaktionen in Dioxan
durch den unpolaren Charakter des Lösungsmittels erklären. Dieser führt zum einen zu einer
schlechteren Löslichkeit der ionischen Basen und verhindert zum anderen die Stabilisierung
der ionischen Zwischenstufe. Die im Vergleich mit Ethanol bzw. Ethanol/Wasser schlechteren
Ausbeuten von Reaktionen in Dimethylsulfoxid können auf die starke Solvatation der Metall-
atome durch Dimethylsulfoxid zurückgeführt werden. Die Solvatation erschwert dabei die
Bildung des cyclischen Übergangszustands, der sich aus dem Carbonyl- und dem Enolat-Sau-
erstoffatom sowie aus dem als Lewis-Säure fungierenden Kation zusammensetzt [244].
7.1.3 Reaktionsplanung
7.1.3.1 Zielsetzung
Neben der umfassenden Analyse spezifischer Reaktionsklassen erlaubt die ChemCodes-
Reaktionsdatenbank nach ihrer Fertigstellung ebenfalls die Lösung des Funktionelle-Grup-
pen-Kompatibilitätsproblems. Das Wissen über die Funktionelle-Gruppen-Kompatibilität
(FG-Kompatibilität) erlaubt eine hochselektive Reaktionsplanung. So kann der Syntheseche-
miker bei Vorlage eines Eduktes bzw. einer Vorstufe mit mehreren, reaktiven funktionellen
Gruppen genau die Reaktionsbedingungen aus der Datenbank abfragen, die lediglich zu einer
Umsetzung der gewünschten funktionellen Gruppe führen, während die anderen funktionel-
len Gruppen nicht beeinflusst werden. Auf diese Weise kann die Reaktion in einem einstufi-
gen Prozess durchgeführt werden und der aufwendige, mehrstufige Einsatz von
Schutzgruppen entfällt.
Da diese Information erst in einigen Jahren zur Verfügung stehen wird, wurde von
ChemCodes ein prototypischer Datensatz generiert, der das Potential eines solchen Ansatzes
verdeutlichen soll. Im vorliegenden Datensatz wurden dazu die 48 wichtigsten funktionellen
Gruppen mit 37 gängigen Reagenzien und 6 sogenannten Quenchern in 11 Lösungsmitteln
bei 25 °C umgesetzt. Die Reagenzien dienen dabei zur Aktivierung des reaktiven Zentrums
bzw. der funktionellen Gruppe, wobei die Reagenzienpalette so zusammengestellt wurde,
dass eine abgestufte Aktivierung beispielsweise durch unterschiedliche Säurestärken
gewährleistet ist. Auf diese Weise lassen sich Aussagen darüber treffen, wann eine bestimmte
funktionelle Gruppe noch aktiviert wird und wann nicht mehr.
Die aktivierten Gruppen werden schließlich durch die Quencher – prototypische,
hochreaktive Gegenreagenzien (elektrophil, nucleophil, etc.) – abgefangen und auf diese
Weise detektiert.
173
7 Anwendungsbeispiele
Die 126.115 Einzelreaktionen umfassende Datenbank wurde im vorliegenden Fall dazu
verwendet, um solche Reaktionsbedingungen zu identifizieren, die für eine beliebige Amino-
benzaldehyd-Verbindung nur zu einer Reaktion der enthaltenen Aminogruppe und nicht der
Aldehydgruppe oder des aromatischen Systems führten (Abbildung 7-9). Die Reaktionsbe-
dingungen sollten darüber hinaus jedoch mild genug sein, um nur die Bildung eines einzelnen
Hauptproduktes und keiner Nebenprodukte zu bewirken.
Abb. 7-9: Aminobenzaldehyd. Nur die markierte Aminogruppe soll umgesetzt werden.
7.1.3.2 Datenaufbereitung
Die experimentellen Daten der zahlreichen Einzelreaktionen wurden zunächst in Form
einer MySQL-Datenbank gespeichert. In einem zweiten Schritt wurden anschließend mit
Hilfe eines SQL-Befehls alle Reaktionsansätze gesucht, in denen die Aldehydgruppe, der
Phenylring oder auch die Aminogruppe umgesetzt wurden. Dieser 7.326 Einzelreaktionen
umfassende Datensatz wurde schließlich in die InfVis-Applikation eingelesen und visuell aus-
gewertet.
7.1.3.3 Visuelles Data Mining
Zur visuellen Analyse des Datensatzes wurden die Produktanzahl auf die x-Achse, die
Lösungsmittel auf die y-Achse und die drei funktionellen Gruppen auf die z-Achse des Koor-
dinatensystems aufgetragen. Während die Objektform ebenfalls die Anzahl der Produkte und
die Objektfarbe die jeweilige funktionelle Gruppe symbolisierte, wurde die Objektgröße nicht
zum Abbilden einer Datendimension genutzt (Abbildung 7-10). Vielmehr wurden alle Daten-
punkte durch graphische Objekte mit einer definierten Standardgröße dargestellt (Abbildung
7-11).
Neben den einzelnen graphischen Attributen kamen des Weiteren zwei dynamische Filter
zum Einsatz – zum einen ein Filter für die Reagenzien, der durch einen Schieberegler gesteu-
ert wird, sowie ein Checkbox-basiertes Filterwerkzeug für die unterschiedlichen Quencher.
N
H
H
O
H
174
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-10: Legende zur Abbildung 7-11.
Abb. 7-11: InfVis-Applikation mit gefilterten Reaktionsdatensatz: Reaktionen mit 1,3-Diisopropylcarbodi-amid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln. Alleinige Umsetzung der Aminogruppe nur in Toluol und N,N-Dimethylformamid (Farbabbildung: Anhang A, Abb. A-16).
Mit Hilfe der Filterfunktionen wurden im Folgenden alle Reagenzien-Quencher-Kombina-
tionen dargestellt und in den resultierenden 3D-Szenen nach solchen Lösungsmitteln gesucht,
in denen das gewünschte Produktverhältnis (Aminogruppe = 1 Produkt sowie Aldehyd und
Phenylring = kein Produkt) zwischen den drei funktionellen Gruppen vorlag. Abbildung 7-11
Aldehyd-Gruppe
Phenylring
Amino-Gruppe
Kein Produkt
Hauptrodukt
Produkt undNebenprodukt
175
7 Anwendungsbeispiele
zeigt eine solche Kombination. Dabei können für 1,3-Diisopropylcarboamid als Reagenz und
1-Phenyl-2-thioharnstoff als Quencher zwei Lösungsmittel (Toluol und N,N-Dimethylforma-
mid) identifiziert werden, in denen nur die Aminogruppe reagiert während der Phenylring
und die Aldehydgruppe unbeeinflusst bleiben.
Insgesamt konnten auf diese Weise 23 Reaktionen bzw. Reaktionsbedingungen für die
Aminogruppe identifiziert werden (Tabelle 7-2). Zwei entsprechende, visuelle Data Mining-
Ansätze für die Aldehyd- bzw. Phenylgruppe führten zur Identifikation von 17 bzw. 104
geeigneten Reaktionsbedingungen.
Lösungsmittel Reagenz QuencherWasser Kein Reagenz TrifluormethansulfonylchloridMethanol 1,3-Diisopropylcarbodiimid Kein QuencherN,N-Dimethylformamid 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffToluol 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffWasser Essigsäure PhenylisocyanatN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffPyridin Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol TrifluormethansulfonylchloridTetrahydrofuran Ammoniumchlorid Kein QuencherEssigsäure Bortrifluoriddiethyletherate ButylaminAcetonitril Chlortrimethylsilan Kein QuencherMethanol Diisobutylaluminiumhydrid 1-Phenyl-2-thioharnstoff
AcetonitrilWasserstoffperoxid, 50% in H2O
Butylamin
Essigsäure Methansulfonylchlorid 1-Phenyl-2-thioharnstoffN,N-Dimethylformamid Methanol StyrolN,N-Dimethylformamid Kaliumhydroxid, 35 % in Öl TrifluormethansulfonylchloridMethanol Kaliumhydroxid StyrolAcetonitril Kaliummethanolat TrifluormethansulfonylchloridN,N-Dimethylformamid Natriumazid Trifluormethansulfonylchlorid
AcetonitrilTetrabutylammoniumfluorid-hydrate
Styrol
Tetrahydrofuran Thionylchlorid 1-Phenyl-2-thioharnstoffPyridin Triethylamin TrifluormethansulfonylchloridEssigsäure Wasser Trifluormethansulfonylchlorid
Tab. 7-2: Reaktionsbedingungen die nur zur Umsetzung der Aminogruppe (Abbildung 7-9) führten.
176
7.1 ChemCodes-Reaktionsdatenbank
7.1.3.4 Diskussion
Für die Auswertung des Experiments wurde bis dato ein Online-Dienst eingesetzt, der in
Zusammenarbeit zwischen der Firma ChemCodes und dem Computer-Chemie-Centrum ent-
wickelt wurde. Die Datenbankausgaben wurden dabei in Form einer farblich gestalteten
Tabellendarstellung repräsentiert und konnten je nach Anzahl der eingesetzten funktionellen
Gruppen sowie der Auswahl der diversen Reaktionsbedingungen einige zehn bis hundert Sei-
ten umfassen. Trotz der farblichen Bewertung der Ergebnisse war eine Analyse großer Daten-
sätze wie beispielsweise des oben aufgeführten, 7.326 Datenpunkte umfassenden Datensatzes
extrem schwierig.
Im Gegensatz zur tabellarischen HTML-Darstellung konnten im InfVis-Programm alle
7.326 Reaktionsansätze kompakt und übersichtlich im dreidimensionalen Koordinatensystem
dargestellt werden. Beim Mapping der unterschiedlichen Datendimensionen auf die graphi-
schen Eigenschaften wurden wie auch beim Reaktionsdatensatz aus Abschnitt 7.1.2 nicht alle
in InfVis implementierten graphischen Dimensionen bzw. Eigenschaften verwendet. Tatsäch-
lich wurden lediglich drei der fünf Datendimensionen durch graphische Attribute repräsen-
tiert. Da keine Datendimension mit typischen "Größenwerten" wie beispielsweise Ausbeuten
oder Meßwerten existierte, wurde auf eine Nutzung der Objektgröße als retinale Eigenschaft
verzichtet. Auf diese Weise blieb die Szene übersichtlich und auf das Wesentliche nämlich
das Vorliegen oder Fehlen von Datenpunkten beschränkt. Dieses Beispiel zeigt auf anschauli-
che Weise, dass der Abbildungsvorgang stark vom Datensatz und der mit ihm verbundenen
Fragestellung abhängt. Natürlich spielen dabei auch persönliche Vorlieben des Benutzers eine
entscheidende Rolle. So könnte ein anderer Anwender eine andere Auftragung der Daten
bevorzugen.
Das ChemCodes-Experiment basierte lediglich auf Einzelreaktionen der eingesetzten
funktionellen Gruppen, so dass die in Tabelle 7-2 aufgelisteten Reaktionsbedingungen nur
mit Vorsicht zu betrachten sind. Induktive oder elektronische Effekte zwischen den einzelnen
funktionellen Gruppen oder zwischen den funktionellen Gruppen und dem aromatischen
Ringsystem konnten durch den experimentellen Ansatz nicht berücksichtigt werden. Aus die-
sem Grund wurde auch die Stellung (ortho, meta, para) der funktionellen Gruppen zueinander
nicht berücksichtigt. Obwohl die chemische Reaktivität der funktionellen Gruppen nur unzu-
reichend und stark verallgemeinert repräsentiert wird, zeigt der Datensatz sowie dessen visu-
elle Analyse das eigentliche Potential der ChemCodes-Reaktionsdatenbank. Nach der
Fertigstellung der Datenbank werden auch aufwendige Fragestellungen sowie komplexe
Wechselwirkungen zwischen den funktionellen Gruppen berücksichtigt werden können.
177
7 Anwendungsbeispiele
7.2 NCI Antitumor-Screening-Datenbank
7.2.1 Zielsetzung und Aufbau der Datenbank
Die Bekämpfung von Krebs zählt zu den größten Anliegen der modernen Medizin. Ein
Ansatz zur Identifikation neuer Wirkstoffe war und ist dabei das sogenannte Screening von
Naturstoffen und synthetischen Verbindungen, bei dem die biologische Aktivität der entspre-
chenden Verbindung gegen bestimmte Krebszelllinien ermittelt wird. Vor 1985 wurde der
Screeningprozess an Mäusen durchgeführt, welche die Leukämie-P388-Zelllinie trugen. Ein
Hauptproblem dieses Ansatzes war jedoch die Unsicherheit, ob die gefundenen potentiellen
Wirkstoffe auch gegen menschliche Krebsarten wirkten.
Zwischen 1985 und 1990 wurde deshalb am amerikanischen Krebsforschungsinstitut ein
alternativer Screeningansatz zum üblichen in vivo Experiment entwickelt – der NCI in vitro
Anticancer Drug Discovery Screen [203, 204]. Dieses im April 1990 von Drug Therapeutics
Program [202] fertiggestellte in vitro Experiment umfasste dabei verschiedene menschliche
Krebszelllinien, die sowohl eine repräsentative Auswahl der wichtigsten Krebsarten wie
Brust-, Lungen-, Eierstock-, Prostata-, Augen- und Darmkrebs, Leukämie, Melanome und
Krebsarten des Zentralen Nervensystems als auch der diversen biochemischen Wirkungsme-
chanismen darstellte. Nach einer dreijährigen Erprobungsphase wurden weitere acht Brust-
krebsarten sowie zwei Prostatakrebszelllinien in den Screeningtest integriert. Um weiterhin
eine konstante Gesamtzahl von 60 Zelllinien zu gewährleisten, wurden im Gegenzug zehn
Krebszelllinien entfernt, die entweder redundant oder technisch schwierig zu handhaben
waren. Eine Übersicht der aktuellen Krebszelllinien kann Anhang C entnommen werden. Seit
seiner Einführung wurden über 80.000 chemische Verbindungen analysiert, von denen 41.000
öffentlich zugänglich sind (Stand: April 2002).
Die Ermittlung der drei bereits in Kapitel 6 (vgl. Abschnitt 6.1.2) beschriebenen biologi-
schen Aktivitäten (GI50, TGI, LC50) für alle 60 Krebszelllinien erlaubt die Generierung
eines eindeutigen, hochspezifischen Wirkungsvektors, der daher auch als Fingerabdruck
(engl. Fingerprint) bezeichnet wird. Diese für eine bestimmte Verbindung charakteristischen
Fingerprints spiegeln das Wirkungsverhalten einer Substanz wider und werden unter anderen
in quantitativen Struktur-Aktivitäts-Beziehungs-Studien (engl.: quantitative structure activity
relations, QSAR) eingesetzt. Grundlage solcher Untersuchungen ist die Annahme, dass struk-
turell ähnliche Verbindungen über ähnliche molekulare Eigenschaften verfügen und somit
auch ähnliche biologische Effekte hervorrufen können [245]. Zahlreiche QSAR- und Data
Mining-Studien wurden in den letzten Jahren mit den Daten der NCI-Datenbank durchgeführt
und führten unter anderen zur Identifikation neuer Wirkstoffverbindungen in bereits definier-
178
7.2 NCI Antitumor-Screening-Datenbank
ten Klassen mit bekannten biochemischen Mechanismen. Darüber hinaus konnten durch diese
Studien aber auch neue mechanistische Klassen identifiziert werden.
7.2.2 QSAR-Studien mit Platin-Verbindungen
7.2.2.1 Zielsetzung
Wie bereits im vorausgegangenen Abschnitt erläutert wurde, können strukturell ähnliche
Verbindungen ein ähnliches Wirkungsmuster aufweisen. Trotz dieser allgemein gültigen
Struktur-Wirkungs-Beziehung wurden auch Verbindungsklassen identifiziert, die trotz eines
ähnlichen bzw. identischen Aktivitätsmechanismus (engl.: mechanism of action, MOA) sich
aus strukturell diversen Verbindungen zusammensetzen. Analog dazu wurden ebenfalls struk-
turell ähnliche Verbindungen klassifiziert, die unterschiedliche Wirkungsmuster aufweisen.
Die unterschiedlichen Ausprägungen von Struktur-Aktivitätsbeziehungen sollen anhand
der in der NCI-Datenbank enthaltenen Platin-Verbindungen veranschaulicht werden. Ähnli-
che Wirkungsmuster sollen dabei mit Hilfe des InfVis-Programms identifiziert und zu eigen-
ständigen Teildatensätzen zusammengefasst werden. Die gefundenen Aktivitätscluster sollen
schließlich unter Berücksichtigung der zweidimensionalen Strukturinformation interpretiert
werden. Die Klasse der Platinverbindungen wurden gewählt, weil die NCI-Datenbank sowohl
hochwirksame Platin-Cancerostatika als auch biologisch inaktive Platinverbindungen enthält.
7.2.2.2 Datenaufbereitung
Grundlage für die visuelle Analyse und Clusterung der Platinverbindungen waren die zwei
im vorangegangenen Kapitel erwähnten NCI-Datenbanken (CACTVS-basierte und MySQL-
basierte NCI-Datenbank). In einem ersten Schritt wurden von den 1381 in der NCI-Daten-
bank enthaltenen Platinverbindungen solche Strukturen isoliert, zu denen auch biologische
Aktivitätsdaten in der MySQL-Datenbank vorlagen. Da nicht für alle resultierenden 346 Ver-
bindungen alle drei Aktivitätswerte (GI50, LC50 und TGI) vorhanden waren, wurde der
Datensatz erneut auf die Verbindungen eingegrenzt, die sowohl über GI50-, LC50- und TGI-
Werte verfügten.
Zu den 150 verbliebenen Strukturen wurden in einem zweiten Schritt die zugehörigen bio-
logischen Aktivitätsdaten für alle 60 Krebszelllinien aus der MySQL-Datenbank entnommen.
Der auf diese Weise erhaltene Datensatz wurde im Anschluss von allen Aktivitätsdaten bzw.
Verbindungen befreit, die nicht bei der Standardkonzentration (0.001 mol/l) vermessen wur-
den. Durch diese Vorgehensweise war ein problemloser Vergleich aller Aktivitätsdaten
sichergestellt. Da für die vergleichende Betrachtung der Aktivitätsdaten vor allem der wachs-
179
7 Anwendungsbeispiele
tumshemmende Effekt von Bedeutung ist, wurden die entsprechenden GI50-Werte aus dem
Datensatz extrahiert. Diese Werte wurden jedoch nicht direkt bei der visuellen Analyse ver-
wendet sondern vorher in einem letzten Aufarbeitungsschritt in die Mean-Graph-Repräsenta-
tion [206] überführt. Diese relative bzw. "Fingerprint"-Darstellung der Aktivitätsdaten hebt
dabei die spezifischen Effekte einer einzelnen Verbindungen gegenüber einer bestimmten
Krebszelllinie im Gegensatz zur direkten (absoluten) Auftragung hervor und ermöglicht
somit eine bessere Klassifizierung der Wirkungsmuster.
7.2.2.3 Visuelles Data Mining
Zur visuellen Mustererkennung und Clusterung der Aktivitätsdaten wurden die Platinver-
bindungen auf die x-Achse, die Krebszelllinien auf die z-Achse und die relativen Aktivitäten
auf die y-Achse aufgetragen. Die Objektfarbe wurde ebenfalls zur Hervorhebung der relati-
ven Aktivitätswerte verwendet (Abbildung 7-13). Objektgröße und Objektform wurden nicht
zum Abbilden von Datendimensionen eingesetzt (Abbildung 7-12).
Abb. 7-12: InfVis-Programm mit 2939 GI50-Aktivitätswerten. Aufsicht auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene, Auftragung der Verbindungen verläuft in Blickrichtung des Betrachters)(Farbabbildung: Anhang A, Abbildung A-17).
Abb. 7-13: Legende für die Abbildungen 7-12, 7-14 - 7-18.
ÜberdurchschnittlicheAktivität
UnterdurchschnittlicheAktivität
180
7.2 NCI Antitumor-Screening-Datenbank
Mit Hilfe eines dynamischen, Checkbox-Filters wurden die Aktivitätsmuster der einzelnen
Verbindungen bewertet und Strukturen mit ähnlichen Wirkungsmuster zu Teildatensätzen
zusammengefasst.
Um die spezifischen Aktivitäten einer einzelnen Verbindung gegenüber allen Krebszellli-
nien zu identifizieren, wurde die dreidimensionale Szene so ausgerichtet, dass eine Aufsicht
auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene) gewährleistet war. Die Auftragung
der einzelnen Verbindungen verlief dabei in Blickrichtung des Betrachters. Überdurchschnitt-
lich hohe Aktivitäten gegenüber spezifischen Krebszellen wurden bei der relativen Aktivitäts-
darstellung durch graphische Objekte oberhalb der y-Achsen-Nullpunktebene dargestellt,
während Objekte unterhalb der Ebene unterdurchschnittliche Aktivitäten symbolisierten
(Abbildung 7-12). Diese Darstellungsform gewährleistete ebenfalls einen bestmöglichen Ver-
gleich der Verbindungs-spezifischen Wirkungsmuster. Neben der relativen GI50-Darstellung
wurden auch die absoluten Werte der GI50-, LC50- und TGI-Aktivitäten der isolierten Clu-
ster dargestellt (Abbildungen 7-14-7-18).
Bei der visuellen Analyse des Datensatzes konnten zunächst drei Ausreisserdaten aufgrund
ihrer unverhältnismässigen Aktivitäten identifiziert werden, die vor einer weiteren Bearbei-
tung des Datensatzes entfernt wurden. Die verbliebenen 2936 Datenpunkte wurden anschlie-
ßend hinsichtlich ihrer Aktivitätsähnlichkeiten in fünf Verbindungsklassen unterteilt. Die
einzelnen Cluster sowie die Auswahlkriterien, die zu ihrer Isolierung führten, werden im Fol-
genden näher beschrieben.
In einem ersten Schritt wurden zunächst solche Verbindungen isoliert, die gegenüber allen
Krebszelllinien keine nennenswerte Wachstumsinhibition (GI50-Aktivitäten) zeigten (Abbil-
dung 7-14a (relative Aktivitäten) und 7-14b (absolute Aktivitäten)). Dieses Ergebnis konnte
auch, wie erwartet, anhand der Aktivitäten der korrespondierenden LC50- und TGI-Werte
bestätigt werden (Abbildung 7-14c,d). Der Cluster umfasste dabei insgesamt 33 inaktive Ver-
bindungen (vgl. Anhang D).
Im Anschluss wurden 15 weitere Verbindungen identifiziert, die ebenfalls gegenüber dem
Großteil der getesteten Krebszellen keine Aktivität aufwiesen. Im Gegensatz zu den Struktu-
ren aus der ersten Gruppe zeigten diese Verbindungen jedoch gegenüber ein bis zwei verein-
zelten Krebszelllinien hohe Aktivitätswerte. Interessanterweise wies dabei jede Verbindung
gegenüber einer anderen Krebsart dieses Verhalten auf, was das Vorliegen von Meßfehlern
vermuten ließ (Abbildung 7-15a,b). Da jedoch auch die entsprechenden LC50- und TGI-
Werte dieses Verhalten teilweise bestätigten (Abbildung 7-15c,d), wurden die identifizierten
Verbindungen in einen eigenständigen Cluster zusammengefasst, um eine spätere Analyse
mit Hilfe der Strukturinformation zu gewährleisten.
181
7 Anwendungsbeispiele
Abb. 7-14: InfVis-Programm mit Cluster 1 (33 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18a).
Abb. 7-15: InfVis-Programm mit Cluster 2 (15 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18b).
182
7.2 NCI Antitumor-Screening-Datenbank
Abb. 7-16: InfVis-Programm mit Cluster 3 (50 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18c).
Abb. 7-17: InfVis-Programm mit Cluster 4 (26 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18d).
183
7 Anwendungsbeispiele
Abb. 7-18: InfVis-Programm mit Cluster 5 (14 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18e).
Im Gegensatz zu den beiden zuvor isolierten Verbindungsklassen zeigten die verbliebenen
Strukturen sowohl über- als auch unterdurchschnittliche Wachstumsaktivitäten gegenüber
allen getesteten Krebszelllinien. Dabei konnten jedoch keine hochselektiven Effekte gegen-
über spezifischen Krebszellen, wie sie von anderen Verbindungsklassen bekannt sind [246],
festgestellt werden. Vielmehr variierten die Aktivitätswerte sehr stark über das gesamte
Krebszellenspektrum. Um dennoch eine weitere Unterteilung der verbliebenen 109 Verbin-
dungen zu ermöglichen, wurden bestimmte Grenzwerte für ausgewählte Krebszelllinien defi-
niert, die für die Zugehörigkeit zu einem Cluster nicht über- bzw. unterschritten werden
durften. Als besonders geeignet erschienen dabei die beiden Leukämiezelllinien SR (2. verti-
kale Kugelreihe von links, Abbildung 7-16a,b) und K-562 (16. Reihe von links, Abbildung 7-
16a).
Zunächst wurden dabei solche Verbindungen identifiziert, die sowohl überdurchschnitt-
liche Aktivitäten für SR als auch für K-562 aufwiesen. Darüber hinaus sollten die jeweiligen
Aktivitäten der restlichen Krebszellen zwischen den einzelnen Verbindungen tendenziell
übereinstimmen und in einem begrenzten Wertebereich vorliegen. Strukturen mit hohen Akti-
vitäten für SR und K-522 aber stark abweichenden Aktivitätswerten für eine andere Zelllinien
wurden deshalb nicht im dritten Teildatensatz berücksichtigt. Auf diese Weise konnten
schließlich 50 weitere Platinverbindungen isoliert werden (Abbildung 7-16, vgl. Anhang D).
184
7.2 NCI Antitumor-Screening-Datenbank
Die entsprechenden LC50- und TGI-Werte waren erwartungsgemäß kleiner und zeigten zum
Teil ein leicht verändertes Wirkungsprofil (Abbildung 7-16c,d).
Analog zu der für Cluster 3 beschriebenen Vorgehensweise wurden 26 weitere Platinver-
bindungen isoliert, welche über überdurchschnittliche Aktivitätswerte gegenüber SR und
unterdurchschnittliche GI50-Werte für K-562 verfügten (Abbildung 7-17, vgl. Anhang D).
Dabei wurden auch in diesem Fall Verbindungen mit stark abweichenden Aktivitätswerten für
andere Krebszelllinien nicht im Teildatensatz berücksichtigt.
Die 14 restlichen Verbindungen wurden schließlich zu einer fünften Verbindungsklasse
zusammengefasst (Abbildung 7-18, vgl. Anhang D). Nach Abschluss der visuellen Cluste-
rung wurden die jeweiligen Verbindungsgruppen mit Hilfe der zweidimensionalen Strukturin-
formation (vgl. Anhang D) bewertet und interpretiert.
7.2.2.4 Auswertung und Diskussion
Der cytostatische bzw. cytotoxische Effekt einiger Platinverbindungen wie beispielsweise
cis-Diaminodichloroplatin(II) (cis-Platin, DDP) oder 1,2-Cyclohexandiamintetrachloroplatin
(Tetraplatin) wurde früh erkannt und bereits Ende der Siebziger Jahre zur therapeutischen
Behandlung von Krebspatienten genutzt [247, 248]. Die Platinverbindungen zählen dabei zu
der Klasse der alkylierenden Cancerostatika und wirken, indem sie direkt an die Nukleoside
(vor allem Guanosin) der DNA binden und diese somit schädigen. Aus diesem Grund wirken
Platinverbindungen nicht selektiv gegen bestimmte Zelllinien sondern auf das ganze Spek-
trum an Zelllinien, was auch bei der Betrachtung der Wirkungsmuster im vorangegangenen
Abschnitt deutlich wurde. Dieses unspezifische Wirkungsverhalten kann bei vielen DNA-
schädigenden Verbindungsklassen beobachtet werden [246]. Obwohl einige Platinverbindun-
gen zu den wirksamsten Cancerostatika zählen und daher auch zu den Standardwirkstoffen in
der Chemotherapie zählen, zeigen nicht alle Vertreter dieser Verbindungsklasse einen cytosta-
tischen Effekt. Besonders auffällig ist dabei die unterschiedliche Wirksamkeit der cis- und
trans-Form von Diaminodichloroplatin(II).
Unter Verwendung der zweidimensionalen Strukturinformation wurden die mit Hilfe des
InfVis-Programms generierten Cluster qualitativ analysiert. Dabei wurde hinterfragt, ob mit
Hilfe des visuellen Clusterings eine Trennung der aktiven und inaktiven Strukturen möglich
ist und ob dieser Prozess darüber hinaus eine weitere Unterteilung der aktiven Verbindungen
gestattet.
Zu den Verbindungen des ersten Clusters (vgl. Anhang D) zählt zum einen die nicht wirk-
same trans-Form des Diaminodichloroplatins (NSC131558). Darüber hinaus enthält der Clu-
ster diverse Strukturen mit großen und käfigartigen Ringsystemen (z.B. NSC631895,
185
7 Anwendungsbeispiele
NSC532607, NSC685548), die wahrscheinlich aus sterischen Gründen eine Schädigung der
DNA verhindern. Eine weitere Gruppe inaktiver Strukturen stellen Platinkomplexe dar, in
denen das Platin durch Amino- und/oder Hydroxygruppen von Phosphon- und Aminophos-
phonsäurederivaten koordinativ gebunden ist (z.B. NSC627008, NSC632612, 639614). Des
Weiteren zeigen auch Bisaminoethylsilanderivate keine biologische Aktivität (NSC643120,
NSC643121). Allerdings konnten aktive, kürzerkettige Silanderivate in den nachfolgenden
Clustern identifiziert werden. Schließlich enthält der Cluster noch eine Gruppe von 1,2-Dia-
mincyclohexan-Derivaten (z.B. NSC623314, NSC623321). Da von dieser Verbindungsklasse
auch aktive Vertreter bekannt sind, liegt die Vermutung nahe, dass es sich bei den isolierten
Strukturen um inaktive Konformere handelt.
Bei der Betrachtung der Strukturen aus Cluster 2 (vgl. Anhang D) können vor allem Ver-
bindungsklassen wie Phosphonsäure- (z.B. NSC632614), Diamincyclohexan- (z.B.
NSC623320) und Silanderivate (z.B. NSC643122) identifiziert werden, die auch in Cluster 1
vertreten sind. Diese Beobachtung bestätigt somit die anfängliche Vermutung, dass es sich bei
den Strukturen aus Cluster 2 ebenfalls um inaktive Substanzen handelt, deren beobachtete,
selektive Aktivität für einzelne Krebszelllinien auf experimentelle Meßfehler zurückzuführen
sein dürfte. Diese Vermutung wird auch durch das generell unspezifische Wirkungsverhalten
von Platin enthaltenen Cancerostatika bekräftigt. Neben den bereits erwähnten Verbindungs-
klassen wurde noch eine weitere interessante Verbindung identifiziert – NSC644190. Die
inaktive, DMSO enthaltene Verbindung ist deshalb interessant, da auch in diesem Fall aktive,
strukturell ähnliche Verbindungen isoliert werden konnten (siehe Cluster 3). Der Aktivitäts-
unterschied ist dabei wahrscheinlich auch auf konformative Unterschiede zurückzuführen.
Bei der Analyse des ersten Clusters mit aktiven Verbindungen (Cluster 3) können zunächst
zwei große Strukturklassen identifiziert werden – Aminocyclohexanderivate (11 Verbindun-
gen) und Aminomethylsilanderivate (12 Verbindungen). Im Gegensatz zu den in Cluster 1
und 2 enthaltenen Cyclohexanverbindungen scheinen die analogen Strukturen dieses Clusters
in der aktiven Konformerform vorzuliegen. Allerdings scheinen einige dieser Derivate jedoch
sowohl in der cis- als auch in der trans-Form aktiv zu sein, was die parallele Existenz der bei-
den Verbindungen NSC265459 und NSC265460 im Cluster erklärt. Leider lässt sich diese
Fragestellung aufgrund fehlender genauerer struktureller Information nicht endgültig klären.
Die Strukturklasse enthält darüber hinaus zwei bekannte Vertreter der Antitumor-Standard-
wirkstofftabelle des DTP (NSC271674 und NSC363812). Bei den Derivaten der Aminosilan-
verbindungen scheint die Aktivität von der Länge der am Platin koordinierten
Aminoalkanketten abzuhängen. Während die Aminoethylsilane aus dem ersten und zweiten
Cluster noch keine Aktivität zeigten, können für die Aminomethylsilane (z.B. NSC603577)
des dritten Clusters hohe Aktivitäten festgestellt werden. Ob die Koordination des Platina-
toms dabei über zwei offenkettige Monoaminomethylsilane oder durch ein einzelnes Bis(ami-
186
7.2 NCI Antitumor-Screening-Datenbank
nomethyl)silan erfolgt, scheint dabei keine Rolle zu spielen. Neben den beiden großen
Substanzklassen können des Weiteren fünf Chinolin- (z.B. NSC632790), drei Thiazol- (z.B.
NSC641054) und drei Phosphinderivate (z.B. NSC685468), einige DMSO- (z.B.
NSC644188) und Anilin-haltige Komplexe sowie einige Schwefelderivate wie Thiocarbon-
säuren und Sulfoxide identifiziert werden. Die Aktivität der Platin-DMSO-Komplexe scheint
dabei auch in diesem Fall auf konformative Unterschiede zu basieren, da strukturell ähnliche
Verbindungen in Cluster 1 und 2 keine biologische Aktivität zeigten.
Der vierte isolierte Cluster enthält unter anderen den wohl bekanntesten, cancerostatischen
Vertreter der Platinverbindungen – das cis-Platin (NSC119875). Neben ähnlich kleinen Kom-
plexen wie dem Diaminodibromoplatin (NSC141523) und dem Bis(aziridin)dichloroplatin
(NSC170896) beinhaltet der Cluster auch diverse Platin-Sauerstoff-koordinierte Verbindun-
gen wie beispielsweise die beiden Antitumor-Standardwirkstoffe 1,1-Cyclobutandicarboxyla-
toplatin (NSC241240) und 2-Propanamindichlorodihydroxoplatin (NSC256927). Darüber
hinaus enthält der Cluster auch einige größere Komplexsysteme und Käfigstrukturen (z.B.
NSC683426), ionische Verbindungen sowie Zinn- und Selen-Komplexe (z.B. NSC626669).
Allerdings finden sich auch bekannte Verbindungsmotive aus dem dritten Cluster wie bei-
spielsweise eine Phosphin- (NSC615542), eine Silan- (NSC645355) und einige Diamincyclo-
hexan-Verbindungen (z.B. NSC623317). Letztere Vertreter lassen darauf schliessen, dass der
Verlauf der biologischen Aktivitäten zwischen den beiden Clustern verschwommen und eine
eindeutige Zuordnung der Verbindungen daher ausgeschlossen ist. Im Vergleich mit dem drit-
ten Cluster kann in der vorliegenden Gruppierung eine größere Anzahl an kleinen, offenketti-
gen Platinkomplexen festgestellt werden.
Der letzte Cluster enthält unter anderen, bis auf einen Vertreter, alle Imidazolderivate der
untersuchten Platinverbindungen (z.B. NSC647619). Die nicht enthaltene Imidazolverbin-
dung (NSC647615) wurde dem dritten Cluster zugeordnet. Im Gegenzug enthält der fünfte
Cluster eine Thiazolverbindung (NSC641053), während die übrigen Vertreter dieser Verbin-
dungsklasse im dritten Cluster enthalten sind. Dies lässt auf eine enge Beziehung zwischen
Cluster 3 und Cluster 5 schließen. Eine weitere interessante Verbindungsklasse stellen die
beiden Aminosilane des Clusters dar. Während im ersten und zweiten Cluster nur inaktive
Aminoethylsilanderivate und in den Clustern 3 und 4 nur aktive Aminomethylsilane identifi-
ziert werden konnten, handelt es sich bei den vorliegenden Silanen um Platinverbindungen, in
denen das Platinatom sowohl über eine Aminoethyl- als auch über eine Aminomethylkette
koordiniert wird. Wie auch in allen zuvor beschriebenen Clustern enthält Cluster 5 eine Reihe
von Aminocyclohexanderivaten (z.B. NSC255917). Offensichtlich neigt diese Verbindungs-
klasse zu stark unterschiedlichen Aktivitätsmustern, was eine eindeutige Zuordnung der
Strukturen unmöglich macht.
187
7 Anwendungsbeispiele
Obwohl Platinverbindungen aufgrund ihres Wirkungsmechanismus im Allgemeinen
unspezifisch und gleichförmig gegen alle Krebszelllinien wirken, konnten mit Hilfe des visu-
ellen Data Minings fünf Verbindungscluster identifiziert werden. Dabei konnte zum einen
sicher zwischen aktiven und inaktiven Verbindungsvertretern unterschieden werden. Darüber
hinaus konnten die aktiven Platinstrukturen in drei weitere Untergruppen aufgeteilt werden.
Diese visuelle Aufteilung der aktiven Substanzen führte dabei für die in dem Datensatz ent-
haltenen Antitumor-Standardwirkstoffe zu den gleichen Ergebnissen, wie sie auch von ande-
ren Arbeitsgruppen mit klassischen QSAR-Studien erarbeitet wurden [246]. Dies spricht
letztendlich für die Qualität des visuellen Ansatzes. Der postulierte Zusammenhang zwischen
Struktur und Aktivität konnte in vielen Fällen nachgewiesen werden, da bestimmte Strukturen
ausschließlich oder zumindestens mit hohem Anteil in einem einzigen Cluster vorlagen. Bei-
spiele für entsprechende Struktur-Aktivitäts-Beziehungen sind die Thiazol-, Chinolin- und
Pyridinderivate im Cluster 3 sowie die Imidazolderivate in Cluster 5. Allerdings konnten
auch Ausnahmefälle von diesem Prinzip beobachtet werden. So enthielten zum einen biolo-
gisch ähnliche Cluster strukturell stark diverse Verbindungen, während zum anderen ähnliche
Strukturmotive wie beispielsweise die Aminocyclohexanderivate in vielen Clustern wieder-
gefunden wurden und vollkommen unterschiedliche biologische Aktivitäten zeigten.
188
Kapitel 8
Zusammenfassung
Neben der praktischen Labortätigkeit zeichnet sich die chemische Forschung in der Regel
durch die schnelle, zuverlässige und vollständige Abfrage und Analyse von bereits bestehen-
den Literaturangaben, Lehrbuchwissen sowie Struktur- und Aktivitätsdaten aus. Während in
den Anfängen der klassischen Chemie lediglich auf papierbasierte, zweidimensionale Struk-
turdaten und textuelle Information zugegriffen wurde, reichen solche Darstellungsformen und
Medien heute insbesondere in der Pharmaforschung und Biochemie nicht mehr zum Ver-
ständnis und zur Analyse komplexer Sachverhalte aus. Zur Lösung dieser Problematik nutzen
Chemiker daher seit langem die Möglichkeiten der computergestützten Visualisierung, wobei
heute eine fast unüberschaubare Auswahl an kommerziellen und frei verfügbaren Anwendun-
gen zur Darstellung und visuellen Analyse von molekularen Eigenschaften, Oberflächen und
Dynamiken zur Verfügung steht. Diese Applikationen dienen jedoch in der Regel zur Lösung
einzelner, spezifischer Frage- und Problemstellungen und sind im Allgemeinen zueinander
nicht kompatibel, was den essentiellen Informationsfluss und -austausch von chemischen
Daten stark beeinträchtigt oder sogar verhindert. Insbesondere seit der durch automatisierte
Laborsysteme generierten Informationsflut hat diese Situation an Brisanz gewonnen. Um
einen einfachen, standardisierten und Datenzugriff zu gewährleisten, kommen in der chemi-
schen Industrie heute zunehmend portable Informationsmanagement- und Visualisierungs-
Systeme zum Einsatz. Da die bis dato erhältlichen portablen Standardapplikationen zur
Visualisierung chemischer Daten lediglich einfache, rudimentäre Strukturdarstellungen sowie
in Ausnahmefällen auch eine begrenzte Visualisierung komplexer Datenobjekte wie Oberflä-
chen erlauben, ist die Entwicklung plattformunabhängiger Visualisierungsanwendungen
heute dringend erforderlich.
Das Potential interaktiver und portabler Visualisierungssoftware wurde dabei nicht nur in
der chemischen Industrie erkannt, sondern wird in zunehmenden Maße von akademischen
Einrichtungen zur didaktischen Vermittlung von chemischen Daten eingesetzt. Statische und
animierte, dreidimensionale Szenen, die ein hohes Maß an Interaktion erlauben, ermöglichen
189
8 Zusammenfassung
dabei eine wesentlich leichtere Vermittlung von theoretischen, abstrakten und komplexen
Sachverhalten.
In der vorliegenden Arbeit wurden zum einen portable, sich an Internet-Standards orientie-
rende Methoden und Applikationen entwickelt, die eine dynamische und interaktive 3D-
Visualisierung chemischer Datenobjekte erlauben. Im Wesentlichen wurden dabei drei unter-
schiedliche Client-Server-Strategien zur verteilten Vermittlung und Visualisierung von Daten
herausgearbeitet und in Form diverser Applikationen eingesetzt.
Hybride Client-Server-Strategien ermöglichen eine ausgewogene Verteilung der einzelnen
Visualisierungsschritte zwischen Client und Server und gestatten eine optimale Nutzung der
sowohl Client- als auch Server-seitig vorhandenen Hardware-Kapazitäten. Diese Strategie
diente dabei in den Anwendungen VRML File Creator for Chemical Structures, VRML-Ani-
mationsgenerator, ComSpec3D und MolSurf als Grundlage für den Visualisierungsprozess.
Der VRML File Creator ermöglicht eine 3D-Darstellung molekularer Strukturen und Eigen-
schaften unter Verwendung der Virtual Reality Markup Language (VRML), wobei die Ein-
gabe der entsprechenden Strukturinformation durch einen Java-Editor, SMILES-Strings oder
durch diverse, chemische Austauschformate erfolgen kann. Neben der Realisierung verschie-
dener Strukturdarstellungen ermöglicht der Service die codierte Einbettung von chemischen
Originaldaten wie beispielsweise Koordinaten oder molekularen Eigenschaften in die dreidi-
mensionale Szene, wodurch eine Weiterverarbeitung der Information durch andere Applika-
tionen gewährleistet ist. Der VRML-Animationsgenerator gestattet die Generierung von
molekularen VRML-Animationen und erlaubt somit eine plattformunabhängige Darstellung
von Reaktionspfaden und Moleküldynamiken. Die Dateneingabe erfolgt dabei über das mul-
tiple XYZ-Trajektorienformat. Der Online-Dienst ComSpec3D wurde zur Darstellung von
Raman- und IR-Spektren sowie der korrespondierenden Normalschwingungen entwickelt. Er
wurde dabei insbesondere für den Einsatz an Universitäten und Schulen konzipiert. Die
Applikation ermöglicht die Eingabe fast beliebiger Strukturen und berechnet mit Hilfe des
QM-Programms VAMP Raman- und Infrarot-Spektren sowie die entsprechenden Daten der
Normalschwingungen. Der Benutzer kann sich anschließend für jeden Peak die zugehörige
Normalschwingung als animierte VRML-Szene anzeigen lassen, wobei auch der Einfluss der
Kraftkonstante auf die Schwingungsfrequenz dargestellt werden kann. Der Web-Service Mol-
Surf basiert ebenfalls auf einem hybriden Ansatz. MolSurf ermöglicht die Berechnung und
3D-Visualisierung molekularer Oberflächen sowie des elektrostatischen Potentials von fast
beliebigen Molekülen. Die Oberfläche kann dabei zum einen in verschiedenen Darstellungs-
formen als auch mit diversen Farbpaletten dargestellt werden. Darüber hinaus enthält der Ser-
vice Funktionen, die einen normierten Vergleich von Oberflächeneigenschaften zwischen
verschiedenen Molekülen erlauben. Letztere Funktion ist insbesondere im Unterricht zur Ver-
deutlichung von induktiven Effekten vorteilhaft.
190
Client-seitige Strategien verlagern den gesamten Visualisierungsprozess auf den Client.
Dabei müssen sowohl die chemischen Originaldaten als auch die notwendigen Visualisie-
rungsalgorithmen auf das Clientsystem transferiert werden. Der wesentliche Vorteil dieses
Ansatzes ist die Nutzung lokal vorhandener Rechen- und Graphikressourcen, die insbeson-
dere in den letzten Jahren eine enorme Steigerung erfahren haben. Die Strategie bietet darüber
hinaus das größte Maß an Benutzerinteraktion. Ein entsprechender Ansatz wurde im Fall der
OrbVis-Applikation genutzt. OrbVis wurde ebenso wie ComSpec3D zur Darstellung von
quantenchemischen Zusammenhängen entwickelt und erlaubt die portable und interaktive
Berechnung und Visualisierung von Molekülorbitalen. Nach Eingabe der Strukturinformation
durch einen Java-Editor oder mittels SMILES-Strings berechnet der Online-Dienst die zuge-
hörigen Eigenwerte und Orbitalkoeffizienten (VAMP). Diese werden schließlich zusammen
mit einem Java-Applet an den Client übermittelt. Die Berechnung und dreidimensionale Dar-
stellung der Molekülorbitale erfolgt dabei vollständig auf dem Client. Der Benutzer kann dar-
über hinaus den Grenzwert der Elektronendichte interaktiv verändern, was zu einer
unmittelbaren Aktualisierung der dreidimensionalen Szene führt.
In Server-seitigen Strategien erfolgt die Visualisierung vollständig auf dem Server. Die
erzeugten Einzelbilder werden dabei in einem kontinuierlichen Datenstrom an den lokalen
Rechner übertragen. Diese Strategie bietet sich bei leistungsschwachen Clientsystemen, ver-
traulichen Originaldaten und vor allem extrem großen Volumendaten an. Da entsprechend
große Volumendaten zur Zeit nur geringe bis keine Bedeutung in der chemischen Forschung
haben, bestand keine Notwendigkeit zur Implementierung entsprechender Applikationen.
Die durch automatisierte Laborsysteme generierte Informationsflut stellt den Chemiker
heute vor neue Herausforderungen. Insbesondere in der projektorientierten, industriellen For-
schung wird dabei ein einfacher und schneller Datenzugriff sowie eine unkomplizierte und
leichtverständliche Informationsanalyse zunehmend wichtiger. Der Einsatz klassischer Data
Mining-Methoden ist dabei nicht immer sinnvoll, da die entsprechenden Ansätze häufig ein
enormes Maß an Spezialwissen und somit den Einsatz von Fachpersonal voraussetzen. Dar-
über hinaus handelt es sich bei den klassischen Ansätzen häufig um sogenannte Black Box-
Systeme, die nur einen stark begrenzten Einblick sowie eine limitierte Beeinflussung des
Data Mining-Prozesses zulassen. Eine schnelle Analyse setzt jedoch die Intuition und vor
allem das Fachwissen des Experimentators voraus. Die Erfüllung dieser Kriterien sowie ein
einfacher und intuitiver Analyseprozess kann durch Methoden des visuellen Data Minings
gewährleistet werden.
Die Möglichkeiten des visuellen Data Minings wurden anhand des NCI anti-Tumor Scree-
ning Data 3D Interfaces vorgestellt. Der Online-Dienst wurde speziell zur visuellen Analyse
von Struktur-Aktivitäts-Beziehungen in der Antitumor-Screeningdatenbank des amerikani-
191
8 Zusammenfassung
schen Krebsforschungsinstituts entwickelt. Der Service erlaubt unter anderen Substruktur-
und Ähnlichkeitssuchen und stellt die biologischen Aktivitäten der resultierenden Verbindun-
gen gegen einen definierten Satz an Krebszelllinien mit Hilfe einer VRML-Szene dar. Des
Weiteren können in der Szene entdeckte, interessante Aktivitätsmuster mit Hilfe dynamischer
HTML-Formulare gefiltert und selektiert werden. Darüber hinaus erlaubt der Service die Dar-
stellung zusätzlicher Detailinformation.
Eine wesentlich breitere Verwendbarkeit und größere Anzahl spezieller, visueller Data
Mining-Werkzeuge bietet das im Rahmen dieser Arbeit entwickelte InfVis-Programm. InfVis
basiert vor allem auf der 3D-Glyph-Technologie und erlaubt eine komfortable Analyse von
großen, multidimensionalen bzw. multivariaten Datensätzen. Die einzelnen Datendimensio-
nen werden dabei durch sogenannte retinale Eigenschaften repräsentiert und die korrespon-
dierenden Datenpunkte durch graphische Objekte im dreidimensionalen Raum dargestellt.
Die Applikation verfügt über eine breite Auswahl an leistungsfähigen Filter- und Selektions-
werkzeugen, wobei vor allem den sogenannten Dynamic Query-Filtern eine besondere
Bedeutung im visuellen Data Mining-Prozess zukommt. Mit Hilfe dieser Filter kann auch der
unerfahrene Anwender schnell und interaktiv komplexe Data Mining-Fragestellungen beant-
worten. Das InfVis-Programm wurde vollständig in Java/Java3D entwickelt und kann daher
sowohl als Standalone- als auch Applet-Version betrieben werden.
Die portable Verwendbarkeit des InfVis-Programms wurde am NCI Screening Data 3D
Miner gezeigt. Der Online-Dienst wurde als Weiterentwicklung des bereits erwähnten NCI-
Datenbank-Interfaces konzipiert und bietet im Gegensatz dazu eine große Auswahl an unter-
schiedlichen Suchfunktionen. Der Benutzer kann darüber hinaus eine Vielzahl an unter-
schiedlichen Datendimensionen in den visuellen Data Mining-Prozess integrieren. Des
Weiteren können zusätzliche molekulare Eigenschaften mit in das Analyseverfahren einbezo-
gen werden. Die Darstellung und visuelle Exploration der generierten Datensätzte erfolgt
schließlich mit der Applet-Version des InfVis-Programms auf der Client-Seite.
Die Fähigkeiten des visuellen Data Mining im Allgemeinen als auch der InfVis-Applika-
tion im Speziellen wurden im letzten Kapitel anhand von Anwendungsbeispielen demon-
striert. Dabei wurde zum einen mit Hilfe eines Reaktionsdatensatzes die Suche nach
geeigneten Reaktionsbedingungen zur Optimierung einer Reaktion untersucht. In einem
zweiten Beispiel wurde die visuelle Exploration und Identifikation von Reaktionsbedingun-
gen beschrieben, die zur Reaktionsplanung verwendet werden können. Das letzte Anwen-
dungsbeispiel verdeutlichte die Verwendbarkeit des InfVis-Programms zur Analyse von
Struktur-Aktivitäts-Beziehungen in der Pharmaforschung.
192
Kapitel 9
Literaturverzeichnis
[1] Fischer, E., Einfluß der Configuration auf die Wirkung der Enzyme, Ber. Dtsch. Chem.Ges., 27, 1894, 2985 - 2993.
[2] Koshland, D. E. Jr., Protein Shape and Biological Control, Sci. Amer., 229(4), 1973,52 - 64.
[3] Casher, O.; Chandramohan, G. K.; Hargreaves, M. J.; Leach, C.; Murray-Rust, P.;Rzepa, H. S.; Sayle, R.; Whitaker, B. J., Hyperactive Molecules and the World-Wide-Web Information System, J. Chem. Soc. Perkin Trans. 2, 2, 1995, 7 - 11.
[4] Warr, W. A., Communications and Communities of Chemists, J. Chem. Inf. Comput.Sci., 38(6), 1998, 966 - 975.
[5] Rzepa, H. S., A History of Hyperactive Chemistry on the Web: From Text and Imagesto Objects, Models and Molecular Components, Chimia, 52, 1998, 123 - 132.
[6] Rzepa, H. S.; Whitaker, B. J.; Winter, M. J., Applications of the World-Wide-WebSystem, J. Chem. Soc., Chem. Commun., 17, 1994, 1907 - 1910.
[7] Clark, T.; Roth, H., The Journal of Molecular Modeling: Impact, Expectations andExperience, Chimia, 52(11), 1998, 664 - 667.
[8] Rzepa, H. S., Internet-based Computational Chemistry Tools, In: Encyclopaedia ofComputational Chemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger,J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.:Chichester, UK, 1998, 1426 - 1438.
[9] Vollhardt, H.; Brickmann, J., 3D Molecular Graphics on the World Wide Web, Pac.Symp. Biocomput., 1996, 663 - 673.
[10] Ihlenfeldt, W. D.; Gasteiger, J., Beyond the Hyperactive Molecule: Search, Salvage andVisualization of Chemical Information from the Internet, Pac. Symp. Biocomput., 1996,384 - 395.
[11] Krassavine, A., Java and JavaBeans for Cheminformatics, Chimia, 52, 1998, 668 - 672.
[12] Ertl, P.; Jacob, O., WWW-based Chemical Information Systems, Theochem, 419(1-3),1997, 113 - 130.
[13] Bormann, S., Combinatorial Chemistry, Chem & Eng. News, 4/98, 1998.siehe auch http://pubs.acs.org/hotartcl/cenear/980406/comb.html
193
9 Literaturverzeichnis
[14] Quelle: Kiser, P.; Ihlenfeldt, W.-D.; Eichenbaum, G.; Bienfait, B., ChemCodes Inc.2001.
[15] Houghten, R. A.; Blondelle, S. E.; Cuervo, J. H., Development of New AntimicrobialAgents using a Synthetic Peptide Combinatorial Library involving more than 34 Mil-lion Hexamers. In: Innovation and Perspectives in Solid Phase Synthesis: Peptides,Polypeptides and Oligonucleotides, Epton, R., Ed.; Intercept Ltd., Andover, UK, 1992,237 - 239.
[16] Gasteiger, J., Database Mining: From Information to Knowledge, In: Proceedings of1997 Chem. Inf. Conf., Collier, H., Ed.; Infonortics Ltd., Calne, UK, 1997, 1 - 6.
[17] Upson, C.; Faulhaber, T.; Kamins, D.; Laidlaw, D.; Schlegel, D.; Vroom, J.; Gurwitz,R.; van Dam, A., The Application Visualization System: A Computational Environmentfor Scientific Visualization, IEEE Computer Graphics and Applications, 1989, 32 - 40.
[18] ChemSymphony: http://www.chemsymphony.com/
[19] Sayle, R., Glaxo Group Research, Greenford, UK.http://www.umass.edu/microbio/rasmol/
[20] Rezk-Salama, C.; Engel, K.; Bauer, M.; Greiner, G.; Ertl, T., Interactive Volume Rende-ring on Standard PC Graphics Hardware Using Multi-Textures and Multi-Stage Rasteri-zation, In: Proceedings of Eurographics SIGGRAPH, Workshop on GraphicsHardware, 147, 2000, 109 - 118.
[21] OpenGL Architecture Review Board. OpenGL Reference Manual, Release 1, Addison-Wesley, Reading, Massachusetts, USA, 1992.
[22] http://www.microsoft.com/directx/default.asp.
[23] Drebin, B.; Carpenter, L.; Hanrahan, P., Volume Rendering, In: Proceedings ofSIGGRAPH, Computer Graphics Conference Series, 1988, 65 - 74.
[24] GAUSSIAN: http://www.gaussian.com/
[25] Lorensen, W. E.; Cline, H. E., Marching Cubes: A High Resolution 3D Surface Con-struction Algorthm. In: Proceedings of SIGGRAPH, Computer Graphics ConferenceSeries, 1987, 163 - 169.
[26] Engel, K. D., Strategien und Algorithmen zur interaktiven Volumenvisualisierung inDigitalen Dokumenten, Dissertation, Institut für Informatik der Universität Stuttgart,2002.
[27] Foley, J.; van Dam, A.; Hughes, J., Computer Graphics: Principles and Practic, 2ndedition in C, Addison-Wesley, Reading, Massachusetts, USA, 1997.
[28] http://www.cave.vt.edu/
[29] http://www.pdc.kth.se/projects/vr-cube/
[30] Actuality Systems Inc., Burlington, MA, USAhttp://www.actuality-systems.com/
[31] Borenstein, N. S., Upper Layer Protocols, In: Architectures and Applications, Elsevier,Amsterdam, 1992, Vol. 7, Kapitel 37, 461 - 462.
194
9 Literaturverzeichnis
[32] Van-Vliet, B.; Maffet, T., Recent Advances in Structure Search and Retrieval via Nets-cape Navigator and MDL CHEMSCAPE(tm), Abs. Papers Am. Chem. Soc., 212th ACSNational Meeting, Orlando, FL, USA, 212, CINF-29, 1996.
[33] Arnold, K.; Gosling, J., The Java Programming Language, Addison-Wesley, Reading,Massachusetts, USA, 1998.
[34] ISO/IEC 14772-1:1997. The Virtual Reality Modeling Language.http://www.web3d.org/technicalinfo/specifications/vrml97/, 1997.
[35] ISO/IEC 14772-2:1997. External Authoring Interface.http://www.vrml.org/WorkingGroups/vrml-eai/Specification/, 1997.
[36] Sowizral, H.; Nadeau, D.; Bailey, M.; Deering, M., Introduction to Programming withJava3D. ACM SIGGRAPH 98 Course Notes, July 1998, 1998.
[37] Ihlenfeldt, W. D.; Takahashi, Y.; Abe, H.; Sasaki, S. J., Computation and Managementof Chemical Properties in CACTVS: An Extensible Networked Approach towardModularity and Compatibility, J. Chem. Inf. Comput. Sci., 34, 1994, 109 - 116.
[38] Ihlenfeldt, W. D.; Takahashi, Y., Abe, H.; Sasaki, S., CACTVS: A Chemistry AlgorithmDevelopment Environment, In: Proceedings of the 15th Symposium on Chemical Infor-mation and Computer Sciences/20th Symposium on Structure-Activity Relationships;Machida, K.; Nishioka, T., Eds., Kyoto University, Kyoto, Japan, 1992, 102 - 105.
[39] Ousterhout, J. K., Tcl and the Tk Toolkit, Addison-Wesley, Reading, Massachusetts,USA, 1994.
[40] Sadowski, J.; Gasteiger, J., From Atoms and Bonds to Three-dimensional Atomic Coor-dinates: Automatic Model Builders., Chem. Reviews, 93, 1993, 2567-2581.
[41] Sadowski, J.; Gasteiger, J.; Klebe, G., Comparison of Automatic Three-dimensionalModel Builders Using 639 X-Ray Structures, J. Chem. Inf. Comput. Sci., 34, 1994,1000-1008.
[42] Rauhut, G.; Alex, A.; Chandrasekhar, J.; Steinke, T.; Sauer, W.; Beck, B.; Hutter, M.;Gedeck, P.; Clark, T., VAMP 6.1, Oxford Molecular, 1996.
[43] Kendrew, J. C.; Bodo, G.; Dintzis, H. M.; Parrish, R.G.; Wyckoff, H.; Phillips, D. C., Athree Dimensional Model of the Myoglobin Molecule obtained by X-ray Analysis,Nature, 181, 1958, 662 - 666.
[44] Rubin, B.; Richardson, J. S., The Simple Construction of Protein Alpha-CarbonModels, Biopolymers, 11(11), 1972, 2381 - 2385.
[45] Richardson J. S.; Richardson, D. C.; Thomas, K. A.; Silverton, E. W. Davies, D. R.,Similarity of three-dimensional Structure between the Immunoglobulin Domain and theCopper-Zinc Superoxide Dismutase Subunit, J. Mol. Biol., 102, 1976, 221 - 235.
[46] Levinthal, C., In: Proceedings of the IBM Scientific Computing Symposium on Compu-ter Aided Experimentation, International Business Machines, Yorktown Heights, NY,USA, 1965, 315 - 321.
[47] Levinthal, C., Molecular Model-Building by Computer, Sci. Am., 214, 1966, 42 - 52.
[48] Langridge, R., Interactive Three-Dimensional Computer Graphics in Molecular Bio-logy, In: Computers in Life Science Research, Siler, W.; Lindberg, D. A. B., Eds, Ple-num Publishing Corp., New York, USA, 1975, 53 - 59.
195
9 Literaturverzeichnis
[49] Lesk, A. M., Macromolecular Marionettes, Comput. Biol. Med., 7, 1977, 113 - 129.
[50] Beem, K. M.; Richardson, D. C.; Rajagopalan, K. V., Metal Sites of Copper-ZincSuperoxidase Dismutase, Biochemistry, 16, 1977, 1930 - 1936.
[51] Feldmann, R. J., The Design of Computing Systems for Molecular Modelling, Annu.Rev. Biophys. Bioeng., 5, 1976, 477 - 510.
[52] Porter, T. K., Spherical Shading, Comput. Graphics (SIGGRAPH), 12, 1978, 282 - 285.
[53] Porter, T. K., Comput. Graphics (SIGGRAPH), 13, 1979, 234 - 236.
[54] Koradi, R.; Billeter, M.; Wüthrich, K., MOLMOL: A Program for Display and Analysisof Macromolecular Structures, J. Mol. Graphics, 14, 1996, 51 - 55.
[55] Dreiding, A. S., Simple Molecular Models, Helv. Chim. Acta, 42, 1959, 1339 - 1344.
[56] Gouraud, H., Shading of Curved Surfaces, IEEE Trans. Comput., 20(6), 1971, 623 -628.
[57] Richardson, J. S., The Anatomy and Taxonomy of Protein Structure, Adv. Protein.Chem., 34, 1981, 167 - 339.
[58] Richards, F. M., Areas, Volumes, Packing, and Protein Structure, Annu. Rev. Biophys.Bioeng., 6, 1977, 151 - 176.
[59] Connolly, M. L., Analytical Molecular Surface Calculation, J. Appl. Crystallogr., 16,1983, 548 - 558.
[60] Connolly, M. L., Solvent-Accessible Surfaces of Proteins and Nucleic Acids, Science,221, 1983, 709 - 713.
[61] Lee, B.; Richards, F. M., The Interpretation of Protein Structures: Estimation of StaticAccessibilty, J. Mol. Biol., 55(3), 1971, 379 - 400.
[62] Duncan, B. S.; Olson, A. J., Approximation and Visualization of large-scale Motion ofProteins Surfaces, J. Mol. Graphics, 13, 1995, 250 - 257.
[63] Jain, A. N.; Dietterich, T. G.; Lathrop, R. H.; Chapman, D., Compass: A Shape-basedMachine Learning Tool for Drug Design, J. Comput.-Aided Mol. Design, 8, 1994, 635 -652.
[64] Mezey, P. G., Molecular Surfaces, In: Reviews in Computational Chemistry, Lipkowitz,K.; Boyd, D., Ed., VCH, Weinheim, 1990, 265 - 294.
[65] Kühlbrandt, W.; Williams, A., Analysis of Macromolecular Structure and Dynamics byElectron Cryo-Microscopy, Curr. Opin. in Chem. Biol., 3, 1999, 537 - 543.
[66] Stark, H.; Dube, P.; Luhmann, R.; Kastner, B., Arrangement of RNA and Proteins in theSpliceosomal U1 small nuclear Ribonucleoprotein Particle, Nature, 409(6819), 2001,539 - 542.
[67] Blinn, J. F., Simulation of Winkled Surfaces, Comput. Graphics, 12, 1978, 286 - 292.
[68] Teschner, M.; Henn, C.; Vollhardt, H.; Reiling, S.; Brickmann, J., Texture Mapping: Anew Tool for Molecular Graphics, J. Mol. Graphics, 12, 1994, 98 - 105.
[69] Bonaccorsi, R.; Scrocco, E.; Tomasi, J., Molecular SCF Calculations for the GroundState of Some Three-Membered Ring Molecules, J. Chem. Phys., 54(10), 1970, 5270.
196
9 Literaturverzeichnis
[70] Murray, J. S.; Politzer, P., Electrostatic Potential, In: Encyclopedia of ComputationalChemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger, J.; Kollman, P.A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.: Chichester, UK,1998, 912 - 920.
[71] Bernstein, F. C.; Koetzle, T. F.; Williams, G. J. B.; Meyer, E. F.; Brice, M. D.; Rodger, J.R. R.; Kennard, O.; Shimanouchi, T.; Tasumi, M., The Protein Data Bank: A Computer-based Archival File for Macromolecular Structures, J. Mol. Biol., 112(3), 1977, 535 -542.
[72] Dalby, A.; Nourse, J. G.; Hounshell, W. D.; Gushurst, A. K. I.; Grier, D. L.; Leland, B.A.; Laufer, J., Description of Several Chemical Structure File Formats used by Compu-ter Programs developed at Molecular Design Limited, J. Chem. Inf. Comput. Sci., 32,1992, 244 - 255.
[73] XMol, Minnesota Super Computer Center, Minneapolis, MN, USA.
[74] Casher, O.; Rzepa, H. S., Chemical Collaboratories using World-Wide Web Servers andEyeChem Based Viewers, J. Mol. Graphics, 13(5), 1995, 268 - 270.
[75] Casher, O.; Rzepa, H. S., A Chemical Collaboratory using Explorer EyeChem and theCommon Client Interface, Computer Graphics, 95, 1995, 52.
[76] http://molvis.sdsc.edu/protexpl/index.htm
[77] Lancashire, R. J.; Muir, C.; Reichgelt, H., JCAMP-DX Data Viewer for Windows (95,98, ME and NT/2000).http://wwwchem.uwimona.edu.jm:1104/software/jcampdx.html
[78] Hinchcliffe, A., CS Chem3D Pro 3.5 and CS MOPAC Pro (Mac and Windows) UK,Elec. J. Of Theor. Chem., 2, 1997, 215 - 217.
[79] Pear, M.; Bernstein, J.; Li, C. Z.; McDonald, R., Weblab(tm): A Framework for interac-tive Web-based Applications, Abs. Papers Am. Chem. Soc., 212th ACS National Mee-ting, Orlando, FL, USA, 1996, 28-CINF.
[80] Rzepa, H. S.; Tonge, A. P., VChemLab: A Virtual Chemistry Laboratory. The Storage,Retrieval, and Display of Chemical Information Using Standard Internet Tools, J.Chem. Inf. Comput. Sci., 38, 1998, 1048 - 1053.
[81] Suñer, G. A.; Casher, O.; Rzepa, H. S., Studying Perturbation Theory with ExplorerEyeChem and VRML, Electronic Conference on Trends in Organic Chemistry, Rzepa,H. S.; Goodman J.M.; Leach, C., Eds, The Royal Society of Chemistry, 1996.
[82] Casher, O.; Leach, C.; Page, C. S.; Rzepa, H. S., Advanced VRML Based ChemistryApplications: A 3D Molecular Hyperglossary, In: Proceedings of the Second ElectronicComputational Chemistry Conference, 1995.http://www.ch.ic.ac.uk/rzepa/eccc2/
[83] Vollhardt, H.; Henn, C.; Teschner, M.; Brickmann, J., Virtual Reality Modeling Lan-guage in Chemistry, J. Mol. Graphics, 13(6), 1995, 368 - 372.
[84] Moeckel, G.; Keil, M.; Spiegelhalder, B.; Brickmann, J., VRML in Cancer Research:Local Molecular Properties of the p53 Tumor Suppressor Protein-DNA Interface, J.Mol. Model., 2, 1996, 370 - 372.
[85] http://www.pc.chemie.tu-darmstadt.de/research/vrml/vib/index.html
197
9 Literaturverzeichnis
[86] Casher, O.; Leach, C.; Page, C. S.; Rzepa, H. S., Virtual Reality Modelling Language(VRML) in Chemistry, Chemistry in Britain, 34, 1998, 26.
[87] http://www.pc.chemie.tu-darmstadt.de/research/vrml/p450/
[88] Tonge, A. P.; Rzepa, H. S.; Yoshida, H., Authentication of Internet-Based DistributedComputing Resources in Chemistry, J. Chem. Inf. Comput. Sci., 39, 1999, 483 - 490.
[89] Krause, S.; Willighagen, E.; Steinbeck, C., JChemPaint - Using the CollaborativeForces of the Internet to Develop a Free Editor for 2D Chemical Structures, Molecules,5, 2000, 93 - 98.
[90] http://www.openscience.org/jmol/
[91] http://www.openscience.org
[92] http://www.lionbioscience.com/solutions/srs/srs-3d
[93] Ihlenfeldt, W. D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C., EnhancedCACTVS Browser of the Open NCI Database, J. Chem. Inf. Comput. Sci., 42, 2002,46 - 57.http://cactus.nci.nih.gov/ncidb2/http://www2.chemie.uni-erlangen.de/ncidb2/
[94] Brecher, J. S., The ChemFinder WebServer: Indexing Chemical Data on the Internet,Chimia, 52, 1998, 658 - 663.
[95] Murray-Rust, P.; Rzepa, H. S., Chemical Markup, XML, and the Worldwide Web. 1.Basic Principles, J. Chem. Inf. Comput. Sci., 39, 1999, 928 - 942.
[96] Ertl, P., QSAR Analysis through the World-Wide-Web, Chimia, 52, 1998, 673 - 677.
[97] Selzer, P., IR Spectra Simulation and Information Processing on the WWW, Chimia, 52,1998, 678 - 682.
[98] Wiggins, G., Chemistry on the Internet: The Library on Your Computer, J. Chem. Inf.Comput. Sci., 38, 1998, 956 - 965.
[99] Bender, M.; Seck, A.; Hagen, H., A Client-Side Approach towards Platform Indepen-dent Molecular Visualization over the World Wide Web, In: Proceedings ofVisSym ’99, Vienna, 1999.
[100] Bender, M.; Seck, A.; Hagen, H., Using the Web as a Basis for an Efficient, PlatformIndependent Client-driven Molecular Visualization System, In: Proceedings of WWW8,Toronto, 1999.
[101] Moeckel, G.; Keil, M.; Hollstein, M.; Spiegelhalder, B.; Bartsch, H.; Brickmann, J.,VRML in Cancer Research: Local Changes in Binding Properties of Wild Type andMutaded p53 Tumor Suppressor Protein, J. Mol. Model., 3, 1997, 382 - 385.
[102] Engel, K.; Oellien, F.; Ihlenfeldt, W. D.; Ertl, T., Client-Server-Strategien zur Visuali-sierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie, it+ti, 6,2000, 17 - 23.
[103] Ihlenfeldt, W. D.; Engel, K., Visualizing Chemical Data in the Internet - Data-drivenand Interactive Graphics, Computer and Graphics, 22(6), 1998, 703 - 714.
[104] Weininger, D., SMILES: A Chemical Language and Information System. 1. Introduc-tion to Methodology and Encoding Rules, J. Chem. Inf. Comput. Sci., 28, 1988, 31 - 36.
[105] BioRad: http://www.chemwindow.com/
198
9 Literaturverzeichnis
[106] Cambridge Soft: http://www.cambridgesoft.com/products/family.cfm?FID=2
[107] Yoshida, H.; Matsuura, H., CyberMol: A Molecular Graphics Program System on theWorld Wide Web Using the Common Gateway Interface, J. Chem. Soft., 3, 1997, 157.
[108] Yoshida, H.; Matsuura, H., MOLDA for Java - A Platform-independent MolecularModeling and Molecular Graphics Program Written in the Java Language, J. Chem.Soft., 3, 1997, 81.
[109] Leipold, M., Integrated VRML Molecule Graphics for the WWW, Diplomarbeit, Uni-versität Erlangen-Nürnberg, 1996.http://www2.chemie.uni-erlangen.de/disserstationen/
[110] http://www.bris.ac.uk/Depts/Chemistry/MOTM/motm.htm
[111] IR-Tutor, Columbia Universität, NY, USA:http://www.columbia.edu/cu/chemistry/edison/IRTutor.html
[112] Organic Chemistry Online, Universität Illinois, Chicago, USA:http://www.chem.uic.edu/web1/OCOL-II/WIN/SPEC.HTM
[113] Lathi, P. M.; Motyka, E. J.; Lancashire, R. J., Interactive Visualization of Infrared Spec-tral Data: Synergy of Computation, Visualization, and Experiment for Learning Spec-troscopy, J. Chem. Educ., 77(5), 2000, 649 - 653.
[114] WebMO-Homepage: http://www.webmo.net/
[115] Steiner, D., Molecular Modelling als Medium im Chemieunterricht, Nachr. Chemie, 4,2001, 495 - 497.
[116] http://chemviz.ncsa.uiuc.edu/content/about-waltz.html
[117] Sanner, M. F.; Olson, A. J.; Spehner, J.-C., Fast and Robust Computation of MolecularSurfaces, In: Proceedings of the 11th ACM Symp. Comp. Geom., C6 - C7, 1995.
[118] Nayal, M.; Hitz, B. C.; Honig, B., GRASS: A Server for the Graphical Representationand Analysis of Structures, Protein Sci., 8, 1999, 676 - 679.
[119] Dodd, J., Digital Briefs: New Software and Websites for the Chemical Enterprise,C & EN, 2002, 34.
[120] http://www.roempp.com/
[121] Dewar, M. J. S.; Zoebisch, E. G.; Stewart, J. J. P., AM1: A New General Purpose Quan-tum Mechanical Molecular Model, J. Am. Chem. Soc., 107, 1985, 3902.
[122] http://www.cambridgesoft.com
[123] Clark, T.; Koch, R., The Chemist’s Electronic Book of Orbitals, Springer Verlag, Berlin,Deutschland, 1999.
[124] Pfeifer, P.; Reichelt, R., H2O & Co - Anorganische Chemie, Oldenbourg Verlag, Mün-chen, 2002.
[125] Engel, K.; Grosso, R.; Ertl, T., Progressive Iso-Surfaces on the Web. In: Proceedings ofIEEE Visualization, IEEE Computer Society Press, 1998.
[126] Bohne, A.; Lang, E.; von der Lieth, C.-W., Molecular Visualization Programs on theWeb, Drugs of the Future, 25(5), 2000, 489 - 500.
[127] http://wwwvis.informatik.uni-stuttgart.de/ger/teaching/sw_prakt/done/orbvis/
199
9 Literaturverzeichnis
[128] http://www9.informatik.uni-erlangen.de:9080/Persons/Engel/orbitalanima-tion/
[129] Fayyad, U. M.; Piatetski-Shapiro, G.; Smyth, P., The KDD Process for Extracting Use-ful Knowledge from Volumes of Data, Comm. of the ACM, 39(11), 1996, 27 - 34.
[130] Wold, S.; Sjöström, M.; Andersson, P. M.; Linusson, A.; Edman, M.; Lundstedt, T.;Nordén, B.; Sandberg, M.; Uppgård, L-L., Multivariate Design and Modelling inQSAR, Combinatorial Chemistry, and Bioinformatics, In: Molecular Modeling andPrediction of Bioactivity, Gundertofte, K.; Jorgensen, F. S. (Editoren), Kluwer Acade-mic Press, New York, USA, 2000, 27 - 45.
[131] Wold, S.; Albano, C.; Dunn, W. J.; Edlund, U.; Esbensen, K.; Geludi, P.; Hellberg, S.;Johansson, E.; Lindberg, W.; Sjöström, M., Multivariate Data Analysis in Chemistry,In: Chemometrics: Mathematics and Statistics, Kowalski, B. R. (Editor), D. ReidelPublishing Company, Dordrecht, Holland, 1984, 250 - 300.
[132] Wold, S., Principal Component Analysis, Chemom. and Intell. Lab. Sys., 2, 1987, 37 - 52.
[133] Buydens, L. M. C.; Reijmers, T. H.; Beckers, M. L. M.; Wehrens, R., Molecular Data-Mining: A Challenge for Chemometrics, Chemom. and Intell. Lab. Sys., 49, 1999, 121 - 133.
[134] Bryant, C. H.; Rowe, R. C., Knowledge Discovery in Databases: Application to Chro-matography, Trends in Analyt. Chem., 17(1), 1998, 18 - 24.
[135] Geladi, P.; Kowalski, B., Partial Least Squares Regression: A Tutorial, Analyt. Chim.Acta, 185, 1986, 1 - 17.
[136] Derde, M. P.; Massart, D. L., Supervised Pattern Recognition, Anal. Chim. Acta, 191,1986, 1 - 16.
[137] Varmuza, K., Chemometrics: Multivariate View on Chemical Problems, In: Encyclope-dia of Computational Chemistry, von Rague-Schleyer, P.; Allinger, N. L.; Clark, T.;Gasteiger, J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley &Sons, Inc.: Chichester, UK, 1998, 346 - 366.
[138] Borg, I.; Groenen, P., Modern Multidimensional Scaling: Theory and Applications,Springer Verlag, New York, USA, 1997.
[139] Crippen, G. M.; Havel, T. F., Stable Calculation of Coordinates from Distance Informa-tion, Acta Crystall., A34, 1978, 282 - 284.
[140] Glunt, W.; Hayden, T. L., Raydan, M., Molecular Conformation from Distance Matri-ces, J. Comput. Chem., 14, 1993, 114 - 120.
[141] Agrafiotis, D., K.; Rassokhin, D. N.; Lobanov, V. S., Multidimensional Scaling andVisualization of Large Molecular Similarity Tables, J. Comput. Chem., 22(5), 2001,488 - 500.
[142] Brause, R, Neuronale Netze, 2.te Auflage, B. G. Teubner Verlag, Stuttgart, 1995.
[143] Zupan, J.; Gasteiger, J., Neural Networks in Chemistry and Drug Design - An Introduc-tion, Wiley-VCH, Weinheim, 1999.
200
9 Literaturverzeichnis
[144] Gasteiger, J.; Zupan, J., Neuronale Netze in der Chemie, Angew. Chem., 105, 1993,510 - 536.Gasteiger, J.; Zupan, J., Neural Networks in Chemistry, Angew. Chem. Int. Ed. Engl.,32, 1993, 503 - 527.
[145] Ritter, H.; Martinez, T.; Schulten, K., Neuronale Netze: Eine Einführung in die Neuro-informatik selbstorganisierender Netzwerke, Addison-Wesley, Bonn, 1990.
[146] Kohonen, T., Self-Organizing Maps, 3rd edition, Springer Verlag, Heidelberg, 2001.
[147] Kohonen, T., Self-Organized Formation of Topologically Correct Feature Maps,Bioorg. Med. Chem. Letters, 8, 1982, 11 - 16.
[148] Wehrens, R.; Buydens, M. C., Evolutionary Optimization: A Tutorial, Trends Analyt.Chem., 17, 1998, 193 - 203.
[149] Gasteiger, J., Data Mining in Drug Design, In: Rational Approaches to Drug Design,Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.; Sippl, W., Prous Sci-ence, 2001, 459 - 474.
[150] Wagener, M.; van Geerestein, V. J., Potential Drugs and Nondrugs: Prediction and Iden-tification of Important Structural Features, J. Chem. Inf. Comput. Sci., 40, 2000, 280 -292.
[151] Willett, P., A Comparison of some Hierarchial Agglomerative Clustering Algorithmsfor Structure-Property Correlation, Anal. Chim. Acta, 136, 1982, 29 - 37.
[152] Stanton, D. T.; Morris, T., W.; Roychoudhury, S.; Parker, C. N., Application of Nearest-Neighbor and Cluster Analyses in Pharmaceutical Lead Discovery, J. Chem. Inf. Com-put. Sci., 39, 1999, 21 - 27.
[153] Ware, C., Information Visualization - Perception for Design, Morgan KaufmannPublishers, San Francisco, USA, 1999.
[154] Card, S., K.; Mackinlay, J., D.; Shneiderman, B., Readings in Information Visualization- Using Vision to Think, Morgan Kaufman Publishers, San Francisco, USA, 1999.
[155] Fayyad, U.; Grinstein, G., G.; Wierse, A., Information Visualization in Data Mining andKnowledge Discovery, Morgan Kaufman Publishers, San Francisco, USA, 2002.
[156] Soukup, T.; Davidson, I., Visual Data Mining - Techniques and Tools for Data Visuali-zation and Mining, Wiley Publishing Inc., New York, USA, 2002.
[157] Ankerst, M., Visual Data Mining, Dissertation, Fakultät für Mathematik und Informatikder Ludwig-Maximilians-Universität München, München, 2000dissertation.de - Verlag im Internet GmbH, Berlin, 2001.
[158] Shneiderman, B., The Eyes Have It: A Task by Data-type Taxonomy for InformationVisualization, In: Proceedings of Visual Languages, IEEE Computer Science Press, LosAlamitos, CA, USA, 1996, 336 - 343.
[159] Tufte, E. R., The Visual Display of Quantitative Information, Graphics Press, Cheshire,CT, USA, 1983.
[160] Bertin, J., Graphics and Graphic Information Processing, Walter de Gruyter Verlag,Berlin, 1981.
201
9 Literaturverzeichnis
[161] Wong, P. C.; Bergeron, R. D., 30 Years of Multidimensional Multivariate Visualization,In: Proceedings of the Workshop of Scientific Visualization, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1995.
[162] Keim, D. A., Visual Exploration of Large Data Sets, Comm. of the ACM, 44(8), 2001,39 - 44.
[163] Keim, D. A., Information Visualization and Visual Data Mining, IEEE Trans. Vis. Com-put. Graph., 8(1), 2002, 1 - 8.
[164] Wills, G.; Keim, D. A., (Editoren), Proceedings of the 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), IEEE Computer Society Press, Los Alamitos, CA,USA, 1999.
[165] Roth, S. F.; Keim, D. A., (Editoren), Proceedings of the 2000 IEEE Symposium onInformation Visualization (InfoVis 2000), IEEE Computer Society Press, Los Alamitos,CA, USA, 2000.
[166] Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), Proceedings of the 2001 IEEE Sym-posium on Information Visualization (InfoVis 2001), IEEE Computer Society Press, LosAlamitos, CA, USA, 2001.
[167] Hoffman, P. E.; Grinstein, G. G., A Survey of Visualitations for High-Dimensional DataMining, In: Information Visualization in Data Mining and Knowledge Discovery,Fayyad, U.; Grinstein, G. G.; Wierse, A., (Editoren), Morgan Kaufman Publishers, SanFrancisco, USA, 2002, 47 - 82.
[168] Cleveland, W.S., Visualizing Data, Hobart Press, Summit, NJ, uSA, 1993.
[169] Huber, P. J., Projection Pursuit, The Annals of Statistics, 13(2), 1985, 435 - 474.
[170] Wright, W., Information Animation in the Capital Markets, In: Proceedings Int. Symp.On Information Visualization’ 95, Atlanta, GA, USA, 1995, 19 - 25.
[171] Furnas, G. W.; Buja, A., Prosection Views: Dimensional Inference Through Sectionsand Projections, J. Comput. Stat., 3(4), 1994, 323 - 353.
[172] Andrews, D. F., Plots of High-Dimensional Data, Biometrics, 1972, 69 - 97.
[173] van Wijk, J. J.; van Liere, R., HyperSlice, In: Proceedings IEEE Visualization ’93, SanJose, CA, USA, 1993, 119 - 125.
[174] Alpern, B.; Carter, L., Hyperbox, In: Proceedings IEEE Visualization ’91, San Diego,CA, USA, 1991, 133 - 139.
[175] Inselberg, A.; Dimsdale, B., Parallel Coordinates: A Tool for Visualizing Multi-Dimen-sional Geometry, In: Proceedings IEEE Visualization ’90, 1990, 361 - 370.
[176] Hoffman, P. E., Table Visualizations: A Formal Model and its Applications, Disserta-tion, Computer Science Department, University of Massachusetts Lowell, MA, USA,1999.
[177] Microsoft Excel 2002, Microsoft Corporation, Redmond, WS, USA, 2002.http://www.microsoft.com/office/excel/
[178] Statistica 6, StatSoft Incorporate, Tulsa, OK, USA, 2002.http://www.statsoftinc.com/
202
9 Literaturverzeichnis
[179] Ward, M. O., XmdvTool: Integrating Multiple Methods for Visualizing MultivariateData, In: Proceedings IEEE Visualization ’94, Washington, DC, USA, 1994, 326 - 336.http://davis.wpi.edu/~xmdv/
[180] Bertin, J., Semiology of Graphics, The University of Wisconsin Press, Madison, WS,USA, 1983.
[181] Chernoff, H., The Use of Faces to Represent Points in n-Dimensional Space Graphi-cally, Technical Report No. 71, Department of Statistics, Stanford University, CA,USA, 1971.
[182] Chambers, J. M.; Cleveland, W. S.; Kleiner, B.; Tukey, P. A., Graphical Methods forData Analysis, Wadsworth Press, Belmont, CA, USA, 1983.
[183] Pickett, R. M.; Grinstein, G. G., Iconographic Displays for Visualizing Multidimensio-nal Data, In: Proceedings IEEE Conf on Systems, Man and Cybernetics, IEEE Press,Piscataway, NJ, USA, 1988, 514 - 519.
[184] Beddow, J., Shape Coding of Multidimensional Data on a Microcomputer Display, In:Proceedings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 238 - 246.
[185] Levkowitz, H., Color Icons: Merging Color and Texture Perception for IntegratedVisualization of Multiple Parameters, In: Proceedings IEEE Visualization ’91, SanDiego, CA, USA, 1991.
[186] Keim, D. A., Pixel-orientated Database Visualizations, In: Proceedings Tutorial ACMSIGMOD Int. Conf. on Management of Data, Montreal, Canada, 1996, 543.
[187] Keim, D. A.; Kriegel, H.-P.; Ankerst, M., Recursive Pattern: A Technique for Visuali-zing Very Large Amounts of Data, In: Proceedings Visualization ’95, Atlanta, GA,USA, 1995, 279 - 286.
[188] Ankerst, M.; Keim, D. A.; Kriegel, H.-P., Circle Segments: A Technique for VisuallyExploring Large Multidimensional Data Sets, In: Proceedings Visualization ’96, HotTopic Session, 1996.
[189] Becker, B. G., Research Report: Volume Rendering for Relational Data, In: ProceedingsInformation Visualization ’97, Dill, J.; Gershon, N., Editoren, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1997, 87 - 90.
[190] LeBlanc, J.; Ward, M. O.; Wittels, N., Exploring N-Dimensional Databases, In: Procee-dings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 230 - 239.
[191] Robertson, G. G.; Mackinlay, J. D.; Card, S. K., Cone Trees: Animated 3D Visualizati-ons of Hierarchical Information, In: Proceedings Human Factors in Computing SystemsCHI ’91 Conf., New Orleans, LA, USA, 1991, 189 - 194.
[192] Kraus, M.; Ertl, T., Interactive Data Exploration with Customized Glyphs, In: Procee-dings of WSCG ’01, Plyen, Tschechien, 2001, P20-P23.http://wscg.zcu.cz/wscg2001/Papers_2001/R54.pdfhttp://wwwvis.informatik.uni-stuttgart.de/~kraus/glyphs/
[193] Swayne, D. F.; Cook, D.; Buja, A., User’s Manual for XGobi: A Dynamic GraphicsProgram for Data Analysis, Bellcore technical memorandum, 1992.
[194] Bier, E. A.; Stone, M. C.; Pier, K.; Buxton, W.; DeRose, T., Toolglass and magic Len-ses: The See-Through Interface, In: Proceedings SIGGRAPH ’93, 1993, 73 - 80.
203
9 Literaturverzeichnis
[195] Spoerri, A., Infocrystal: A Visual Tool for Information Retrieval, In: ProceedingsVisualization ’93, 1993, 150 -157.
[196] Ahlberg, C.; Shneiderman, B., Visual Information Seeking: Tight Coupling of DynamicQuery Filters with Starfield Displays, In: Proceedings Human Factors in ComputingSystems CHI’94 Conf., 1994, 313 - 317.
[197] Shneiderman, B., Dynamic Queries for Visual Information Seeking, In: Readings inInformation Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J., D.;Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA, 1999,236 - 243.
[198] Fishkin, K.; Stone, M. C., Enhanced Dynamic Queries via Moveable Filters, In: Rea-dings in Information Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J.,D.; Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA,1999, 253 - 259.
[199] Sarkar, M.; Brown, M., Graphical Fisheye Views, Comm. ACM, 37(12), 1994, 73 - 84.
[200] Schaffer, D.; Zuo, Z.; Bartram, L.; Dill, J.; Dubs, S.; Greenberg, S.; Rodeman, M.,Comparing Fisheye and Full-Zoom Techniques for Navigation of Hierarchically Cluste-red Networks, In: Proceedings Graphics Interface (GI ’93), 1993, 87 - 96.
[201] Carpendale, M. S. T.; Cowperthwaite, D. J.; Fracchia, F. D., IEEE Computer Graphicsand Applications, Sonderausgabe: Informationsvisualisierung, 17(4), 1997, 42 - 51.
[202] http://dtp.nci.nih.gov
[203] Boyd, M. R., Status of the NCI Preclinicalantitumor Drug Discovery Screen. In:Cancer: Principles and Practice of Oncology Update, DeVita, V. T.; Hellman, S.;Rosenberg, S. A., Editoren, J. B. Lippicott, Philadelphia, Vol. 3, 1989, 1 - 12.
[204] Boyd, M. R., The NCI in vitro Anticancer Drug Discovery Screen: Concept, Implemen-tation, and Operation, 1985 - 1995, In: Anticancer Drug Development Guide: Preclini-cal Screening, Clinical Trials, and Approval, Teicher, B. A., Editor, Humana Press,Totowa, NJ, USA, 1997, 23 - 42.
[205] Shi, L., M.; Fan, Y.; Lee, J. K.; Waltham, M.; Andrews, D. T.; Scherf, U.; Paull, K. D.;Weinstein, J. N., Mining and Visualizing Large Anticancer Drug Discovery Databases,J. Chem. Inf. Comput. Sci., 40, 2000, 367 - 379.
[206] Paull, K. D.; Shoemaker, R. H.; Hodes, L.; Monks, A.; Scudiero, D. A.; Rubinstein, L.;Plowman, J.; Boyd, M. R., Display and Analysis of Patterns of Differential Activity ofDrugs against Human Tumor Cell Lines: Development of Mean Graph and COMPAREalgorithm, J. Natl. Cancer Inst., 81, 1989, 1088 - 1092.
[207] http://www.mysql.com
[208] Rohrer, R. M.; Swing, E., Web-Based Information Visualization, IEEE Computer Gra-phics and Appl., 17(4), 1997, 52 - 59.
[209] http://www.stocksmartpro.com/ows-bin/owa/vpv/
[210] Roskothen, M., http://www.vruniverse.com/vrml/chart/chart.html[211] http://www.em7.com
[212] http://www.parallelgraphics.com
[213] http://www.rinvoice.com
204
9 Literaturverzeichnis
[214] Demesmaeker, M., Decision Analytics in Life Science Discovery through Visual Inte-gration of Chemical and Biological Information on the Desktop, In: Rational Approa-ches to Drug Design, Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.;Sippl, W., Prous Science, 2001, 506 - 511.http://www.spotfire.com
[215] Ahlberg, C.; Wistrand, E., IVEE: An Information Visualization and Exploration Envi-ronment, In: Proceedings Information Visualization ’95, IEEE Computer Society Press,Los Alamitos, CA, USA, 1995, 66 - 73.
[216] Persönliche Mitteilungen: Zielesny, A., ehemals Bayer AG; Rudolph, C., AventisPharma AG.
[217] Persönliche Mitteilung: Zielesney, A., ehemals Bayer AG.
[218] http://java.sun.com/products/jdbc/
[219] http://www.mysql.com
[220] Travis, D., Effective Color Displays: Theory and Practice, Academic Press, London,UK, 1991.
[221] Catarci, T., Interaction with Databases, IEEE Computer Graphics and Applications,1996, 67 - 69.
[222] Ahlberg, C.; Shneiderman, B., The Alphaslider: A Rapid and Compact Selector, In:Proceedings ACM Conference on Human Factors in Computing Systems, CHI’94 Con-ference, ACM Press, New York, USA, 1994, 365 - 371.
[223] Lipinski, C. A.; Lombardo, F.; Dominy, B. W.; Feeney, P. J., Experimental and Compu-tational Approaches to Estimate Solubilty and Permeability in Drug Discovery Settings,Adv. Drug Discovery, 23, 1997, 3 - 25.
[224] Kobsa, A., An Empirical Comparison of Three Commercial Information VisualizationSystems, In: Proceedings of the 2001 IEEE Symposium on Information Visualization(InfoVis 2001), Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 2001, 123 - 130.
[225] http://www.partek.com
[226] http://www.miner3d.com
[227] Roberts, G.; Myatt, G. J.; Johnson, W. P.; Cross, K. P.; Blower, P. E. Jr., LeadScope:Software for Exploring Large Sets of Screening Data, J. Chem. Inf. Comput. Sci., 40,2000, 1302 - 1314. http://www.leadscope.com
[228] http://servus.itn.liu.se/smartdoc/project_results/knowledge/hte.html
[229] http://www.avs.com
[230] http://dtp.nci.nih.gov/docs/compare/cellmdr.html
[231] http://dtp.nci.nih.gov/docs/compare/cellp53wild.htmlhttp://dtp.nci.nih.gov/docs/compare/cellp53mut.html
[232] http://chartworks.com
[233] http://www.visualizeinc.com
205
9 Literaturverzeichnis
[234] Hao, M. C.; Dayal, U.; Hsu, M.; Baker, J.; D’Eletto, R., A Java-based Visual MiningInfrastructure and Applications, In: Proceedings of th 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), Wills, G.; Keim, D. A., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 1999, 124 - 127.
[235] Munzner, T., Exploring Large Graphs in 3D Hyperbolic Space, IEEE Computer Gra-phics, 18(4), 1998, 18 - 23.http://www.inxight.com
[236] http://www.tgs.com
[237] Haller, M.; Jenichl, G.; Küng, J., Data Mining, Multidimensional Databases and theWeb for a Better Interpretation of Data, In: Proceedings 5th International ConferenceIDG’98, Florenz, Italien, 1998, on CDROM.
[238] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T., Multi-Variate Interactive Visualizationof Data from Laboratory Notebooks, In: Proceedings ECDL: Workshop ’GeneralizedDocuments’, Sep. 2001, Darmstadt, Deutschland, 2001.
[239] http://www.chemcodes.com
[240] Parlow, A.; Weiske, C.; Gasteiger, J., ChemInform - An Integrated Information Systemon Chemical Reations, J. Chem. Inf. Comput. Sci., 30, 1990, 400 - 402.
[241] MDL Reaktionsdatenbank Referenz
[242] Claisen, L.; Claparede, A., Ber., 14, 2463, 1881.
[243] Schmidt, J. G., Ber., 14, 1459, 1881.
[244] Carey, F. A.; Sundberg, R. J., Organische Chemie - Ein weiterführendes Lehrbuch,Wiley-VCH, Weinheim, 1995.
[245] Maggiora, G.; Johnson, M. A., Concepts and Applications of Molecular Similarity, JohnWiley, NY, USA, 1990.
[246] Keskin, O.; Ivet, B.; Jernigan, R. L.; Myers, T. G.; Beutler, J. A.; Shoemaker, R. H.;Sausville, E. A.; Covell, D. G., Characterization of Anticancer Agents by Their Growth-Inhibitory Activity and Relationships to Mechanism of Action and Structure, Anti-cancer Drug Design, 15(2), 2000, 79 - 98.
[247] Lippard, S. J., Platinum Complexes: Probes of Polynucleotide Structure and AntitumorDrugs, Acc. Chem. Res., 11, 1978, 211 - 217.
[248] Verheijen, R. H.; Beex, L.; Wagener, D. J.; Kenemans, P., Cis-Platin in Combinationwith low Dose Adriamycin and Cyclophosphoamide in Advanced Ovarian Carcinoma,Eur. J. Gynaecol. Onc., 6(2), 1985, 116 - 120.
[249] COSMOlogic, http://www.cosmologic.de
[250] http://www.tripos.com/sciTech/inSilicoDisc/moleculeModeling/molcad.html
206
Anhang
Anhang A: Farbabbildungen
Anhang B: Hyperlinksammlung
Anhang C: Krebszelllinien im NCI In Vitro Screen
Anhang D: Platinverbindungen im NCI In Vitro Screen
Anhang E: Publikationsliste
Anhang F: Lebenslauf
A-1
Anhang
A-2
Farbabbildungen
Anhang A: Farbabbildungen
Abb. A-1: VRML-Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung.
Abb. A-2: VRML-Szene: Ball & Stick-Modell mit interaktiver, VRML-Skript-basierter Bindungswinkel- und Atomabstands-Berechnungsfunktion.
A-3
Anhang A
Abb. A-3: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.
Abb. A-4: ComSpec3D: Quantenchemisch berechnete Raman- (rot) und Infrarotspektren (blau).
Abb. A-5: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1.
A-4
Farbabbildungen
Abb. A-6: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe.
Abb. A-7: MolSurf: VRML-Szene mit Oberfläche (Solid-Repräsentation) von Trinitrotoluol und integriertem HUD-Menü.
A-5
Anhang A
Abb. A-8: OrbVis: Auswahlfenster.
Abb. A-9: OrbVis: Java-Applet und VRML-Plugin, HOMO von Anilin.
A-6
Farbabbildungen
Abb. A-10: Visualisierungsansatz mit dreidimensionalen Glyphen [192].
Abb. A-11: NCI anti-Tumor Screening Data 3D Interface: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung.
A-7
Anhang A
Abb. A-12: InfVis-Programm.
Abb. A-13: InfVis: Visualisierungstechniken; a) Balkendiagramm, b) Scatterplotdarstellung, c) 3D-Glyph-Technik
A-8
Farbabbildungen
Abb. A-14: InfVis-Selektions- und Detail-Werkzeuge; a) Selektionsboxen, b) Einzelpunktselektion,c) Detailwerkzeug, Darstellung von Datenwerten und Metainformation (Hyperlinks, Bilder).
a)
b)
c)
A-9
Anhang A
Abb. A-15: Reaktionsoptimierungs-Beispiel: a) Reaktionen bei 60 °C; b) Reaktionen auf Poystyrol; c) Reaktionen mit KOH, 23 °C, Tentagel; d) Reaktionen mit LiOH, 23 °C, Tentagel; e) Reaktionen mit NaOMe, 23 °C, Tentagel; f) Reaktionen ohne Reagenzienzugabe, 23 °C, Polystyrol.
a) b)
c) d)
e) f)
A-10
Farbabbildungen
Abb. A-16: Reaktionsplanungs-Beispiel: Reaktionen mit 1,3-Diisopropylcarbodiamid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln.
Abb. A-17: InfVis-Progamm mit 2939 GI50-Aktivitätswerten; Aufsicht auf die zy-Ebene.
A-11
Anhang A
Abb. A-18: Antitumor-Aktivitätsbeispiel: relative Auftragung der GI50-Werte; a) Cluster 1 mit 33 Verbindungen; b) Cluster 2 mit 15 Verbindungen; c) Cluster 3 mit 50 Verbindungen; d) Cluster 4 mit 26 Verbindungen; e) Cluster 5 mit 14 Verbindungen.
a) b)
c) d)
e)
A-12
Hyperlinksammlung
Anhang B: Hyperlinksammlung
Hyperlinks zum ChemVis-Projekt, zu den in dieser Arbeit entwickelten Online-Diensten
und zum InfVis-Manual.
• ChemVis-Projekt:http://www2.chemie.uni-erlangen.de/ChemVis/Das ChemVis-Projekt ist Teil des DFG-Schwerpunktprogramms "VerteilteVerarbeitung und Vermittlung von digitalen Dokumenten" und setzt sich ausMitgliedern des Computer-Chemie-Centrums, Universität Erlangen-Nürnberg sowieder "Interaktive Systeme und Visualisierungsgruppe" des Instituts für Informatik,Universität Stuttgart zusammen.
• VRML File Creator for Chemical Structures:http://www2.chemie.uni-erlangen.de/services/vrmlcreator/http://cactus.nci.nih.gov/services/vrmlcreator/Der Service generiert VRML-Szenen von chemischen Strukturen und molekularenEigenschaften. Die Web-Applikation unterstützt eine Vielzahl von chemischen 2D-und 3D-Dateiformaten und berechnet bei Vorlage von 2D-Koordinaten dienotwendige 3D-Information automatisch.
• VRML-Animationsgenerator:http://www2.chemie.uni-erlangen.de/services/vrmlanim/Die Online-Anwendung erlaubt die portable 3D-Darstellung von animiertenTrajektorien wie beispielsweise Moleküldynamiken.
• ComSpec3D:http://www2.chemie.uni-erlangen.de/services/vrmlvib/Das Ziel von ComSpec3D ist die Berechnung und Visualisierung von Infrarot- undRamanspektren sowie die animierte VRML-Darstellung der korrespondierendenNormalschwingungen.
• MolSurf:http://www2.chemie.uni-erlangen.de/services/molsurf/MolSurf ermöglicht die Berechnung und dreidimensionale Darstellung vonmolekularen Oberflächen und Strukturen sowie des elektrostatischen Potentials.
• OrbVis:http://www2.chemie.uni-erlangen.de/services/orbvis/OrbVis wurde zur interaktiven Berechnung und 3D-Visualisierung vonMolekülorbitalen entwickelt.
A-13
Anhang B
• NCI anti-Tumor Screening Data 3D Interface:http://www2.chemie.uni-erlangen.de/services/ncitumordb/Das NCI anti-Tumor Screening Data 3D Interface ermöglicht die Analyse derAntitumor-Screeningdaten des amerikanischen Krebsforschungsinstituts, NCI, NIH.Der Service unterstützt eine Reihe von Suchoptionen wie beispielsweise Substruktur-und Ähnlichkeitssuchen und ermöglicht die dreidimensionale Darstellung derStruktur-Aktivitätsbeziehungen in einer VRML-Szene.
• NCI Screening Data 3D Miner:http://www2.chemie.uni-erlangen.de/services/nciscreen/Der NCI Screening Data 3D Miner stellt einer Weiterentwicklung des NCI anti-Tumor Screening Data 3D Interfaces dar. Der Service wurde um eine Vielzahl anSuchoptionen erweitert und ermöglicht mit Hilfe des InfVis-Programms das visuelleData Mining der resultierenden Struktur-Aktivitätsbeziehungen.
• InfVis:http://www2.chemie.uni-erlangen.de/research/information_visualization/http://www2.chemie.uni-erlangen.de/research/information_visualization/doc/ Das InfVis-Programm wurde zum visuellen Data Mining und zur Visualisierunggroßer, multidimensionaler Datensätze der Chemie wie beispielsweise High-Throughput-Screening-Daten entwickelt. Die Applikation ist sowohl als Standalone-als auch als Applet-Version erhältlich.
A-14
Krebszelllinien im NCI In Vitro Screen
Anhang C: Krebszelllinien im NCI In Vitro Screen
Liste der 60 humanen Krebszelllinien im In Vitro Screeningtest des amerikanischen Krebs-
forschungsinstituts (NCI, NIH) [202].
Name der Zelllinie FamilieWildtyp p53
FunktionMutanten
p53 Funktion
Niedrige MDR-
FunktionCCRF-CEM Leukemie – + –HL-60(TB) Leukemie – + +K-562 Leukemie – + +MOLT-4 Leukemie + – +RPMI-8226 Leukemie + – +SR Leukemie – – +A549/ATCC Non-Small Cell Lung + – +EKVX Non-Small Cell Lung – + +HOP-62 Non-Small Cell Lung – + –HOP-92 Non-Small Cell Lung – + +NCI-H226 Non-Small Cell Lung – + +NCI-H23 Non-Small Cell Lung – + +NCI-H322M Non-Small Cell Lung – – +NCI-H460 Non-Small Cell Lung + – +NCI-H522 Non-Small Cell Lung – + +COLO 205 Dickdarmkrebs – + +HCC-2998 Dickdarmkrebs – + +HCT-116 Dickdarmkrebs – – +HCT-15 Dickdarmkrebs – – –HT29 Dickdarmkrebs – + +KM12 Dickdarmkrebs – + +SW-620 Dickdarmkrebs – + –SF-268 Zentrales Nervensystem – + +SF-295 Zentrales Nervensystem – + –SF-539 Zentrales Nervensystem + – +SNB-19 Zentrales Nervensystem – + +SNB-75 Zentrales Nervensystem – + +U251 Zentrales Nervensystem – + +IGROV1 Eierstockkrebs – + +OVCAR-3 Eierstockkrebs – + +OVCAR-4 Eierstockkrebs + – +OVCAR-5 Eierstockkrebs – + +OVCAR-8 Eierstockkrebs – + +SK-OV-3 Eierstockkrebs – – +
A-15
Anhang C
Fortsetzung:
Name der Zelllinie FamilieWildtyp p53
FunktionMutanten
p53 Funktion
Niedrige MDR-
Funktion786-0 Augenkrebs – + +A498 Augenkrebs + – –ACHN Augenkrebs + – –CAKI-1 Augenkrebs + – –RXF 393 Augenkrebs – + +SN12C Augenkrebs – + +TK-10 Augenkrebs – + +UO-31 Augenkrebs + – –PC-3 Prostatakrebs – + +DU-145 Prostatakrebs – – +MCF7 Brustkrebs + – +NCI/ADR-RES Brustkrebs – + –MDA-MB-231/ATCC Brustkrebs – + +HS 578T Brustkrebs – + –MDA-MB-435 Brustkrebs – + +MDA-N Brustkrebs – + +BT-549 Brustkrebs – – +T-47D Brustkrebs – + +LOX IMVI Melanom + – +MALME-3M Melanom + – +M14 Melanom – + +SK-MEL-2 Melanom + – +SK-MEL-5 Melanom + – +SK-MEL-28 Melanom – + +UACC-257 Melanom + – +UACC-62 Melanom + – +
A-16
Platinverbindungen im NCI In Vitro Screen
Anhang D: Platinverbindungen im NCI In Vitro Screen
D.1 Cluster 1
Pt
Cl
Cl
N
N
H
H
H
H
NSC131558
N
O+
Pt+ S
+
N+
N−
N
O
ClH
H
H
H
NSC613670
Pt
ClSn
N+
SnCl
−Cl
Cl
Cl
ClCl
Cl
NSC615537
Pt
Cl−
Sn
Sn
C
Cl
Cl
Cl
ClCl
Cl
O+
N+
NSC615539
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623314
O
O
N
N
Pt
Cl
Cl
H
H H
H
H
H
H
H
NSC623321
N+
N
O
Pt
Cl
Cl
N+
Br
H
NSC625506
Pt++
NN
O+
O
PO
O−
O+
Na+
H
HH
H
HH
NSC627008
O
O
O
O
O
O
Pt4+Cl
−
Cl−
Cl−
Cl−
NSC631895
Pt++
N
N
N N
O
O
Cl−H
H
H
H
NSC631896
Pt++
N
N
N
N
O
O
Cl−
H
HH
H
NSC631897
NN
N
P
OO
−
O−
O
PO−
O+
Pt++
H
HH
H
H
H
NSC631898
O
OO
O
N+
N+
O
O
Pt−−Cl
Cl
Cl
Cl
H
H
NSC632607
Pt++O
+N
O+
O+
N Cl−
NSC632609
O+
N
O+
O+N
Pt
Cl−
OHH
NSC632611
Pt++
N N
O+
N+
P
O
O−
PO
O−
O−
P
O+
O−
O−
H
H
H
HH
H
NSC632612
O
P
NP
OO−
O−
O−
NN
O+
Pt++
H H
HH
H
NSC632613
NPt
++
PO
O+
N
P
O+
O− O
−
O−
N
H
H
H
H
HH
NSC632615
Pt
Cl
ClN
N
S O
O+
O
S OO
O+
HH
HH
H H
NSC632869
PtCl Cl
N+
N+
OO−
O O−
HH
HH
NSC632870
A-17
Anhang D
O
O
O
O
NN
Pt++O+
O+
H
H
H
H
H HH
HH
HH
H
H
NSC634048
N
O
N
O
O+
O
Pt ClCl
O O−
H
H
H
H
HH NSC638370
Pt++
N+
N+
PO
O−
O−
PO
O−
O−
P
O+
O
O− P
O
O−
O−
N+
N+
H
H
HH
H
H
H
H
NSC639594
N
Pt++
NO
+
NPO
O−
N
P
O+
O−
O−
H H
H
H
H
H
H
NSC639614
N
Pt++
N
O+
N+
PO
O−
P
O+ O
−O
−Na
+
N O
H
H
H
H
HH
NSC639615
N
Pt
N
Cl
Cl
Si
H
H
NSC643120
Cl
Pt
S
O
N
N
Si
H
H
NSC643121
C−
Pt++
O+ S
O
O−
FF
FP
HH
NSC646701
Pt
O O
ClCl
N NH H
NSC647059
OP
N+
PO
O−
O−
N+
PO
O−
PO
O−
O−
O−
NN
O+
O+
Pt++
H
H
H
H H
HH
H H
NSC647060
P
Cl
P
ClPt
N
N
H
H
NSC685471
N+
N+
N+
Ru++
N+
N+
N+
N+
N+
Pt
Cl
Cl
Cl−
NSC686548
Pt
O+
ClCl
N
O
N
H+
HH
H
H
H
NSC695782
A-18
Platinverbindungen im NCI In Vitro Screen
D.2 Cluster 2
Br
Br
N+
NN
S+
N
N
O
O
OO
Pt
HH
H
H
H
H
O
S
O
O O
NN
Pt
H H
HH
O+
Pt++
NN
O+
O
S
N
O O
SO+O
O−
O
S
O+
OO−
H
HHHH
H
HH
H
H
ClSn
Cl
Cl
N+
Sn
Cl
Cl
Cl
CO+
Pt
N
NCl
Cl
Pt
O
H
HH
H
H N
NCl
Cl
Pt
O
H
HH
H
H
Pt++
O+
P
O−
O
O
O+
N N
Na+
HH
H H
HH
N
O
O
N
O
O
PtCl Cl
H
H
Pt++
N N
O+
N+
PO
O−
O−
P
O+
O−
O−
O
H
H
H
HH
H
Pt
Cl
ClN
N
OO+
O O+
HH
HH
H
H
H H
H
H
O+
O+
N
NO+O
+Pt Cl
+HH
N
N+
PO
O−
O−
PO
O−
N+
P
O
O−
O−
P
OO−
N
O+
O+
Pt++
H
H
H
H
HH
H
H
Pt++
Cl−
Cl−
Cl−
Cl−
N+
N+
Si
HH
HH
Pt+
C−
S
Cl
O
S
O
HH
O
N
O
O−
N
N
Pt++
O+
H
H
H
A-19
Anhang D
D.3 Cluster 3
Cl
Cl
N
N
Pt
H
HH
H
NSC265459
Cl
Cl
N
N
Pt
H
HH
H
NSC265460
O
O
O
O
NN
Pt
H H
HH
NSC266046
O
O
O
O
NN
Pt
H H
HH
NSC266047
O
O
O
O
O
O
N N
Pt
H
HH
H H
NSC271674N
N
N+
N
N
S+
N+
N
N
S+
N
N
Pt
H
H
H
H
H
H
H
H
NSC276299
O Se
PtO
O
O
ON
N
H
HH
H
H
H
NSC281279
Cl
Pt
Cl
Cl
Cl
N
N
H
H
H
H
NSC363812
SiN
Pt
Cl
Cl
NSi
H
H
NSC600300
Si
N+
Pt++
Cl−
Cl−
Cl−
Cl−
N+
Si
H
H
H
H
NSC600301
Si
N N
Pt
ClCl
H H
NSC603577
Si
N+
N+
Pt++
Cl−
Cl− Cl
−Cl
−
H
H
H
H
NSC603578
N+
N+
Pt
N−
Cl
Cl
S
S+
NSC614802
OS O
N
O
N
N
SO
O
N O
O+
Pt++
O+
H
HH
H
H
H
NSC614887
Pt++N
N O−O−
S
N
OO
+O−
NN
NN
N
SO+
O
O−
H
H
H
H
H H
H
HH
H
NSC615589
N
S+
S+
N
S+
S+Pt
++H
H
NSC619298
Pt
Cl
Cl
P
P
H
H
NSC624902
C−
Fe++
C−
NN
Pt
ClCl
C−
Fe++
C−
NSC625197
N+
N+
Pt++
Cl−
Cl−
Si
Cl−
Cl−
H
H
H
H
NSC625298
NN
Pt
ClCl
Si
HH
NSC625299 No Name
A-20
Platinverbindungen im NCI In Vitro Screen
Pt
N Si
NSi
Cl
Cl
H
H
NSC626538
N
N
O
O
Pt ClCl
HH
H
NSC631304
N
O
N
O
Pt
Cl
Cl
HH
NSC631305
N
N
O
Pt
Cl
Cl
H
HH
NSC631306
N+
Pt ClCl
S
O
NSC632790
Pt
N+
ClCl
S O
NSC632791
Pt
N+
N+
ClCl
NSC632819
N+
N+
PtCl Cl
NSC632820
ClO
+
O
O
O PtN
+
NN
N
N Cl
Cl
N
Cl
Cl
Cl−
Cl−
HH
H
NSC633053
N+
N+
Pt++
N+
N+Cl
−
NSC633560
N+
O+
O
N−
N
S+
Pt+
ClH
H
H
NSC638284
Se+
N
Pt
Cl
Cl
H
H
H
NSC638726
O
NN
O+
Se
O+
Pt++
H
H
H
H
HH
NSC638728
Pt
ClCl
N+
O−
N+
O−
NSC639083
N+
N+
Pt++
O
O
O+
O
C−
O
H
NSC639222
Pt ClCl
N+
S O
NSC641052
PtCl Cl
N+
S
N+
S
NSC641054
I Pt I
N+
S
N+
S
NSC641055
PtI I
N+
S
N+
S
NSC641056
Pt++
C−
C−
S
O
S
O
HH
HH
NSC644188
A-21
Anhang D
Pt++
C−
C−
SS
O O
NSC644189
Pt++
C−
C−
CO+
S O
NSC644191
Si
N
Pt
Cl Cl
NH H
NSC645351
Si
N+
N+
Cl−
Cl− Cl
−Cl
−
Pt++
H
H
H
H
NSC645352
Si
N
N
Pt
Cl
Cl
H
H
NSC645353
Si
N+
N+
Cl−
Cl−
Cl−
Cl− Pt
++
HH
HH
NSC645354
Si
N+
N+
Cl−
Cl− Cl
−Cl
−
Pt++
H
H
H
H
NSC645356
N
N+
PtI I
N
N+
NSC647615
Pt++P
N P
N
Cl−
H
H
H
H
NSC685468
P
N+
PN
Pt+
Cl
Cl−
H
H
NSC685470
A-22
Platinverbindungen im NCI In Vitro Screen
D.4 Cluster 4
Pt
Cl
Cl
N
N
H
H
H
H
NSC119875
Br
Br
N
N
PtH
H
H
H
NSC141523
N
N
O
OO
O
PtH
HH
H
NSC146067
Cl
Cl
N NPt
NSC170896
Cl
ClN
N
Pt
H
H
NSC215153
OO
O O
N
N
PtH
HH
H
NSC241240
N
Pt
N Cl
Cl
O
O
H
HH
H
NSC256927
S
O
O
O
O S
O
O
N
N
Pt
H
HH
H
NSC263158
Pt
Cl−
Sn
Sn
C
Cl
Cl
Cl
ClCl
Cl
O+
As+
NSC615538
Pt
Sn
SnN+
Cl
Cl
Cl
Cl
Cl
Cl
N+
C
O+
NSC615541
PtP
SnC
P
Sn
O+
Cl
Cl
Cl
Cl
Cl
Cl
HH
NSC615542
O
N
N
S OO
N
NS
N N
O
O
O
O+
O+Pt
++
H
H
H H
H
H
HH
NSC615590
Pt++N+C
N+
CO
SO+O O
−
NNN
NN
N
SO+O
O−
OO
O
O+S
O+
S
H
H H
HH
H
NSC615593
Pt−−Cl
Cl
Cl
Cl
O
N+
N+
H
H
H
NSC620256
O
N+
N+
N
Pt−−Cl
Cl
Cl
Cl
H
H
H
NSC620257
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623315
N
NCl
Cl
Pt
O H
H
HH
H
H
NSC623317
Pt
Se
O
O
O O
Se
O
O
H
H
NSC626669
O+
O+O
+
O+
Pt++
N
N
N
Cl−
HH
H
NSC632608
Pt++O
+N
O+
O+
N Cl−
NHH
H
NSC632610
A-23
Anhang D
D.5 Cluster 5
Cl
Cl
N
N
Pt
H
HH
H
NSC255917
Br
O
Br
S OO
O
N
N
O
Br
O
Br
S
O
OO+
O+
Pt++
H
H H
H H
H
H
H
NSC615592
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623316
N
NCl
Cl
Pt
O H
H
HH
H
H
NSC623318
Si
N
Pt
N
Cl
Cl
H
H
NSC630765
N
O+
O+
NO+ O
+Pt++
Cl−
Cl−
NSC633559
Pt++
Cl−
Cl−
Cl−
Cl−
N+
N+Si
HH
HH
NSC640322
PtCl Cl
N+
S
N+
S
NSC641053
N
N+
PtBr Br
N
N+
NSC647616
N
N+
PtCl Cl
N
N+
NSC647617
N
N+
PtBr Br
N
N+
NSC647618
N
N+
PtCl Cl
N
N+
NSC647619
Pt
Cl−
Cl−
Cl−
Cl−
N+
N+
N+
N+
H
H
NSC647620
N
Pt++
N
O+
O+
O
O
O−
O
O
O
HH
HH
H
H
H
NSC651087
A-24
Publikationsliste
Anhang E: Publikationsliste
[1] Ihlenfeldt, W.-D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C.Enhanced CACTVS Browser of the Open NCI Database J. Chem. Inf. Comput. Sci., 42, 2002, 46 - 57.
[2] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Multi-Variate Interactive Visualization of Data from Laboratory Notebooks ECDL: Workshop "Generalized Documents", Sep. 2001, Darmstadt.
[3] Engel, K.; Oellien, F.; Ertl, T.; Ihlenfeldt, W.-D. Client-Server-Strategien zur Visualisierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie it+ti, 6, 2000, 17 - 23.
[4] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Chemische Visualisierung und Datenintegration im Internet Informatik ’99: Workshop "Neue Medien in Forschung und Lehre", Oct. 1999, Paderborn.
Die Publikationen 2), 3) und 4) sind Teil dieser Arbeit.
A-25
Anhang F
Anhang F: Lebenslauf
Name Frank Oellien
Geburtsdatum und -ort 27. Januar 1970 in Oldenburg
Staatsangehörigkeit deutsch
Familienstand ledig
Schulbildung
1976 - 1980 Grundschule Elmendorf / Aschhausen
1980 - 1982 Orientierungsstufe Bad Zwischenahn
1982 - 1986 Realschule Bad Zwischenahn
1986 - 1989 Gymnasium Bad Zwischenahn / Edewecht
Grundwehrdienst
06/1989 - 08/1990
Hochschulausbildung
09/1990 - 04/1993 Studium der Chemie an der Carl von Ossietzky Universität
Oldenburg
09/1993 - 12/1997 Studium der Chemie an der Universität Bayreuth
04/1997 - 12/1997 Diplomarbeit bei Prof. Sprinzl am Lehrstuhl für Biochemie der
Universität Bayreuth zu dem Thema „Terminationsfaktor RF3
von Thermus thermophilus“
seit 08/1998 Anfertigung der Doktorarbeit bei Prof. Gasteiger am Computer-
Chemie-Centrum und Institut für Organische Chemie der
Friedrich-Alexander-Universität Erlangen-Nürnberg
A-26
Lebenslauf
Berufstätigkeit
03/1997 - 07/1997 Wissenschaftliche Zusammenarbeit mit Dr. Hoffmann, Institut
für Algorithmen und Wissenschaftliches Rechnen (SCAI), GMD
Forschungszentrum Informationstechnologie GmbH,
St. Augustin
09/1999 - 10/1999 Gastwissenschaftler am Laboratory of Medicinal Chemistry,
National Cancer Institute, National Institutes of Health,
Bethesda, USA
seit 09/2002 Chemoinformatiker in der Abteilung BioChemInformatics /
Drug Discovery der Firma Intervet Innovation GmbH,
Schwabenheim
A-27
Anhang F
A-28