DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2...

19
Abschlußbericht e-DAS/ELECTRAS 30.04.2003 Abschlußbericht.doc 1 Abschlußbericht DFN Projekt e-DAS/ELECTRAS http://www2.chemie.uni-erlangen.de/projects/eDAS/index.html April 2001 - März 2003 Ulrike Burkard, Giorgi Lekishvili, Johann Gasteiger Computer-Chemie-Centrum und Institut für Organische Chemie Universität Erlangen-Nürnberg, Nägelsbachstr. 25, 91052 Erlangen

Transcript of DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2...

Page 1: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 1

Abschlußbericht

DFN Projekt e-DAS/ELECTRAS

http://www2.chemie.uni-erlangen.de/projects/eDAS/index.html

April 2001 - März 2003

Ulrike Burkard, Giorgi Lekishvili, Johann Gasteiger

Computer-Chemie-Centrum und Institut für Organische ChemieUniversität Erlangen-Nürnberg, Nägelsbachstr. 25, 91052 Erlangen

Page 2: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 2

Inhalt

1. EINLEITUNG 3

2. ARBEITSPAKETE 4

2.1 Basismodul 42.1.1 HTML Einstiegsseiten und ELECTRAS-Basis-Webseiten 42.1.2 HTML-Formseiten-Interface 62.1.3 CGI-Interface für die Benutzerschnittstelle 62.1.4 Text-Sylk-Konverter 62.1.5 Vorverarbeitungsprogramm Gewichtung und Normierung 72.1.6 Rechenprogramm zur Linearen Regression 72.1.7 Rechenprogramm Korrelationsmatrizen 72.1.8 Kohonen-Neuronales-Netz Programm 72.1.9 Textgenerator für Download–Ausgabedateien 82.1.10 Graphengenerator in Java 82.1.11 HTML-Seitengenerator 82.1.12 Reportgenerator 9

2.2 Datenanalyse-Modul 92.2.1 Transformationen 92.2.2 Multivariate Statistik und Hauptkomponentenanalyse 92.2.3 Counterpropagation-Netz 112.2.4 Backpropagation-Netze 11

2.3 Fachspezifisches Modul Chemie 112.3.1 Archivierungsmodul 112.3.2 Datenbankanbindung/Schnittstelle zur NCI-Datenbank 112.3.3 Struktureditor 132.3.4 SMILES-Konverter 132.3.5 Deskriptor-Generator für 3D Strukturinformationen 13

2.4 Modul Datenausgabe, Interaktion und Präsentation 142.4.1 2D-Graphengenerator 142.4.2 Reportgenerator 152.4.3 VRML-Generator bzw. 3D Visualisierung 152.4.4 PNG-Graphikgenerator 16

2.5 Benutzerbetreuung, Dokumentation, Hilfesystem 162.5.1 Dokumentation 162.5.2 Betreuung der Entwickler anwendungsspezifischer Module 162.5.3 Verbesserung des Gesamtsystems nach Benutzerresonanz 172.5.4 Entwicklung eines Online-Hilfesystems 172.5.5 Werbeveranstaltungen 182.5.6 Internationale Kooperation 18

3. NACHHALTIGKEIT 19

4. PUBLIKATIONEN UND PRÄSENTATIONEN 19

Page 3: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 3

1. Einleitung

In den Naturwissenschaften fallen große Mengen an Daten an. Die intrinsischenZusammenhänge in diesen Daten sind jedoch oft schwer zu erkennen und zuextrahieren. In vielen Fällen sind aber gerade diese versteckten Informationen undZusammenhänge von Interesse.

Der Electronic Data Analysis Service (ELECTRAS) stellt eine online-Applikation zurmathematischen Analyse solcher numerischer Datensätze dar. Das Projekt wurde unter dem Namen e-DAS beantragt, mußte jedoch während derProjektlaufzeit aus markenrechtlichen Gründen in ELECTRAS umbenannt werden.

Mit diesem Service wird verschiedenen Anwendergruppen aus Wissenschaft undForschung die Möglichkeit gegeben, basierend auf statistischen Analysemethodenund künstlichen neuronalen Netzen eigene Daten und solche aus WWW-Datenbanken nach Ähnlichkeiten, Mustern und Trends zu analysieren.

Das System wurde modular aufgebaut, so daß eine Erweiterbarkeit des Systems aufweitere Fragestellungen leicht möglich ist.

Zu den wesentlichen Aufgaben des Systems gehörten die Kategorisierung von Datenund die Erkennung von Korrelationen und Mustern, die sich in einem Datensatzbefinden.

Das Projekt gliedert sich in fünf Schwerpunkte:

DatenbeschaffungDie Eingabe von Daten in das ELECTRAS-System ist auf mehrere Arten möglich.Wenn die Daten in numerischer Form vorliegen, können sie durch Upload der Dateiin das System eingespeist werden.Chemische Strukturen können direkt in einem Struktureditor gezeichnet und auf dasSystem übertragen werden. Desweiteren besteht die Möglichkeit, durch eineDatenbanksuche in der Datenbank des National Cancer Institutes (NCI), die 250.000Strukturen enthält, Datensätze zu erstellen.Die Eingabedaten werden jeweils durch spezielle Konvertierungsprogramme in eininternes Daten-Format ungewandelt, auf dem die Methoden des Systems operierenkönnen.

DatenanalyseELECTRAS stellt verschiedene Datenanalyse-Verfahren zur Verfügung. Angefangenvon einfachen statistischen Verfahren wie die Berechnung vonKorrelationskoeffizienten über Verfahren aus der multivariaten Statistik bis hin zuneuronalen Netzen werden eine Vielzahl von Methoden zur Verfügung gestellt, diez.T. auch komplexe nicht-lineare Zusammenhänge zwischen Daten erkennenkönnen.

VisualisierungEine sinnvolle und überschaubare Präsentation von Ergebnissen aus derDatenbanksuche und der Datenanalyse war ein wesentlicher Aspekt des Projektes. Die Visualisierung der Ergebnisse geschieht über Java-basierte 2D und 3DGraphengeneratoren.

Page 4: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 4

ErgebnisverwertungVoraussetzung für eine erfolgreiche Nutzung ist die problemlose Weiterverarbeitungder Ergebnisse in Dateiformaten, wie sie in Wissenschaften und Forschung üblichsind. Daher werden die numerischen Ergebnisse in Form von zeilen- oderspaltenorientierten Textdateien zum Download bereitgestellt. Darüberhinaus werdenGraphiken und Berichte in einer für Präsentationen geeigneten Form angeboten.

ModulerweiterungDas ELECTRAS System wurde so konzipiert und entwickelt, daß es in einfacherWeise erweitert werden kann. So können zusätzliche anwendungsspezifischeModule an das System angebunden werden und das System so auf die spezifischenAnforderungen weiterer Anwendergruppen angepaßt werden.

2. ArbeitspaketeDer Arbeitsplan des Projektes enthält fünf Arbeitspakete

• Basismodul• Datenanalyse-Modul• Fachspezifisches Modul Chemie• Modul Datenausgabe, Interaktion und Präsentation • Modul Benutzerbetreuung, Dokumentation, Hilfesystem,

die im Folgenden detailliert beschrieben werden.

2.1 BasismodulDas Basismodul enthält die grundlegenden Bestandteile des ELECTRAS-Systems,ohne Archivierung und Datenbankanbindung. Es war das erste Modul des Systemsund wurde im Lauf des Projektes sukzessive um die anderen Module erweitert.

2.1.1 HTML Einstiegsseiten und ELECTRAS-Basis-Webseiten

Auf den HTML-Einstiegsseiten wird das ELECTRAS Projekt vorgestellt. Abbildung 1zeigt die zentrale Seite des Services. Auf der linken Seite des Fensters befindet sichdie Menüleiste des ELECTRAS Systems, von der aus der Benutzer in die ver-

Page 5: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 5

Abbildung 1: Zentrale HTML-Einstiegseite

schiedenen Sub-Module (Modul zur Datenanalyse, Modul zur Datenbanksuche,Modul zur 3D Datenvisualisierung, Work-Flow Beschreibung, Methoden-beschreibung, Online-Hilfe) von ELECTRAS wechseln kann. Das Menü ist von jederELECTRAS Webseite sichtbar um eine maximale Flexibilität bei der Benutzung desSystems zu ermöglichen.

Page 6: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 6

2.1.2 HTML-Formseiten-InterfaceDas HTML-Formseiten-Interface dient zur Eingabe der Daten und zur Auswahl derMethoden. Für jede der beiden Datenanalyse-Arten (statistische Datenanalyse undchemische Datenanalyse) wird eine eigene Formseite zur Verfügung gestellt. Diesermöglicht eine einfache Erweiterung des Systems bei der Eingliederung weiter erfachspezifischer Analyse-Module.Abbildung 2 zeigt das Interface zur statistischen Datenanalyse.

Abbildung 2: Ausschnitt Formseite Statistische Datenanalyse

2.1.3 CGI-Interface für die BenutzerschnittstelleDie CGI-Schnittstelle wurde in Python programmiert.Um das System auch auf der Seite des CGI-Interfaces leicht um weiterefachspezifische Module erweitern zu können, wurde auch das Interface durch zweizentrale Skripte realisiert: eines für die statistische Datenanalyse und eines für dieAnalyse chemischer Daten. Diese Skripte werden durch die zentralen Formseiten(siehe Abschnitt 2.1.2) aufgerufen.Von diesen zentralen Skripten ausgehend werden je nach Auswahl der Methoden dieentsprechenden Datenanalysemodule aufgerufen.

2.1.4 Text-Sylk-KonverterUm eine größtmögliche Kompatibilität zu erreichen, wurde als Format der Ein- undAusgabedateien das ASCII-Text-Format gewählt. Alphanumerische Inhalte wieKommentare und Datensatzbeschreibungen werden durch ein vorausgehendesNummernzeichen (#) bzw. Ausrufungszeichen (!) gekennzeichnet. Diese ASCII-Textdateien werden intern in ein Format umgewandelt, das von denDatenanalyse-Algorithmen verarbeitet werden kann. Der Konverter, der dieEingabedateien in ein verarbeitbares Format umwandelt, wurde jedoch nicht alsText-Sylk-Konverter realisiert: eine Konvertierung in ein standardisiertes Textformat(Text-Text-Konvertierung) erwies sich als praktikabler.

Page 7: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 7

2.1.5 Vorverarbeitungsprogramm Gewichtung und NormierungDas Vorverarbeitungsprogramm enthält Methoden zur Skalierung (Autoscale,Mittelwert-Zentrierung) und zur Normierung (Euklidische Norm). Diese Methodenkönnen bei der Datenanalyse optional vorgeschaltet werden. Wenn Analyse-Methoden ausgewählt werden, die für gute Analyse-Ergebnisse eine bestimmteVorverarbeitung benötigen (beispielsweise Autoscaling für die Anwendung der PLS-Methode), wird dieses Vorverarbeitungsprogramm automatisch ausgeführt.

2.1.6 Rechenprogramm zur Linearen RegressionDas Rechenprogramm zur Linearen Regression berechnet für das eingeleseneDatenfile die Regressionskoeffizienten und gibt den Achsenabschnitt derRegressionsgerade an. Die Ergebnisse der Regression werden anschließend ineinem Regressionsgraphen mit dem 2D Graphengenerator (siehe Abschnitt 2.4.1)visualisiert.

2.1.7 Rechenprogramm KorrelationsmatrizenDas Rechenprogramm Korrelationsmatrizen berechnet die Korrelationskoeffizientenund ruft den Tabellengenerator (siehe Abschnitt 2.4.1) auf, der die Matrix derKorrelationskoeffizienten ausgibt. Diese Matrix kann auf Wunsch als Tabellegespeichert werden. Dazu wird der Textgenerator für Download–Ausgabedateienverwendet.

2.1.8 Kohonen-Neuronales-Netz ProgrammDas Kohonen Netz ist wie auch die anderen neuronalen Netze in einem eigenenModul zusammengefaßt. Bei Auswahl der Analyse-Option „Kohonen Netz“ öffnet sicheine Seite, die zum einen die Auswahl der Netzparameter (d.h. Netz-Topologie,Netz-Dimensionen, Dimension der Neuronen, Klassenbezeichner und Anzahl derTrainingszyklen) ermöglicht, und zum anderen die Datei, die die Eingabedaten fürdas Netz enthält, anzeigt. Somit kann der Benutzer die Netzparameter gemäß derEingabedaten wählen. Desweiteren kann die Datei, die als Eingabe für das Kohonen-Netz verwendet wird, heruntergeladen werden.Nach dem Training wird das Netz als interaktive Karte ausgegeben. Durch Klickenauf die entsprechenden Neuronen werden die Inhalte des jeweiligen Neuronsangezeigt. Im fachspezifischen Modul zur Chemie werden die Strukturen zudemwahlweise als 2D oder 3D Strukturen angezeigt.Der Algorithmus, der diesem Modul zugrunde liegt, basiert auf dem Kohonen-Netzwerk-Simulator KMAP, der in der Arbeitsgruppe entwickelt wurde.

Page 8: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 8

Abbildung 3: Ergebnisdarstellung des Kohonen Netzes. Das kleine Fenster rechts zeigt dieVisualisierung des Inhalts der Neuronen, hier in einer dreidimensionalen Moleküldarstellung

2.1.9 Textgenerator für Download–AusgabedateienDer Textgenerator erzeugt Textdateien, die die Ergebnisse der Datenanalyseenthalten und als Textdatei heruntergeladen werden können. Dies ermöglicht eineWeiterverarbeitung der Ergebnisse durch externe Programme, wie beispielsweiseExcel.

2.1.10 Graphengenerator in Java Der Graphengenerator besteht aus zwei Submodulen: eines zur Visualisierung vonMatrizen und Tabellen und ein weiteres zur Darstellung 2-dimensionaler Scatter Plots(Details siehe Abschnitt 2.4.1).

Für höherdimensionale Visualisierung wird der 3D Graphengenerator (sieheAbschnitt 2.4.3) verwendet, der mit Hilfe von Glyphs bis zu sechs Daten-Dimensionen darstellen kann.

2.1.11 HTML-Seitengenerator

Mit Hilfe des Seitengenerators können HTML-Seiten dynamisch erzeugt werden. Jenach Eingabe des Benutzer werden HTML-Seiten generiert, die an die jeweiligeDatenanalyse dynamisch angepaßt werden. Dieser Seitengenerator wurde in Python entwickelt; dabei wurde jedoch eineSchnittstelle geschaffen um bereits bestehende Tcl-Programme leicht einbinden zukönnen.

Page 9: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 9

2.1.12 Reportgenerator Der Reportgenerator erzeugt zwei Typen der Ergebnispräsentation: zum einenwerden die Analyse-Ergebnisse auf HTML-Seiten präsentiert, von denen dieentsprechenden Ergebnisse als Textdateien heruntergeladen werden können, zumanderen wird eine PDF-Datei zum Download angeboten, die die Analyse-Ergebnissezusammenfaßt (siehe Abschnitt 2.4.2).

2.2 Datenanalyse-ModulDas Datenanalyse-Modul erweitert das Basismodul um zusätzliche Methoden zurstatistischen Analyse und um das Counterpropagation- und das BackpropagationNetz.

2.2.1 TransformationenDie Fourier-Transformation wurde als vorverarbeitende Datentransformation in dasSystem integriert.

2.2.2 Multivariate Statistik und Hauptkomponentenanalyse Das Modul zur Multivariaten Statistik enthält die Hauptkomponentenanalyse (PCA),die Hauptkomponenten-Regression (PCR) und die Methode der kleinsten Fehler-quadrate (PLS).

Dieses Modul gibt für jede der Methoden die berechneten Matrizen aus. Diesekönnen als Textdatei gespeichert werden. Zudem können Hauptkomponentenausgewählt werden, die mit Hilfe des Plotters gegeneinander aufgetragen werden.Abbildung 4 zeigt beispielhaft die Analyse Ergebnisse für die Methode der kleinstenFehlerquadrate (PLS).

Page 10: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 10

Abbildung 4: Beispiel zur Ergebnisausgabe des Moduls zur multivariaten StatistikLinks: Regressionskoeffizienten der PLS-Methode; rechts: Plot der ersten beiden Komponenten

Page 11: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 11

2.2.3 Counterpropagation-NetzDas Counterpropagation-Netz wird analog zum Kohonen-Netz auf einer separatenSeite zur Verfügung gestellt. Auch hier kann die Datei mit den Eingabedateneingesehen werden, können Netzparameter entsprechend angepaßt und dieErgebnisse mit einer interaktiven Kohonenkarte analysiert werden.

2.2.4 Backpropagation-NetzeAuch das Backpropagation Netz wird auf einer eigenen Webseite angeboten. DieAnalyseergebnisse des Backpropagation-Netzes werden jedoch nicht als Kartenausgegeben, sondern in Form eines Scatter-Plots, der die experimentellen Werteden berechneten gegenüberstellt - wie für diese Art von neuronalen Netzen üblich.

2.3 Fachspezifisches Modul ChemieDas Modul zur Analyse chemischer Daten wurde als eine fachspezifische Applikationin das System integriert und dient als Prototyp für weitere fachspezifischeApplikationen. Durch dieses Modul können die chemischen Daten so in numerischeDaten transformiert werden, dass sie mit statistischen Methoden und neuronalenNetzen ausgewertet werden können. Dieses Modul enthält u.a. Methoden zur Eingabe und Vorverarbeitung derchemischen Strukturen (Struktureditor, SMILES-Konverter) und zur Deskriptor-Generation (Erzeugung der 3D Strukturinformation, Berechnung von Deskriptoren)Darüberhinaus bietet dieses Modul eine Schnittstelle zur NCI-Datenbank und einModul zur Datenarchivierung.

2.3.1 ArchivierungsmodulDie Analyse-Ergebnisse werden in einem Archivierungsmoduls gesammelt. Dabeiwerden die Ergebnisse als ASCII-Dateien unter einem Schlüsselwort gespeichert,das der Benutzer selbst eingeben kann. Der Benutzer kann die Analyseergebnisseso am Ende des jeweiligen Datenanalyse-Schrittes herunterladen (siehe Abschnitt2.1.9).

2.3.2 Datenbankanbindung/Schnittstelle zur NCI-DatenbankAls externe Datenbank wurde die Datenbank des National Cancer Institutes (NCIhttp://www.nci.nih.gov/) eingebunden (siehe Abbildung 5). Dabei wurde ein CGI-Programm als Meta-Suchmaschine verwendet.Die NCI Datenbank kann auf verschiedene Suchkriterien wie Schlüsselworte, CASNummern, Strukturformeln, Substrukturen oder Molekulargewicht hin durchsuchtwerden. Desweiteren können Strukturen (wahlweise über den Editor oder durchDatei-Upload) eingegeben werden und für diese die in der Datenbank enthaltenenInformationen ausgelesen werden.

Page 12: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 12

Abbildung 5: Interface zur NCI-Datenbank

Das Ergebnis der Datenbankabfrage wird als sortierte Liste ausgegeben, wobei dieSortierung wahlweise nach der NCI-Nummer, nach der Anzahl der Atome oder nachdem Molekulargewicht geschieht.Abbildung 6 zeigt die Ergebnisseite der Datenbanksuche in der NCI-Datenbank.

Page 13: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 13

Abbildung 6: Ergebnisse der Datenbanksuche

Der Benutzer kann aus dieser Liste der Ergebnisse einzelne Daten auswählen unddiese als Datei im sd-Format exportieren um sie dann gegebenenfalls wiederum indas Datenanalyse Modul einlesen und analysieren zu lassen.

2.3.3 StruktureditorZur Struktureingabe im fachspezifischen Modul Chemie wurde der JME- Editor1

verwendet. Damit kann der Benutzer eine Struktur zeichnen, die dann in ein internesFormat umgewandelt wird und anschließend an die Methoden zurDeskriptorberechnung übermittelt wird.

2.3.4 SMILES-KonverterDer SMILES-Konverter bietet eine weitere Möglichkeit der Eingabe von Strukturen imfachspezifischen Modul Chemie. Die Struktur wird in Form eines SMILES-Stringseingegeben durch den Konverter in ein Format umgewandelt, das mit den Methodenzur Deskriptorberechnung verarbeitet werden kann.

2.3.5 Deskriptor-Generator für 3D StrukturinformationenDie Deskriptor Berechnung für dreidimensionale Strukturinformationen geschieht inzwei Schritten: Zuerst wird die 3D-Strukturinformation erzeugt und anschließend dieDeskriptoren berechnet. Falls keine 3D-Information benötigt wird, können dieDeskriptoren auch direkt, also ohne Vorschalten des Generators für 3DStrukturinformation, berechnet werden.• Erzeugung der 3D Strukturinformation

Mit Hilfe des Deskriptor-Generators für 3D-Strukturinformation können fürStrukturen, für die nur 2D-Informationen vorhanden sind, die 3D Strukturenberechnet werden.Der Benutzer kann über die Checkbox „Calculate 3D Coordinates“ den Generatorstarten. Der Algorithmus, der die 3D Koordinaten berechnet, wird durch dasProgramm CORINA2 zur Verfügung gestellt, das in unserem Arbeitskreisentwickelt wurde.

• Berechnung der DeskriptorenDas fachspezifische Modul Chemie bietet die Berechnung von zwei Deskriptoren,die mit der Listbox „Autocorrelation“ ausgewählt werden können: 2D und 3DAutocorrelation.Wenn 3D-Strukturinformationen berechnet wurden, kann der Benutzer den 3DAutocorrelationsvektor berechnen.Falls nur 2D-Strukturinformationen berücksichtigt werden sollen, kann mit derAuswahl “2D-Autocorrelation“ der topologische Autocorrelationsvektor berechnetwerden.Wenn bei der Deskriptorberechnung physikochemische Eigenschaften berück-sichtigt werden sollen, können mit der Listbox „PhysicochemicalProperties“ die partiellen Ladungen auf den einzelnen Atomen eines Moleküls

1 http://www.ch.ic.ac.uk/vchemlib/mol/search/spurt/2 http://www2.chemie.uni-erlangen.de/software/corina/index.html.

Page 14: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 14

berechnet werden. Dazu wird das Programmpaket PETRA3 verwendet, das inunserem Arbeitskreis entwickelt wurde. Die so berechnete Ladung fließt dann indie Berechnung des Autocorrelationsvektors ein.

2.4 Modul Datenausgabe, Interaktion und Präsentation

Dieses Modul faßt die Submodule zusammen, die die Ergebnisse der Analysepräsentieren und eine interaktive Untersuchung der Analyse-Ergebnisse durch denBenutzer ermöglichen. 2.4.1 2D-GraphengeneratorEs wurden zwei Typen von Graphengeneratoren in Form von Java-Applets erstellt:

• 2D-Scatter-Plot-Generator: Der 2D-Scatter-Plot-Generator erzeugt Graphen,die die Visualisierung der Ergebnisse der Datenanalyse für jeweils zweiDimensionen ermöglichen. Die einzelnen Datenpunkte können interaktivausgewertet werden: Durch Klicken auf einen Datenpunkt werden dieBezeichnung des Datenpunktes sowie seine Koordinaten angegeben.Zudem können durch eine Zoomfunktion Ausschnitte des Graphenvergrößert werden.

• Tabellengenerator: Der Tabellengenerator ermöglicht die Darstellung vonTabellen und Matrizen und wird neben der Visualisierung der jeweiligenDatentabellen auch zur Darstellung der Korrelationsmatrizen verwendet.

Abbildung 7: Graphengenerator: links: Tabellengenerator, rechts: Scatter-Plot Generator

3http://www2.chemie.uni-erlangen.de/software/petra/index.html

Page 15: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 15

2.4.2 ReportgeneratorDer Reportgenerator erzeugt eine Übersichtsseite, auf der für alle AnalyseergebnisseHyperlinks zu den individuellen Ergebnisseiten angegeben sind. Abbildung 8 zeigteinen Ausschnitt aus dieser Übersichtsseite.

Abbildung 8: Ausgabe des Reportgenerators

Auf den individuellen Ergebnisseiten können die Analyseergebnisse heruntergeladenwerden. Während der Datenanalyse wird mit Hilfe eines Java Programms eine PDF-Dateierzeugt, die die Datenanalyse-Ergebnisse in einer präsentationsreifen Formzusammenfaßt und die vom Benutzer heruntergeladen werden kann.

2.4.3 VRML-Generator bzw. 3D VisualisierungDie 3D Visualisierung der Daten geschieht anders als ursprünglich geplant über einJava 3D-Applet und nicht durch VRML. Die interaktive Java-basierte Visualisierungerwies sich als praktikabler als eine Visualisierung über VRML.Das 3D-Visualisierungsmodul, das auf einem Modul basiert, das im Rahmen desChemVis-Teilprojektes des DFG-Schwerpunktprogramms „Verteilte Verarbeitung undVermittlung digitaler Dokumente“ (V3D2) entwickelt wurde, kann zusätzlich zu dendrei Koordinaten drei weitere Dimensionen durch sog. Glyphs darstellen, wobei diezusätzlichen Dimensionen durch Farbe, Form und Größe der Glyphs angezeigtwerden.

Diese dreidimensionalen Graphen sind zoombar und rotierbar. Über eine Filteroptionlassen sich Teile des Graphen hervorheben und andere Teile ausschließen. EineSelektionsoption ermöglicht eine Ausschnittsvergrößerung eines ausgewähltenBereichs.Durch Anklicken einzelner Datenpunkte oder auch eines ausgewählten Bereichswerden die in diesem Bereich enthaltenen Daten separat angezeigt.

Page 16: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 16

Abbildung 9: 3D Visualisierung; links: Glyphs, rechts: Säulendiagramm

Neben der Darstellung durch Glyphs sind auch Darstellungen in Form von 3DScatter-Plots oder 3D Säulendiagrammen möglich.

2.4.4 PNG-GraphikgeneratorDer PNG-Graphikgenerator ist in den Scatter-Plot Generator des 2D-Graphen-generators integriert. Die Ergebnisgraphen können als PNG- oder als PDF-Dateienabgespeichert werden.

2.5 Benutzerbetreuung, Dokumentation, Hilfesystem Dieser Abschnitt vereinigt die Aspekte, die die Nutzung, die Benutzerbetreuung unddie potentielle Erweiterung des Systems durch andere fachspezifischen Modulebetreffen.

2.5.1 DokumentationDie Dokumentation enthält Informationen über den Aufbau des Systems, dieVerknüpfung der Module und Skripte und über die Schnittstelle zu denDatenanalyse-Methoden. Sie wurde wie auch die Webseiten auf Englisch verfaßt umdie Informationen für eine möglichst große Gruppe potentieller Entwickler vonfachspezifischen Modulen lesbar zu machen. Die Dokumentation wird als PDF Datei für Entwickler möglicher fachspezifischerModule zur Verfügung gestellt.

2.5.2 Betreuung der Entwickler anwendungsspezifischer ModuleDas ELECTRAS System bietet eine eigene Webseite „Additional Subject SpecificModules“ auf der potentielle Entwickler von weiteren fachspezifischen Modulen umKontaktaufnahme gebeten werden. Diesen Entwicklern werden dann bei Bedarf die

Page 17: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 17

Schnittstellendokumentation (siehe Abschnitt 2.5.1) zur Verfügung gestellt und auchweitere Hilfen bei der Integration ihrer Module angeboten werden.

2.5.3 Verbesserung des Gesamtsystems nach BenutzerresonanzBei diversen Präsentationen des Systems am Computer-Chemie-Centrum hat sichgezeigt, daß eine Vielzahl der Benutzer des Systems über nur wenig Erfahrung aufdem Bereich der systematischen Datenanalyse verfügen. Um dieser Tatsachegerecht zu werden, haben wir ein Modul „Work Flow Data Analysis“ integriert, das diewichtigsten Datananalyse-Schritte erläutert. Der Benutzer erhält so einen Überblicküber die Vorgehensweise bei einer Datenanalyse und kann zu den einzelnenSchritten der Datenanalyse Informationen und Hilfestellungen aufrufen (vgl.Abbildung 10).

Abbildung 10: links: Übersichtsseite: Work Flow Data Analysis (hier Statistik-Modul)Rechts: Beispiel: File Upload

So wird beispielsweise im ersten Analyseschritt, dem “File-Upload” das Datenfile undseine einzelnen Komponenten beschrieben (siehe Abbildung 10), so dass derBenutzer bei Bedarf Anpassungen an seinen Dateien vornehmen kann.

2.5.4 Entwicklung eines Online-HilfesystemsDas Online-Hilfe System (siehe Abbildung 11) enthält sowohl Informationen zurBenutzung des Systems als auch Hintergrundsinformationen über die verwendetenVerfahren. Es gliedert sich in fünf Submodule:

• ELECTRAS Data Analysis: gibt einen Überblick über den Aufbau des Systemsund verweist auf die Guided Tour: Work Flow Data Analysis (siehe Abschnitt2.5.3).

• Data Base: erklärt die Benutzung der Datenbank

Page 18: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 18

• Data Analysis Methods: beschreibt die Datenanalyse-Methoden, die inELECTRAS integriert sind

• Download Usage Tutorial: bietet eine Bedienungsanleitung in Form einesTutorials, das als PDF Datei heruntergeladen werden kann

• Download Data Files: für beide Module, sowohl das Statistische Modul alsauch für das Modul zur Analyse chemischer Daten können Beispieldatensätzeheruntergeladen werden.

Abbildung 11: Online Hilfe Module

2.5.5 WerbeveranstaltungenELECTRAS wurde bei verschiedenen Veranstaltungen am Computer-Chemie-Centrum in Erlangen vorgestellt.Dadurch konnten die Abteilung „Preclinical R&D - Global Technologies“ der MerckKGaA, Darmstadt und die Bruker Daltonik GmbH, Leipzig als Nutzer für ELECTRASgewonnen werden.

Zudem wurde ELECTRAS im Rahmen des VICIM EU-Projektes vorgestellt und aufdem VICIM Symposium “Industrial Chemometrics - Achievements and Promises“ imMärz 2003 präsentiert.

2.5.6 Internationale KooperationWir konnten verschiedene internationale Partner gewinnen, die ELECTRAS für IhreStudien einsetzen und zum Testen bzw. zur Evaluation von ELECTRAS beitragen:• Dr. Igor Tetko (z.Zt. GSF - Forschungszentrum für Umwelt und Gesundheit,

Neuherberg, Deutschland)• Dr. Vladimir Palyulin (Staatl. Universität Moskau, Rußland)• Dr. Vsevolod Vashchuk (Nationale Akademie der Wissenschaften der Ukraine,

Ukaine)

Page 19: DFN Projekt e-DAS/ELECTRAS - GWDGwebdoc.sub.gwdg.de/ebook/ah/dfn/eDAS.pdf · 2003-10-30 · 2.4.2 Reportgenerator 15 2.4.3 VRML-Generator bzw. 3D Visualisierung 15 2.4.4 PNG-Graphikgenerator

Abschlußbericht e-DAS/ELECTRAS 30.04.2003

Abschlußbericht.doc 19

3. NachhaltigkeitDas ELECTRAS System ist inzwischen zu einem wichtigen Service auf unserenWebseiten geworden. Wir werden auch weiterhin das System am Computer-Chemie-Centrum warten und pflegen. Einige Elemente des ELECTRAS Systems werden innerhalb des ChemVisTeilprojektes des DFG-Projektes „Verteilte Verarbeitung und Vermittlung digitalerDokumente“ Verwendung finden.Darüber hinaus wird eine Verwertung des Projektes im Rahmen des BMBF-Projektes„Vernetzes Studium-Chemie“ durch das FIZ-Chemie angestrebt.

4. Publikationen und Präsentationen

Publikationen

U. Burkard: „ELECTRAS-online Service zur elektronischen Datenanalyse“,Nachrichten aus der Chemie, erscheint Juli 2003

U. Burkard: “Tool: Electronic Data Analysis Service (ELECTRAS)” in J. Gasteiger,Th. Engel (Edts.): Chemoinformatics Textbook, WILEY-VCH, Weinheim, in Druck

Präsentationen

J. Gasteiger: "Neural Networks as Data Mining Tools in Drug Design", Symposium"Computational Methods in Toxicology and Pharmacology Integrating InternetResources" , Bordeaux, 11. - 13.7.2001

U. Burkard, G. Lekishvili, J. Gasteiger: „Electronic Data Analysis Service (e-DAS)-Webbasierte Datenanalyse für Anfänger und Fortgeschrittene“, „Mensch undComputer 2002“, Hamburg, 2. - 5.9.2002.

U. Burkard: “Neural Networks in Drug Design”, Symposium “Industrial Chemometrics-Achievements and Promises”, Brüssel, 28. - 28.3.2003