5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation,...

44
5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug designs am Computer, vor allem dann, wenn keine Strukturinformation über das target (Enzym) vorhanden ist. Erfordert das Vorhandensein von experimentellen Meßdaten für eine Reihe von bekannten Verbindungen, z.B. aus High Throughput Screening QSAR-Gleichungen stellen einen quantitativen Zusammenhang zwischen chemischer Struktur und (biologischer) Aktivität her. n n P k P k P k C 2 2 1 1 ) / 1 log(

Transcript of 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation,...

Page 1: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 1

QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren

Das Handwerkszeug des rational drug designs am Computer, vor allem dann, wenn keine Strukturinformation über das target (Enzym) vorhanden ist.

Erfordert das Vorhandensein von experimentellen Meßdaten für eine Reihe von bekannten Verbindungen, z.B. aus High Throughput Screening

QSAR-Gleichungen stellen einen quantitativen Zusammenhang zwischen chemischer Struktur und (biologischer) Aktivität her.

nn PkPkPkC 2211)/1log(

Page 2: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 2

Begriffsdefinitionen

QSAR: quantitative structure-activity relationsship

QSRP: quantitative structure-property relationship

Activity und Property sind z.B:

log(1/Ki) Bindungskonstante log(1/IC50) Konzentration bei der 50% Wirkung eintritt

Physikalische Größen, wie Siedepunkt, Löslichkeit, …

Ziel: Voraussage von Moleküleigenschaften anhand ihrer Struktur, ohne eine expt. Meßung durchführen zu müßen.

→ in silico anstatt in vitro oder in vivo

Vorteil: Einsparung von Zeit und Resourcen

Page 3: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 3

Zeitliche Entwicklung von QSAR Methoden (I)

1868 A.C.Brown, T.Fraser:Physiologische Aktivität ist eine Funktion der

chemischen Konstitution (Zusammensetzung)

Aber: Eine direkte Beziehung ist nicht gegeben, sodern immer nur über die Unterschiede.

Zur Erinnerung:1865 Strukturvorschlag für Benzol von A. KekuléDie chemische Struktur der meisten organischen Verbindungen ist noch unbekannt !

1893 H.H.Meyer, C.E.OvertonToxizität von organischen Verbindungen steht im Verhältnis zu deren Verteilung zwischen wäßrigem und lipophilen biologischem Medium

Page 4: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 4

Zeitliche Entwicklung von QSAR Methoden (II)

1868 E.FischerSchlüssel-Schloß Prinzip bei Enzymen

Widerum keinerlei strukturelle Information über Enzyme vorhanden !

1930-40 Hammet Gleichung: Reaktivität physikalisch, organische, theoretische Chemie

1964 C.Hansch, J.W.Wilson, S.M.Free, F.FujitaGeburtsstunde der modernen QSAR-MethodenHansch-Analyse bzw. Free-Wilson-Analyse

linear free energy-related approach

nn PkPkPkC 2211)/1log(

Koeffizienten (konstant) Deskriptoren oder Variablen

Page 5: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 5

Deskriptoren

Ansätze eine mathematische Beziehung zwischen numerischen Eigenschaften (Deskriptoren Pi) und physikochemischen Eigenschaften der Verbindung (z.B. biologische Aktivität log(1/C) ) herzustellen, werden als QSAR, bzw QSPR bezeichnet.

nn PkPkPkC 2211)/1log(

Daneben werden Deskriptoren auch zur Beschreibung von Molekülen in der Diversitäts Analyse und in Kombinatorischen Bibliotheken eingesetzt.

Prinzipiell kann jede molekulare Eigenschaft als Deskriptor verwendet werden.

Mehr zu Deskriptoren unter http://www.chemcomp.com/Journal_of_CCG/Features/descrip.html

Page 6: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 6

Informationsfluß in einer drug discovery pipeline

Page 7: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 7

KomponentenauswahlWieviel Information ist über das target vorhanden ?

X-Ray mit Wirkstoff

X-Ray des Proteins

Reihe von wirksamen Verbindungen

Wenige hits aus HTS

Kenntnis der Enzymfunktion

(z.B. Kinase, GPCR)

Zun

ehm

ende

Inf

orm

atio

n

eADME Filter

Erstellen einer virtuellen Bibliothek

combi chem

active site

QSAR, Pharmacophor erstellen

Docking HTS

Page 8: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 8

Molekülbasierte Deskriptoren zurVoraussage der ADME Eigenschaften

logP Wasser/Octanol Verteilungskoeffizient

Lipinski‘s rule

Topologische Indices

Polar surface area

Similarität / Dissimilarität

QSAR quantitative structure activity relationship

QSPR quantitative structure property rel.

Page 9: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 9

„1D“ Deskriptoren (I)

Für einige Deskriptoren benötigt man nur Kenntnisse die sich bereits aus der Summenformel der Verbindung erhält. Bsp.:

Molmasse, Gesamtladung, Anzahl von Halogenatomen

Weitere solcher eindimensionaler Deskriptoren ergeben sich additiv aus atomaren Beiträgen. Bsp.:

Summe der atomaren Polarisierbarkeiten

Refraktivität (Brechungsindex n, molar refractivity, MR)

MR = (n2 –1) MW / (n2 +2) d mit Dichte d, Molekülgewicht MW

Ist abhängig von der Polarisierbarkeit und enthält außerdem

das Molekülvolumen (MW / d)

Page 10: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 10

logP (I)

Der Wasser/n-Octanol Verteilungskoeffizient bzw. der

logarithmierte Wert wird als logP bezeichnet.

Wird oft zur Abschätzung der Membrangängigkeit und der Bioverfügbarkeit einer Verbindung eingesetzt, da ein oral applizierter Wirkstoff lipophil genug sein muß um durch die Lipidschicht der Membrane zu gelangen, andererseits wasserlöslich sein muß um in Blut und Lymphe transportiert zu werden

hydrophil –4.0 < logP < +8.0 lipophil

Zitronensäure –1.72 Iodbenzol +3.25

Typische Wirkstoffe < 5.0

Page 11: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 11

logP (II)

Zur Vorhersage des logP wurde eine Reihe von Methoden entwickelt:

basierend auf Atomtypen

SlogP S.A. Wildman & G.M.Crippen J.Chem.Inf.Comput.Sci.

39 (1999) 868.

AlogP, MlogP, XlogP...

basierend auf Molekülfragmenten (Gruppen und Reste)

ClogP Leo, Hansch et al. J.Med.Chem. 18 (1975) 865.Problem: Aufreten von nicht parametrisierten Fragmenten (bis zu 25% in Substanzbibliotheken)

Jeweils mittels einer mathematischen Fitprozedur (Regressionanalyse, Neuronales Netz) erstellt.

Page 12: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 12

logP (III)

Neuere Methoden zur Vorhersage des logP verwenden zunehmend Eigenschaften des kompletten Moleküls, wie etwa

Moleküloberfläche (polare/unpolare, bzw.deren

elektrostatische Eigenschaften)

Dipolmoment und Polarisierbarkeit

Volumen / Oberfläche (Globularität)

Bsp: mit Hilfe quantenmechanischer Daten trainiertes

Neuronales Netz

logP T. Clark et al. J.Mol.Model. 3 (1997) 142.

Page 13: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 13

„1D“ Deskriptoren (II)

Weitere atomare Deskriptoren benutzen Information basierend auf empirischen Atomtypen wie in einem Kraftfeld. Bsp.:

Anzahl von Halogenen

Anzahl von sp3 substituierten Kohlenstoffatomen

Anzahl von H-Brücken Akzeptoren (N, O, S)

Anzahl von H-Brücken Donoren (OH, NH, SH)

Anzahl aromatischer Ringe

Anzahl von COOH Gruppen

...

Anzahl frei drehbarer Bindungen

Page 14: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 14

fingerprints

Binärer fingerprint eines Moleküls

Page 15: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 15

Lipinski´s Rule of 5

Kombination von Deskriptoren zur Abschätzung der intestinalen Absorption. Schlechte Aufnahme der Verbindung, wenn

C.A. Lipinski et al. Adv. Drug. Delivery Reviews 23 (1997) 3.

Molekülmasse > 500

logP > 5.0

> 5 H-Brücken Donoren (OH und NH)

>10 H-Brücken Akzeptoren (N und O)

Schlechte Diffusion

Zu lipophil

Zuviele H-Brücken mit den

Kopfgruppen der Membran

Page 16: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 16

2D Deskriptoren (I)

Bei Deskriptoren die sich aus der

Molekülkonfiguration (kovalente

Verknüpfung der Atome) ableiten,

spricht man von 2D Deskriptoren.

Da keine Atomkoordinaten

verwendet werden sind 2D

Deskriptoren generell

konformationsunabhängig

obwohl sie topologische

Information über das

Molekül enthalten.

Vgl. Darstellung mittels SMILES

C 1

C5

H 2 H 3

H4

O 7

H 6

0213332

2013332

1102221

3320221

3322021

3322201

2211110

0010000

0010000

1100001

0000001

0000001

0000001

0011110

7

6

5

4

3

2

1

Dmatrix distanceMmatrix adjacency

O

H

C

H

H

H

C

Page 17: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 17

2D Deskriptoren (II)

Die wesentlichsten topologischen Eigenschaften eines Moleküls sind der Verzeigungsgrad und die molekulare Form.

C 1

C5

H 2 H 3

H4

O 7

H 6

Für Kohlenstoff stehen 4 Valenzen zur Verfügung.

Das Verhältnis der tatsächlichen Verzweigung zur theoretisch möglichen Verzeigung läßt sich deshalb

als Deskriptor verwenden.

Page 18: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 18

2D Deskriptoren (III)

Deskriptoren für den Verzweigungsgrad und die Flexibilität eines Moleküls:

Kier & Hall Connectivity Indicespi Anzahl der s und p Valenzelektronen an Atom i

vi = (pi – hi ) / (Zi – pi – 1) für alle schweren Atome

Allgemeine Definitionen:Zi Ordnungszahl (H=1, C=6, LP=0)

hi Anzahl H-Atome die an Atom i gebunden sind

di Anzahl schwerer Atome die an Atom i gebunden sind

Page 19: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 19

Kier und Hall Connectivity Indices

Chi0 0. Ordnung 0 mit eSchweratom allefür 1

0 ii i

dd

Zi Ordnungszahl (H=1, C=6, LP=0)

di Anzahl schwerer Atome die an Atom i gebunden sind

pi Anzahl der s und p Valenzelektronen an Atom i

vi = (pi – hi ) / (Zi – pi – 1) für alle schweren Atome

Chi1 1. Ordnung

ist gebunden an

wenneSchweratom allefür 1

1

ji

ddi ij ji

Chi0v

Valenzindex0mit eSchweratom allefür

10 i

i i

v vv

Page 20: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 20

Kier und Hall Shape Indices (I)

Kappa1

n Anzahl schwerer Atome (Nicht-Wasserstoffatome)

m Anzahl aller Bindungen zwischen den schweren Atomen

Kappa3

2

2

1

)1(

m

nn

p2 Anzahl der Pfade mit Länge 2

p3 Anzahl der Pfade mit Länge 3 aus der Distanzmatrix D

np

nn

np

nn

geradefür )2()3(

ungeradefür )3()1(

23

2

3

23

2

3

Kappa2 22

2

2

)2()1(

p

nn

Kappa3

Page 21: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 21

Kier und Hall Shape Indices (II)

ri Kovalenzradius von Atom i

rc Kovalenzradius eines sp3

Kohlenstoffatoms

KappaA1

Setzt man die Atome in Relation zu sp3-hybridisierten C-Atomen so erhält man die Kappa alpha Indices

n

i c

i

r

r

1

nsm

ssmit

)(

)1(2

2

1

ElementHybridi-sierung

C sp3 0

C sp2 -0.13

C sp -0.22

N sp3 -0.04

N sp2 -0.20

N sp -0.29

O sp3 -0.04

P sp3 +0.43

S sp3 +0.35

Cl +0.29

Page 22: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 22

Balaban, Wiener und Zagreb Indices

Zagreb

n Anzahl schwerer Atome (Nicht-Wasserstoffatome)

m Anzahl aller Bindungen zwischen den schweren Atomen

di Anzahl schwerer Atome die an Atom i gebunden sind

BalabanJ

idi

i Atomeschweren allefür 2

ji

iji Dw Summe der nichtdiagonalen Matrixelemente von Atom i in der Distanzmatrix D

m

ji wwnm

m 1

1

WienerJ (Pfad Nummer) n

iiw2

1

WienerPolarität 3 wenn 21 ij

n

ii Dw

Korreliert mit den Siedepunkten von Alkanen

Page 23: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 23

Was sagen die topologischen Indices aus ?

In der Regel läßt sich eine chemische Eigenschaft nicht

direkt mit einem einzigen Index korrellieren.

Topologische Indices kodieren prinzipiell dieselben Eigenschaften wie fingerprints, jedoch weniger einleuchtend, aber numerisch einfacher aufzustellen.

Topologische Indices sind assoziert mit

Verzweigunsgrad des Moleküls

Größe und räumliche Ausdehnung des Moleküls

Strukturelle Flexibilität

Page 24: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 24

3D Deskriptoren

Bei Deskriptoren die Atomkoordinaten des Moleküls

verwenden spricht man von 3D Deskriptoren.

Diese sind deshalb in der Regel konformationsabhängig.

Beispiele:

Van der Waals Volumen, Molekulare Oberfläche,

Polare Oberfläche, Elektrostatisches Potential (ESP)

Page 25: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 25

Quantenmechanische Deskriptoren (Auswahl)

Atomladungen (partial atomic charges) Keine Observablen !

Mulliken PopulationsanalyseElectrostatic potential (ESP) derived charges

WienerJ (Pfad Nummer)

Dipolmoment

Polarisierbarkeit

HOMO / LUMO

Energien (eV) der Grenzorbitale

Covalent hydrogen bond acidity/basicityDifferenz der HOMO/LUMO Energien zu Wasser

E

HOMO

LUMO

Donor Akzeptor

Lit: M. Karelson et al. Chem.Rev. 96 (1996) 1027

Page 26: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 26

DRAGON

Zagreb

Programm zur Erzeugung von >1400 Deskriptoren

BalabanJ

WienerJ (Pfad Nummer)

WienerPolarität

Roberto Todeschini

Siehe: http://www.disat.unimib.it/chm/Dragon.htm

Page 27: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 27

Weiterführende Information zu Deskriptoren

Zagreb

BalabanJ

WienerJ (Pfad Nummer)

WienerPolarität

Roberto Todeschini, Viviana Consonni

Handbook of Molecular Descriptors, Wiley-VCH, (2000) 667 Seiten(ca. 270 €)

CODESSA Alan R. Katritzky, Mati Karelson et al. http://www.codessa-pro.com

MOLGEN C. Rücker et al.

http://www.mathe2.uni-bayreuth.de/molgenqspr/index.html

Page 28: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 28

Smilaritätsdeskriptoren und Indices (I)A erfüllte Eigenschaft von Molekül A

A B Schnittmenge gemeinsamer Eigenschaften von A und B

A BVereinigunsmenge der Eigenschaften von A und B

Euklidische Distanz

A

B

Manhattan Distanz

A

B

Formel

Definition

Bereich

Andere Namen ∞ bis 0 ∞ bis 0

– City-Block, Hamming

N

iiBiABA xxD

1,

N

iiBiABA xxD

1

2,

BABABAD , BABABAD ,

Page 29: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 29

Smilaritätsdeskriptoren und Indices (II)

Soergel Distanz Tanimoto Index

1 bis 0 –0.333 bis +1 (kontinuierliche Werte) 0 bis +1 (binäre on/off Werte)

– Jaccard Koeffizient

N

iiBiA

N

iiBiABA xxxxD

11, ),max(/

N

iiBiA

N

iiB

N

iiA

N

iiBiABA xxxxxxS

11

2

1

2

1, /

BABABABAD /, BABABAS /,

Bei binären (dichotomen) Werten sind Soergel Distanz und Tanimoto Index zueinander komplementär

Page 30: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 30

Smilaritätsdeskriptoren und Indices (III)

Dice Koeffizient Cosinus Koeffizient

–1 bis +1 0 bis +1 (kontinuierliche Werte) 0 bis +1 0 bis +1 (binäre on/off Werte)

Hodgkin Index Carbo Index

Czekanowski Koeffizient Ochiai Koeffizient

Sørensen Koeffizient

Monoton mit dem Tanimoto Index

Hoch korreliert mit dem Tanimoto Index

N

iiB

N

iiA

N

iiBiABA xxxxS

1

2

1

2

1, /2

N

iiB

N

iiA

N

iiBiABA xxxxS

1

2

1

2

1, /

BABABAS /2, BABABAS /,

Page 31: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 31

x

y

hoher Korrelationsgrad r > 0.84

geringer Korrelationsgrad 0< r < 0.84

r < 0.5 anti-korreliert

Korrelation der Deskriptoren (I)Ebenso wie konkrete Moleküleigenschaften sind auch die Deskriptoren oft miteinander korreliert.

Um aus der Vielzahl der Deskriptoren eine möglichst aussage-kräftige Kombination zu erhalten, müssen multivariante Methoden

der Statistik angewandt werden.

]1...1[

1

2

1

2

1

n

ii

n

ii

n

iii

yyxx

yyxxr

Auftragung zweier Variablen x und y im

Craig-Plot

Korrelation nach Pearson

Page 32: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 32

Korrelation der Deskriptoren (II)

Im allgemeinen hat steht man vor dem Problem aus der Vielzahl vorhandener Deskriptoren die statistisch relevanten (und damit die aussagekräftigsten) für die jeweilige QSAR-Gleichung zu finden.

Pro Deskriptor sollten 5 Moleküle (Datenpunkte) vorhanden sein, sonst ist die Gefahr einer zufälligen Korrelation zu hoch

Lösungsansatz: Ermittlung der unkorrelierten Variablen mittels einer principal component analysis (PCA) – siehe unten – oder Anwendung der partial least square (PLS) Technik

Page 33: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 33

Partial least square (PLS)Die Aktivität y wird als spezielle Linearkombination der Variablen bzw. Moleküleigenschaften xi ausgedrückt

wobei

mm tbtbtbtby 332211

nmnmmm

nn

nn

xcxcxct

xcxcxct

xcxcxct

2211

22221212

12121111

Die latenten Variablen ti werden so konstruiert, daß sie zueinander orthogonal, also unkorreliert sind. → Statistikprogramme

D.h. durch Kombination der ursprünglichen Moleküleigen-schaften werden neue Komponenten erzeugt, die unkorreliert zueinander sind.

Page 34: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 34

Principal Component Analysis PCA (I)

Die Hauptkomponentenanalyse erzeugt eine Serie unkorrelierter Variablen aus einem Satz korrelierter Variablen.

Dazu wird eine Koordinatentransformation der Datenmatrix durchgeführt, sodaß die erste Hauptachse (pc1) die größte Streuung (Varianz) der Datenpunkte aufweist.

Die zweite (pc2) und folgende Hauptachsen stehen orthogonal zueinander und deren Komponenten sind unkorreliert zueinander.

Problem: Welche sind die entscheidenden Deskriptoren im Datensatz ?

Lit: E.C. Pielou: The Interpretation of Ecological Data, Wiley, New York, 1984

Page 35: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 35

Principal Component Analysis PCA (II)

Die erste Hauptachse (pc1) weißt die größte Streuung (Varianz) der Datenpunkte auf, während die zweite (pc2) und folgende Hauptachsen orthogonal dazu stehen.

Page 36: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 36

Principal Component Analysis PCA (III)

Die signifikanten Hauptkomponenten haben meistens einen Eigenwert >1 (Kaiser-Guttman Kriterium). Zusätzlich tritt meistens ein Knick zu den weniger relevanten auf (Scree-Test)

Page 37: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 37

Principal Component Analysis PCA (IV)

Durch die so ermittelten relevanten Hauptkomponenten sollte sich mehr als 80% der gesamten Varianz erfassen lassen

Page 38: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 38

Principal Component Analysis (V)

Eigenschaft pc1 pc2 pc3

Dipolmoment 0.353

Polarisierbarkeit 0.504

Mittel des +ESP 0.397 -0.175 0.151

Mittel des –ESP -0.389 0.104 0.160

Variance des ESP 0.403 -0.244

Minimales ESP -0.239 -0.149 0.548

Maximales ESP 0.422 0.170

Molekülvolumen 0.506 0.106

Oberfläche 0.519 0.115

Anteil an derGesamtvariance 28% 22% 10%

Bsp: Durch welche Deskriptoren wird der logP bestimmt ?

Lit: T.Clark et al. J.Mol.Model. 3 (1997) 142

Page 39: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 39

QSAR-Gleichungen (I)

Hat man nun möglichst viele unkorrelierte Eigenschaften, müßen nun noch die Koeffizienten ki bestimmt werden. Dies geschieht durch multiple lineare Regressionsanalyse (least square fit der besten Kombination der Koeffizienten) → Statistikprogramme

Meistens kann man nicht die beste Kombination aller möglichen Kombinationen von Deskriptoren berechnen.

(exponentielle Laufzeit)

In der Regel fängt man deshalb mit dem Deskriptor an der die höchste Einzelkorrelation zeigt und nimmt schrittweise weitere

Deskriptoren hinzu (forward regression).

Oder man fängt mit allen Deskriptoren an und entfernt sukzessive diejenigen die die Korrelation am wenigsten verschlechtern (backward regression).

Page 40: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 40

QSAR-Gleichungen (II)

Die wichtigsten Statistischen Größen zur Beurteilung einer QSAR-Gleichung sind:

Korrelationskoeffizient (quadriert als r2)

Standartabweichung (standard deviation, se, möglichst klein, se<0.4 Einheiten)

Fisher value F (Maß für die Übertragbarkeit der QSAR-Gleichung auf einen anderen Datensatz, sollte möglichst hoch sein, wird aber mit zunehmender Anzahl der Variablen kleiner)

Probability value p einer einzelner Variablen (Maß für zufällige Korrelation, p<0.05 = 95% Sicherheit)

Page 41: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 41

QSAR-Gleichungen (III)Zur Überprüfung der Aussagekraft der QSAR-Gleichung werden vor allem zwei gebräuchliche Möglichkeiten verwendet:

a) willkürliche Vertauschung der tatsächlichen Aktivitäten (falscher Datensatz) sollte die Voraussagefähigkeit (Standardabweichung) der Gleichung zusammenbrechen lassen.

b) Cross-validation

Es werden verschiedene Gleichungen aufgestellt, wobei jeweils eine Klasse von Eigenschaften (Physicochemisch, biologisch, elektronisch, sterisch) weggelassen wird (leave-one-out) und das Ergebnis mit dem vollständigen Modell verglichen wird. Die erhaltene Standardabweichung wird als PRESS (predictive residual sum of squares) bezeichnet.

Page 42: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 42

QSAR-Gleichungen (IV)

Cross-validation

Der Korrelationskoeffizient q2 der aus der cross-validation erhalten wird ist kleiner als der ursprüngliche Wert r2, aber entsprechend aussage-kräftiger.

Einer der besten Tests ist jedoch die Überprüfung mit einem externen Datensatz.

Page 43: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 43

Interpretation von QSAR-Gleichungen (I)

Die Art der enthaltenden Variablen bzw. Deskriptoren sollte Rückschlüße auf die zugrunde liegenden physiko-chemischen Vorgänge zulassen und so das Design neuer Moleküle durch Interpolation ermöglichen

Die mathematische Form der QSAR-Gleichung kann Aufschluß über den biologischen Wirkungsmechanismus geben:

Eine Abhängigkeit der Aktivität von (log P)2 deutet auf einen Transportvorgang des Wirkstoffes zum Rezeptor hin.

Vorsicht ist bei der Extrapolation über die Grenzen des erfaßten Datenbereiches angebracht. Hier können keine zuverlässigen Vorhersagen gemacht werden.

Page 44: 5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.

5. Vorlesung Modern Methods in Drug Discovery WS05/06 44

1965 1967 1969 1971 1973 1975 1977 1979 1981

year

500

700

900

1100

1300

1500

1700

1900

2100

am

ou

nt

storksbabies

Interpretation von QSAR-Gleichungen (II)Zwischen den verwendeten Deskriptoren und der Meßgröße sollte ein schlüssiger Zusammenhang stehen.

Hierzu ein Gegenbeispiel: H. Sies Nature 332 (1988) 495.

Wissenschaftlicher Beweis, daß der Storch die Babies bringt

Die Daten hierzu finden sie unter /home/stud/mihu004/qsar/storks.spc