@phdthesis{Stiefl2004, author = {Stiefl, Nikolaus Johannes}, title = {Entwicklung, Validierung und Anwendung einer neuen translations- und rotationsinvarianten 3D-QSAR-Methodik}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-8230}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2004}, abstract = {Die vorliegende Arbeit beschreibt die Entwicklung und Validierung der neuartigen 3D-QSAR Technik Mapping Property Distributions of Molecular Surfaces (MaP). Die Methode ist gegen{\"u}ber Translation und Rotation invariant, d. h. eine {\"U}berlagerung der Molek{\"u}le, wie sie zum Beispiel f{\"u}r CoMFA n{\"o}tig ist, entf{\"a}llt. MaP basiert auf der Charakterisierung der Molek{\"u}le nach ihrer F{\"a}higkeit Wasserstoffbr{\"u}cken auszubilden, sowie ihrer Hydrophobie / Hydrophilie. Dabei werden jedoch nicht nur die atombasierten Eigenschaften, sondern auch die Oberfl{\"a}cheneigenschaften der Molek{\"u}le zur Charakterisierung genutzt. Diese Losl{\"o}sung von der chemischen Struktur der Verbindungen erlaubt es, die f{\"u}r die Ligand-Rezeptor-Interaktion (bzw. Substrat-Enzym-Interaktion) wichtigen Grenzfl{\"a}chen zu charakterisieren. Die wichtigsten methodischen Elemente der MaP-Technik, sowie die erhaltenen Ergebnisse der untersuchten Datens{\"a}tze sollen hier noch einmal in kurzer Form dargestellt werden: Die theoretische Basis des MaP-Deskriptors bilden so genannte Radialverteilungsfunktionen. Mittels dieser selektiven Distanz-Z{\"a}hlstatistiken (SDZS) k{\"o}nnen sowohl die Form der Molek{\"u}le, als auch die Verteilung der einzelnen Oberfl{\"a}cheneigenschaften zueinander, in einem einzelnen Vektor beschrieben werden. Die MaP-Variablen kodieren dabei die Gr{\"o}ße (absolute Anzahl an Eintr{\"a}gen), sowie die Orientierung (Distanz) verschiedener Oberfl{\"a}cheneigenschaften zueinander. Die Grundlage der Oberfl{\"a}cheneigenschaften stellen atomare Charakteristika wie das Wasserstoffbr{\"u}ckenbindungspotential sowie die atomare Hydrophobie / Hydrophilie dar. Diese Eigenschaften werden den Atomen mittels einfacher Regeln (Wasserstoffbr{\"u}cken) bzw. einer Substruktursuche (Hydrophobie / Hydrophilie) zugewiesen und dann auf die Oberfl{\"a}che projiziert. Um die mathematische Transformation der Rohdaten in die SDZS zu erm{\"o}glichen, muss die Molek{\"u}loberfl{\"a}che durch gleichverteilte Oberfl{\"a}chenpunkte diskretisiert werden. Da diese Anforderung von gebr{\"a}uchlichen analytischen Oberfl{\"a}chenberechnungsmethoden, wie zum Beispiel dem GEPOL-Algorithmus, nicht erf{\"u}llt wird, wurde der GEPOL-Algorithmus so modifiziert, dass ein Zusammenhang zwischen der Oberfl{\"a}chengr{\"o}ße und der Anzahl an Oberfl{\"a}chenpunkten gegeben ist. Da es aufgrund dieser Diskretisierung jedoch zum Verlust der Invarianz gegen{\"u}ber Translation und Rotation kommen kann, wurde der Bestimmung der Molek{\"u}loberfl{\"a}chen eine spezielle Technik zur Ausrichtung der Molek{\"u}le im Koordinatensystem (Kanonisierung) vorgeschaltet. Dadurch wird ein identischer MaP-Deskriptor unabh{\"a}ngig von der Position der Molek{\"u}le im Raum garantiert. Um den Diskretisierungsfehler der Oberfl{\"a}chenbestimmung weiter zu reduzieren, wurde eine unscharfe Z{\"a}hlweise bei der Berechnung des MaP-Deskriptors adaptiert. Diese erlaubt es, Eintr{\"a}ge die an den Kategoriengrenzen des MaP-Vektors liegen, auf die beiden n{\"a}chsten Zentren zu verteilen. Dadurch werden kleine Schwankungen in den Distanzwerten kompensiert. Zur Modellbildung werden die infomativsten Variablen (MIV) mit Hilfe der ‚Reverse-Elimination-Method'-Tabu-Suche (REM-TS) identifiziert. Die so erhaltenen MIV's k{\"o}nnen auf die Molek{\"u}le zur{\"u}ckprojiziert werden, was die Interpretation der berechneten Modelle stark vereinfacht. Zur Visualisierung der Ergebnisse k{\"o}nnen die Variablen unter Zuhilfenahme der unscharfen Z{\"a}hlweise nochmals gefiltert werden, um die Interpretation hoch besetzter Variablen zu vereinfachen. Da es aufgrund der Variablenselektion zu einer Zufallskorrelation in der Modellbildung kommen kann, werden die erhaltenen Modelle einer strengen Validierung unterzogen. Dabei werden neben der sehr anspruchsvollen ‚Lass-mehrere-Objekte-heraus'-Kreuzvalidierung als G{\"u}tefunktion der Variablenselektion auch ein Permutationstest der Modelle sowie eine Testdatenvorhersage angewandt. Durchl{\"a}uft ein Modell all diese Validierungsschritte erfolgreich, so ist die Wahrscheinlichkeit einer Zufallskorrelation sehr gering. Um die Anwendbarkeit und die G{\"u}te des MaP-Deskriptors zu {\"u}berpr{\"u}fen, wurden verschiedene Datens{\"a}tze untersucht. Diese k{\"o}nnen entsprechend ihrer Zielsetzung in unterschiedliche Gebiete aufgeteilt werden. Der erste Datensatz (Steroide) wird in der QSAR h{\"a}ufig als Vergleichsdatensatz eingesetzt. Ein weiterer Datensatz umfasst strukturell sehr heterogene Substanzen, die ein augenirritierendes Potential aufweisen (ECETOC). Inhibitoren des EndothelinA-Rezeptors (ETA) bildeten einen weiteren Datensatz. Die enthaltenen Molek{\"u}le sind im Datenraum stark in Untergruppen geklustert. Weiterhin wurden konformell sehr flexible, allostere Modulatoren des muskarinischen M2-Rezeptors (M2-Modulatoren) untersucht. Dieser Datensatz diente aufgrund der hohen Flexibilit{\"a}t der Molek{\"u}le auch zur {\"U}berpr{\"u}fung der konformellen Abh{\"a}ngigkeit der Methode. Die Erweiterung des Standardparametersatzes wurde mit Hilfe von Naphthylisochinolin-Derivaten (NIQ) untersucht, die eine Aktivit{\"a}t gegen Plasmodium falciparum aufweisen. Ein weiterer Datensatz, deren Molek{\"u}le die {\"O}ffnungswahrscheinlickeit ATP-abh{\"a}ngiger Kalium-Kan{\"a}le erh{\"o}ht (KCO), wurde herangezogen, um den Vorteil der mathematischen Transformation der MaP-Technik gegen{\"u}ber der von GRIND benutzten MACC-2-Transformation herauszustellen. Inhibitoren des nicotinischen Acetylcholin-Rezeptors (CAR) bildeten einen weiteren Datensatz f{\"u}r den bisher keine QSAR-Studie vorlag. Zur strukturbasierten Validierung der Methode wurden Inhibitoren der Acetylcholinesterase (APZ-Datensatz) untersucht. Hierbei wurde gepr{\"u}ft, ob die aus der Kristallstruktur der Acetylcholinesterase wichtigen Ligand-Enzym-Wechselwirkungen durch MaP beschrieben werden. Die Ergebnisse dieser Untersuchungen lassen folgenden R{\"u}ckschl{\"u}sse zu: Im Vergleich mit bereits etablierten 3D-QSAR-Techniken wie CoMFA, CoMSIA oder GRID/PLS f{\"u}hrt die MaP-Technik zu vergleichbar guten Modellen (Steroide, ETA, M2-Modulatoren). Durch die Losl{\"o}sung vom strukturellen Grundger{\"u}st der Substanzen k{\"o}nnen auch strukturell diverse Datens{\"a}tze gut modelliert und die relevante Information extrahiert werden (ECETOC). Dies ist mit Deskriptoren, die eine gemeinsame Ausrichtung der Molek{\"u}le ben{\"o}tigen (z.B. CoMFA), oft nicht m{\"o}glich. Auch Datens{\"a}tze, deren Objekte geklustert vorliegen, k{\"o}nnen mittels MaP gut modelliert werden. MaP ist dabei in der Lage die relevante Information sowohl zwischen, als auch innerhalb der einzelnen Gruppen zu extrahieren (ETA). Auch f{\"u}r Datens{\"a}tze, deren Molek{\"u}le eine sehr hohe Flexibilit{\"a}t aufweisen, ist es m{\"o}glich mit MaP gute Modelle zu erhalten (M2-Modulatoren, APZ). Hierbei ist es jedoch wichtig, zu beachten, dass MaP als 3D-QSAR-Technik gegen{\"u}ber der Konformation der Molek{\"u}le nicht invariant ist. Bei der Anwendung der Methode zeigte sich jedoch, dass kleine konformelle {\"A}nderungen der Verbindungen oft einen sehr geringen Einfluss auf die Ergebnisse der Methode haben (M2-Modulatoren, APZ). Bei der Untersuchung der NIQ-Daten zeigte sich, dass unter Verwendung der MaP-Standardparameter bereits die relevanten Eigenschaften der Molek{\"u}le charakterisiert werden k{\"o}nnen. Allerdings f{\"u}hrte eine Erweiterung dieser Parameter zu einer Vereinfachung der Interpretation der Ergebnisse. Hierbei ist jedoch darauf zu achten, dass die Modellvalidierung strikt eingehalten werden muss. Der Vorteil der mathematischen Transformation der Rohdaten (SDZS) gegen{\"u}ber der von GRIND verwendeten MACC-2 Transformation konnte mittels der KCO-Daten aufgezeigt werden. Das erhaltene Modell spiegelte sehr sch{\"o}n die bereits bekannten Struktur-Wirkungs-Beziehungen wider. Leider ist die publizierte Datenlage in diesem Falle noch nicht ausreichend, um einen abschließenden Vergleich der beiden konkurrierenden Techniken zu erm{\"o}glichen. Beim CAR-Datensatz war MaP in der Lage, neben der bekannten, relevanten strukturellen Allylalkoholgruppe ein weiteres strukturelles Merkmal zu identifizieren. Abschließend konnte gezeigt werden, dass MaP in der Lage ist, die f{\"u}r die Wechselwirkung zwischen Acetylcholinesterase und Ligand wichtigen Interaktionsstellen und Charakteristika eindeutig zu identifizieren (APZ-Datensatz). Diese Eigenschaften wurden zur besseren Interpretation der Ergebnisse in die Bindetasche projiziert. Die Ergebnisse dieser Untersuchungen zeigen, dass die entwickelte Technik ein weites Anwendungsspektrum besitzt, leicht zu interpretieren ist und sich dabei durch ihre Robustheit auszeichnet. Vor allem aber liefert MaP aussagekr{\"a}ftige 3D-QSAR-Modelle. Bei der MaP-Methode handelt es sich jedoch nicht nur um einen neuen Molek{\"u}ldeskriptor, sondern um eine Kombination aus Deskriptor, mathematischer Modellierung, Modellvalidierung und Modellvisualisierung. Obwohl MaP in Hinsicht auf Modellqualit{\"a}t und Modellinterpretierbarkeit Techniken wie zum Beispiel CoMFA in nichts nachsteht, sind aufgrund der einfachen und trotzdem hocheffizienten mathematischen Grundlagen folgende Erweiterungen denkbar: (1) als dreidimensionale Technik ist MaP von den Ausgangskonformationen der Molek{\"u}le abh{\"a}ngig. Findet sich im untersuchten Datensatz ein starres Molek{\"u}l (M2-Modulatoren) oder aber sind Informationen {\"u}ber einen m{\"o}glichen Bindungsmodus vorhanden, so k{\"o}nnen diese Konformationen relativ leicht erhalten werden. Da dies jedoch nicht immer der Fall ist, ist eine Erweiterung der Technik in die vierte Dimension (konformelle Flexibilit{\"a}t) wichtig. Dass dies prinzipiell m{\"o}glich ist, konnte Hopfinger bereits zeigen. Da die mathematische Grundlage der MaP-Technik sehr einfach ist, sollte diese Art der Erweiterung in die vierte Dimension auch f{\"u}r MaP m{\"o}glich sein. (2) Momentan ist der MaP-Deskriptor auf Verkn{\"u}pfungen zwischen zwei Oberfl{\"a}chenpunkten beschr{\"a}nkt. Diese Einschr{\"a}nkung k{\"o}nnte dazu f{\"u}hren, dass Inkremente ein und derselben Variablen aus verschiedenen Teilen des Molek{\"u}ls stammen. Wenn nur ein Teil davon Eigenschaften kodieren, die relevant f{\"u}r die Ligand-Rezeptor-Interaktion sind, k{\"o}nnte dies theoretisch zu Inkonsistenzen in dem resultierenden Modell f{\"u}hren. Bei den bislang untersuchten Datens{\"a}tzen konnte dies noch nicht beobachtet werden. Eine m{\"o}gliche Erkl{\"a}rung hierf{\"u}r ist, dass die MaP-Variablen zu einem gewissen Grad redundant sind, d.h. das selbe Ph{\"a}nomen kann durch verschiedene Variablen beschrieben werden. Von diesen redundanten Variablen werden durch die strenge Validierung diejenigen vom Suchalgorithmus der Variablenselektion identifiziert, die am wenigsten mit anderen Eigenschaften vermengt sind. Prinzipiell ist eine solche Problematik jedoch denkbar. Um die Wahrscheinlichkeit eines derartigen Ph{\"a}nomens weiter zu reduzieren, sollten die bisher genutzten Zweipunktverkn{\"u}pfungen auf drei Punkte erweitert werden.}, language = {de} }