Filtern
Volltext vorhanden
- ja (3)
Gehört zur Bibliographie
- ja (3)
Dokumenttyp
- Dissertation (3)
Sprache
- Deutsch (3) (entfernen)
Schlagworte
- Chemometrie (3) (entfernen)
Diese Dissertation beschreibt Methoden zur Lösung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der Überprüfung ihrer Leistungsfähigkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis häufig vernachlässigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums Gültigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschränkt, außerhalb derer eine verläßliche Vorhersage unmöglich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabhängigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatensätze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls wünschenswert war die Fähigkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gewährleisten. Die Methode mußte der Überprüfung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datensätze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am nächsten benachbarten Trainingsobjekt. Der Schwellenwert für die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der Nächster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gewünschte Dimensionsunabhängigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverlässig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebräuchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsfähigkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datensätze durchgeführt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringfügigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und für verschiedenen Ansätze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Darüber hinaus bieten die Studien eine Abschätzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datensätzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molekülbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molekülen durchgeführt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter (Ähnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Darüber hinauswurde durch Berechnung von Interaktionsfingerprints eineMöglichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium für die Leistungsfähigkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Moleküle in der simulierten Screeningdatenbank. Die Resultate führen zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information benötigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung überlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenführung von strukturbasierter Information und solcher über das Interaktionsmuster bekanntermaßen aktiver Verbindungen für die Erhöhung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-Ähnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring führt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erhältlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschränktes kovalentes Docking zu. Daher wurde für FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe für die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz läßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme übertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen nämlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke für das Verständnis der Selektivität der untersuchten Liganden bezüglich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute Übereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis für die Validität des verwendeten Dockingprotokolls.
Die vorliegende Arbeit beschreibt die Entwicklung und Validierung der neuartigen 3D-QSAR Technik Mapping Property Distributions of Molecular Surfaces (MaP). Die Methode ist gegenüber Translation und Rotation invariant, d. h. eine Überlagerung der Moleküle, wie sie zum Beispiel für CoMFA nötig ist, entfällt. MaP basiert auf der Charakterisierung der Moleküle nach ihrer Fähigkeit Wasserstoffbrücken auszubilden, sowie ihrer Hydrophobie / Hydrophilie. Dabei werden jedoch nicht nur die atombasierten Eigenschaften, sondern auch die Oberflächeneigenschaften der Moleküle zur Charakterisierung genutzt. Diese Loslösung von der chemischen Struktur der Verbindungen erlaubt es, die für die Ligand-Rezeptor-Interaktion (bzw. Substrat-Enzym-Interaktion) wichtigen Grenzflächen zu charakterisieren. Die wichtigsten methodischen Elemente der MaP-Technik, sowie die erhaltenen Ergebnisse der untersuchten Datensätze sollen hier noch einmal in kurzer Form dargestellt werden: Die theoretische Basis des MaP-Deskriptors bilden so genannte Radialverteilungsfunktionen. Mittels dieser selektiven Distanz-Zählstatistiken (SDZS) können sowohl die Form der Moleküle, als auch die Verteilung der einzelnen Oberflächeneigenschaften zueinander, in einem einzelnen Vektor beschrieben werden. Die MaP-Variablen kodieren dabei die Größe (absolute Anzahl an Einträgen), sowie die Orientierung (Distanz) verschiedener Oberflächeneigenschaften zueinander. Die Grundlage der Oberflächeneigenschaften stellen atomare Charakteristika wie das Wasserstoffbrückenbindungspotential sowie die atomare Hydrophobie / Hydrophilie dar. Diese Eigenschaften werden den Atomen mittels einfacher Regeln (Wasserstoffbrücken) bzw. einer Substruktursuche (Hydrophobie / Hydrophilie) zugewiesen und dann auf die Oberfläche projiziert. Um die mathematische Transformation der Rohdaten in die SDZS zu ermöglichen, muss die Moleküloberfläche durch gleichverteilte Oberflächenpunkte diskretisiert werden. Da diese Anforderung von gebräuchlichen analytischen Oberflächenberechnungsmethoden, wie zum Beispiel dem GEPOL-Algorithmus, nicht erfüllt wird, wurde der GEPOL-Algorithmus so modifiziert, dass ein Zusammenhang zwischen der Oberflächengröße und der Anzahl an Oberflächenpunkten gegeben ist. Da es aufgrund dieser Diskretisierung jedoch zum Verlust der Invarianz gegenüber Translation und Rotation kommen kann, wurde der Bestimmung der Moleküloberflächen eine spezielle Technik zur Ausrichtung der Moleküle im Koordinatensystem (Kanonisierung) vorgeschaltet. Dadurch wird ein identischer MaP-Deskriptor unabhängig von der Position der Moleküle im Raum garantiert. Um den Diskretisierungsfehler der Oberflächenbestimmung weiter zu reduzieren, wurde eine unscharfe Zählweise bei der Berechnung des MaP-Deskriptors adaptiert. Diese erlaubt es, Einträge die an den Kategoriengrenzen des MaP-Vektors liegen, auf die beiden nächsten Zentren zu verteilen. Dadurch werden kleine Schwankungen in den Distanzwerten kompensiert. Zur Modellbildung werden die infomativsten Variablen (MIV) mit Hilfe der ‚Reverse-Elimination-Method’-Tabu-Suche (REM-TS) identifiziert. Die so erhaltenen MIV’s können auf die Moleküle zurückprojiziert werden, was die Interpretation der berechneten Modelle stark vereinfacht. Zur Visualisierung der Ergebnisse können die Variablen unter Zuhilfenahme der unscharfen Zählweise nochmals gefiltert werden, um die Interpretation hoch besetzter Variablen zu vereinfachen. Da es aufgrund der Variablenselektion zu einer Zufallskorrelation in der Modellbildung kommen kann, werden die erhaltenen Modelle einer strengen Validierung unterzogen. Dabei werden neben der sehr anspruchsvollen ‚Lass-mehrere-Objekte-heraus’-Kreuzvalidierung als Gütefunktion der Variablenselektion auch ein Permutationstest der Modelle sowie eine Testdatenvorhersage angewandt. Durchläuft ein Modell all diese Validierungsschritte erfolgreich, so ist die Wahrscheinlichkeit einer Zufallskorrelation sehr gering. Um die Anwendbarkeit und die Güte des MaP-Deskriptors zu überprüfen, wurden verschiedene Datensätze untersucht. Diese können entsprechend ihrer Zielsetzung in unterschiedliche Gebiete aufgeteilt werden. Der erste Datensatz (Steroide) wird in der QSAR häufig als Vergleichsdatensatz eingesetzt. Ein weiterer Datensatz umfasst strukturell sehr heterogene Substanzen, die ein augenirritierendes Potential aufweisen (ECETOC). Inhibitoren des EndothelinA-Rezeptors (ETA) bildeten einen weiteren Datensatz. Die enthaltenen Moleküle sind im Datenraum stark in Untergruppen geklustert. Weiterhin wurden konformell sehr flexible, allostere Modulatoren des muskarinischen M2-Rezeptors (M2-Modulatoren) untersucht. Dieser Datensatz diente aufgrund der hohen Flexibilität der Moleküle auch zur Überprüfung der konformellen Abhängigkeit der Methode. Die Erweiterung des Standardparametersatzes wurde mit Hilfe von Naphthylisochinolin-Derivaten (NIQ) untersucht, die eine Aktivität gegen Plasmodium falciparum aufweisen. Ein weiterer Datensatz, deren Moleküle die Öffnungswahrscheinlickeit ATP-abhängiger Kalium-Kanäle erhöht (KCO), wurde herangezogen, um den Vorteil der mathematischen Transformation der MaP-Technik gegenüber der von GRIND benutzten MACC-2-Transformation herauszustellen. Inhibitoren des nicotinischen Acetylcholin-Rezeptors (CAR) bildeten einen weiteren Datensatz für den bisher keine QSAR-Studie vorlag. Zur strukturbasierten Validierung der Methode wurden Inhibitoren der Acetylcholinesterase (APZ-Datensatz) untersucht. Hierbei wurde geprüft, ob die aus der Kristallstruktur der Acetylcholinesterase wichtigen Ligand-Enzym-Wechselwirkungen durch MaP beschrieben werden. Die Ergebnisse dieser Untersuchungen lassen folgenden Rückschlüsse zu: Im Vergleich mit bereits etablierten 3D-QSAR-Techniken wie CoMFA, CoMSIA oder GRID/PLS führt die MaP-Technik zu vergleichbar guten Modellen (Steroide, ETA, M2-Modulatoren). Durch die Loslösung vom strukturellen Grundgerüst der Substanzen können auch strukturell diverse Datensätze gut modelliert und die relevante Information extrahiert werden (ECETOC). Dies ist mit Deskriptoren, die eine gemeinsame Ausrichtung der Moleküle benötigen (z.B. CoMFA), oft nicht möglich. Auch Datensätze, deren Objekte geklustert vorliegen, können mittels MaP gut modelliert werden. MaP ist dabei in der Lage die relevante Information sowohl zwischen, als auch innerhalb der einzelnen Gruppen zu extrahieren (ETA). Auch für Datensätze, deren Moleküle eine sehr hohe Flexibilität aufweisen, ist es möglich mit MaP gute Modelle zu erhalten (M2-Modulatoren, APZ). Hierbei ist es jedoch wichtig, zu beachten, dass MaP als 3D-QSAR-Technik gegenüber der Konformation der Moleküle nicht invariant ist. Bei der Anwendung der Methode zeigte sich jedoch, dass kleine konformelle Änderungen der Verbindungen oft einen sehr geringen Einfluss auf die Ergebnisse der Methode haben (M2-Modulatoren, APZ). Bei der Untersuchung der NIQ-Daten zeigte sich, dass unter Verwendung der MaP-Standardparameter bereits die relevanten Eigenschaften der Moleküle charakterisiert werden können. Allerdings führte eine Erweiterung dieser Parameter zu einer Vereinfachung der Interpretation der Ergebnisse. Hierbei ist jedoch darauf zu achten, dass die Modellvalidierung strikt eingehalten werden muss. Der Vorteil der mathematischen Transformation der Rohdaten (SDZS) gegenüber der von GRIND verwendeten MACC-2 Transformation konnte mittels der KCO-Daten aufgezeigt werden. Das erhaltene Modell spiegelte sehr schön die bereits bekannten Struktur-Wirkungs-Beziehungen wider. Leider ist die publizierte Datenlage in diesem Falle noch nicht ausreichend, um einen abschließenden Vergleich der beiden konkurrierenden Techniken zu ermöglichen. Beim CAR-Datensatz war MaP in der Lage, neben der bekannten, relevanten strukturellen Allylalkoholgruppe ein weiteres strukturelles Merkmal zu identifizieren. Abschließend konnte gezeigt werden, dass MaP in der Lage ist, die für die Wechselwirkung zwischen Acetylcholinesterase und Ligand wichtigen Interaktionsstellen und Charakteristika eindeutig zu identifizieren (APZ-Datensatz). Diese Eigenschaften wurden zur besseren Interpretation der Ergebnisse in die Bindetasche projiziert. Die Ergebnisse dieser Untersuchungen zeigen, dass die entwickelte Technik ein weites Anwendungsspektrum besitzt, leicht zu interpretieren ist und sich dabei durch ihre Robustheit auszeichnet. Vor allem aber liefert MaP aussagekräftige 3D-QSAR-Modelle. Bei der MaP-Methode handelt es sich jedoch nicht nur um einen neuen Moleküldeskriptor, sondern um eine Kombination aus Deskriptor, mathematischer Modellierung, Modellvalidierung und Modellvisualisierung. Obwohl MaP in Hinsicht auf Modellqualität und Modellinterpretierbarkeit Techniken wie zum Beispiel CoMFA in nichts nachsteht, sind aufgrund der einfachen und trotzdem hocheffizienten mathematischen Grundlagen folgende Erweiterungen denkbar: (1) als dreidimensionale Technik ist MaP von den Ausgangskonformationen der Moleküle abhängig. Findet sich im untersuchten Datensatz ein starres Molekül (M2-Modulatoren) oder aber sind Informationen über einen möglichen Bindungsmodus vorhanden, so können diese Konformationen relativ leicht erhalten werden. Da dies jedoch nicht immer der Fall ist, ist eine Erweiterung der Technik in die vierte Dimension (konformelle Flexibilität) wichtig. Dass dies prinzipiell möglich ist, konnte Hopfinger bereits zeigen. Da die mathematische Grundlage der MaP-Technik sehr einfach ist, sollte diese Art der Erweiterung in die vierte Dimension auch für MaP möglich sein. (2) Momentan ist der MaP-Deskriptor auf Verknüpfungen zwischen zwei Oberflächenpunkten beschränkt. Diese Einschränkung könnte dazu führen, dass Inkremente ein und derselben Variablen aus verschiedenen Teilen des Moleküls stammen. Wenn nur ein Teil davon Eigenschaften kodieren, die relevant für die Ligand-Rezeptor-Interaktion sind, könnte dies theoretisch zu Inkonsistenzen in dem resultierenden Modell führen. Bei den bislang untersuchten Datensätzen konnte dies noch nicht beobachtet werden. Eine mögliche Erklärung hierfür ist, dass die MaP-Variablen zu einem gewissen Grad redundant sind, d.h. das selbe Phänomen kann durch verschiedene Variablen beschrieben werden. Von diesen redundanten Variablen werden durch die strenge Validierung diejenigen vom Suchalgorithmus der Variablenselektion identifiziert, die am wenigsten mit anderen Eigenschaften vermengt sind. Prinzipiell ist eine solche Problematik jedoch denkbar. Um die Wahrscheinlichkeit eines derartigen Phänomens weiter zu reduzieren, sollten die bisher genutzten Zweipunktverknüpfungen auf drei Punkte erweitert werden.
Metabonomics bildet das Ende der Omics-Kaskade und stellt eine top-down-Strategie zur Erfassung und Interpretation des Metaboloms, d. h. der Gesamtheit aller niedermolekularen Metaboliten in einem intakten Organismus, dar. Ziel der Technik ist es, mittels geeigneter ungerichteter Screeningverfahren in nicht-invasiv zu gewinnenden biologischen Proben wie Urin oder Blut charakteristische Metabolitenprofile zu bestimmen. Im Kontext des Metabonomics wurde in Anlehnung an den Geno- bzw. Phänotyp hierfür der Begriff „Metabotyp“ geprägt. Durch biostatistische Methoden, die auf Mustererkennung (pattern recognition) basieren, können Signaturen gegenübergestellt und auf diesem Weg gruppenspezifische Metaboliten, d. h. Biomarker bzw. Metabolitenmuster, extrahiert werden. Metabonomics kann folglich als Fusion klassischer bioanalytischer und biostatistischer Verfahren aufgefasst werden. Seit der Einführung im Jahr 1999 hat sich das Konzept des Metabonomics in mehrere Richtungen weiterentwickelt. So gab es Bestrebungen, die Technik, die ursprünglich zur Prädiktion von toxischen Effekten bei der Arzneistoffentwicklung etabliert wurde, auf Fragestellungen zu übertragen, die den Menschen im Mittelpunkt haben. Neben präklinischen Anwendungen verfolgt man mit Metabonomics zunehmend das Ziel, einer personalisierten Medizin und Ernährung einen Schritt näher zu kommen. Da sich die ursprünglich eingesetzte NMR-Technik als zu unempfindlich und die resultierenden Metabolitenprofile als zu anfällig gegenüber biologischen und analytischen Einflussgrößen (Confoundern) erwiesen haben, wurde parallel auf sensitivere Verfahren wie die Massenspektrometrie gesetzt. Insbesondere die Kopplung mit der Hochdruckflüssigchromatographie erwies sich hierbei für das Metabolitenscreening als geeignet. Schnell wurde allerdings klar, dass aus den klassischen full scan/TOF-Methoden Datensätze resultierten, die häufig zu komplex waren, um mit nachgeschalteten chemometrischen Verfahren die „Spreu vom Weizen trennen“ zu können. Da sich Metabolitendatenbanken bisher noch im Aufbau befinden, ist die Identifizierung der Marker mit zusätzlichen Schwierigkeiten verbunden und bedarf aufwändiger analytischer Verfahren. Eine Strategie stellt daher die Beschränkung auf ein Metabolitensubset dar. Indem man sich auf Metabolitenklassen fokussiert, die einen Bezug zum untersuchten Mechanismus haben, können die Erfolgsaussichten bei der Identifizierung charakteristischer Biomarker deutlich erhöht werden. Aufgrund zahlreicher exogener und endogener Faktoren (Arzneistoffe, Industriechemikalien, Nahrungsbestandteile, Tabakrauchbestandteile, Produkte der Lipidperoxidation etc.) ist der menschliche Organismus stets einer Vielzahl an elektrophilen Verbindungen ausgesetzt. Oxidative Schädigungen an Strukturen wie der DNA, Proteinen und Lipiden werden mit einer Reihe von Krankheitsbildern in Zusammenhang gebracht, darunter Parkinson, Alzheimer, Krebs und Volkskrankheiten wie Arteriosklerose, Allergien und koronare Herzerkrankungen. Mit dem Glutathionsystem verfügt der Körper über einen wirksamen Detoxifizierungsmechanismus. Das Tripeptid Glutathion reagiert als Nukleophil mit den exogen oder endogen gebildeten elektrophilen Intermediaten. Endprodukte sind Merkaptursäuren (N-Acetyl-L-Cystein-Addukte) bzw. deren Sulfoxide, die in erster Linie mit dem Urin ausgeschieden werden. Folglich besteht zwischen diesen Merkaptursäurederivaten und der elektrophilen Belastung eines Organismus ein direkter Zusammenhang. Vor diesem Hintergrund war es das Ziel der Arbeit, einen nicht-invasiven Metabonomicsansatz zur Anwendung am Menschen zu entwickeln. Durch die Fokussierung des Metabolitenscreenings auf die Effekt-, Dosis- und Suszeptibilitätsmarkerklasse der Merkaptursäuren sollten hierbei die Erfolgsaussichten im Hinblick auf die Identifizierung potentieller Biomarker für diverse toxikologische sowie medizinische Endpunkte erhöht werden.