@phdthesis{Busemann2006, author = {Busemann, Matthias}, title = {Entwicklung chemometrischer Methoden f{\"u}r das in-silico-Wirkstoffdesign}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-18777}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2006}, abstract = {Diese Dissertation beschreibt Methoden zur L{\"o}sung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der {\"U}berpr{\"u}fung ihrer Leistungsf{\"a}higkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis h{\"a}ufig vernachl{\"a}ssigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums G{\"u}ltigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschr{\"a}nkt, außerhalb derer eine verl{\"a}ßliche Vorhersage unm{\"o}glich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabh{\"a}ngigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatens{\"a}tze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls w{\"u}nschenswert war die F{\"a}higkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gew{\"a}hrleisten. Die Methode mußte der {\"U}berpr{\"u}fung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datens{\"a}tze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am n{\"a}chsten benachbarten Trainingsobjekt. Der Schwellenwert f{\"u}r die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der N{\"a}chster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gew{\"u}nschte Dimensionsunabh{\"a}ngigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverl{\"a}ssig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebr{\"a}uchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsf{\"a}higkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datens{\"a}tze durchgef{\"u}hrt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringf{\"u}gigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und f{\"u}r verschiedenen Ans{\"a}tze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Dar{\"u}ber hinaus bieten die Studien eine Absch{\"a}tzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datens{\"a}tzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molek{\"u}lbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molek{\"u}len durchgef{\"u}hrt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter ({\"A}hnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Dar{\"u}ber hinauswurde durch Berechnung von Interaktionsfingerprints eineM{\"o}glichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium f{\"u}r die Leistungsf{\"a}higkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Molek{\"u}le in der simulierten Screeningdatenbank. Die Resultate f{\"u}hren zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information ben{\"o}tigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung {\"u}berlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenf{\"u}hrung von strukturbasierter Information und solcher {\"u}ber das Interaktionsmuster bekanntermaßen aktiver Verbindungen f{\"u}r die Erh{\"o}hung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-{\"A}hnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring f{\"u}hrt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erh{\"a}ltlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschr{\"a}nktes kovalentes Docking zu. Daher wurde f{\"u}r FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe f{\"u}r die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz l{\"a}ßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme {\"u}bertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen n{\"a}mlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke f{\"u}r das Verst{\"a}ndnis der Selektivit{\"a}t der untersuchten Liganden bez{\"u}glich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute {\"U}bereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis f{\"u}r die Validit{\"a}t des verwendeten Dockingprotokolls.}, subject = {Arzneimitteldesign}, language = {de} }