@phdthesis{Zilian2014, author = {Zilian, David}, title = {Neuartige, empirische Scoring-Modelle f{\"u}r Protein-Ligand-Komplexe und computergest{\"u}tzte Entwicklung von Hsp70-Inhibitoren}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-105055}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Techniken des computergest{\"u}tzten Wirkstoffdesigns spielen eine wichtige Rolle bei der Entwicklung neuer Wirkstoffe. Die vorliegende Arbeit befasst sich sowohl mit der Entwicklung als auch mit der praktischen Anwendung von Methoden des strukturbasierten Wirkstoffdesigns. Die Arbeit glieder sich daher in zwei Teile. Der erste Teil besch{\"a}ftigt sich mit der Entwicklung von empirischen Scoring-Funktionen, die eine Schl{\"u}sselrolle im strukturbasierten computergest{\"u}tzen Wirkstoffdesign einnehmen. Grundlage dieser Arbeiten sind die empirischen Deskriptoren und Scoring-Funktionen aus dem SFCscore-Programmpaket. Dabei wurde zun{\"a}chst untersucht, wie sich die Zusammensetzung der Trainingsdaten auf die Vorhersagen von empirischen Scoring-Funktionen auswirkt. Durch die gezielte Zusammenstellung eines neuen Trainingsdatensatzes wurde versucht, die Spannweite der Vorhersagen zu vergr{\"o}ßern, um so vor allem eine bessere Erkennung von hoch- und niedrig-affinen Komplexen zu erreichen. Die resultierende Funktion erzielte vor allem im niedrig-affinen Bereich verbesserte Vorhersagen. Der zweite Themenkomplex besch{\"a}ftigt sich ebenfalls mit der verbesserten Separierung von aktiven und inaktiven Verbindungen. Durch den Einsatz der Machine Learning-Methode RandomForest wurden dazu Klassifizierungsmodelle abgeleitet, die im Unterschied zu den klassischen Scoring-Funktionen keinen genauen Score liefern, sondern die Verbindungen nach ihrer potentiellen Aktivit{\"a}t klassifizieren. Am Beispiel des mykobakteriellen Enzyms InhA konnte gezeigt werden, dass derartige Modelle den klassischen Scoring-Funktionen im Bezug auf die Erkennung von aktiven Verbindungen deutlich {\"u}berlegen sind. Der RandomForest-Algorithmus wurde im n{\"a}chsten Schritt auch verwendet, um eine neue Scoring-Funktion zur Vorhersage von Bindungsaffinit{\"a}ten abzuleiten. Diese Funktion wurde unter dem Namen SFCscoreRF in das SFCscore-Programmpaket implementiert. Die Funktion unterschiedet sich in einigen wesentlichen Punkten von den urspr{\"u}nglichen SFCscore-Funktionen. Zum einen handelt es sich beim RF-Algorithmus um eine nicht-lineare Methode, die im Unterschied zu den klassischen Methoden, die zur Ableitung von Scoring-Funktionen eingesetzt werden, nicht von der Additivit{\"a}t der einzelnen Deskriptoren ausgeht. Der Algorithmus erlaubt außerdem die Verwendung aller verf{\"u}gbaren SFCscore-Deskriptoren, was eine deutlich umfassendere Repr{\"a}sentation von Protein-Ligand-Komplexen als Grundlage des Scorings erm{\"o}glicht. F{\"u}r die Ableitung von SFCscoreRF wurden insgesamt 1005 Komplexe im Trainingsdatensatz verwendet. Dieser Datensatz ist somit einer der gr{\"o}ßten, die bisher f{\"u}r die Ableitung einer empirischen Scoring-Funktion verwendet wurden. Die Evaluierung gegen zwei Benchmark-Datens{\"a}tze ergab deutlich bessere Vorhersagen von SFCscoreRF im Vergleich zu den urspr{\"u}nglichen SFCscore-Funktionen. Auch im internationalen Vergleich mit anderen Scoring-Funktion konnten f{\"u}r beide Datens{\"a}tze Spitzenwerte erreicht werden. Weitere ausgiebige Testungen im Rahmen einer Leave-Cluster-Out-Validierung und die Teilnahme am CSAR 2012 Benchmark Exercise ergaben, dass auch SFCscoreRF Performanceschwankungen bei der Anwendung an proteinspezifischen Datens{\"a}tzen zeigt - ein Ph{\"a}nomen, dass bei Scoring-Funktionen immer beobachtet wird. Die Analyse der CSAR 2012-Datens{\"a}tze ergab dar{\"u}ber hinaus wichtige Erkenntnisse im Bezug auf Vorhersage von gedockten Posen sowie {\"u}ber die statistische Signifikanz bei der Evaluierung von Scoring-Funktionen. Die Tatsache, dass empirische Scoring-Funktionen innerhalb eines bestimmten chemischen Raums trainiert wurden, ist ein wichtiger Faktor f{\"u}r die protein-abh{\"a}ngigen Leistungsschwankungen, die in dieser Arbeit beobachtet wurden. Verl{\"a}ssliche Vorhersagen sind nur innerhalb des kalibrierten chemischen Raums m{\"o}glich. In dieser Arbeit wurden verschiedene Ans{\"a}tze untersucht, mit denen sich diese ``Applicability Domain'' f{\"u}r die SFCscore-Funktionen definieren l{\"a}sst. Mit Hilfe von PCA-Analysen ist es gelungen die ``Applicability Domain'' einzelner Funktionen zu visualisieren. Zus{\"a}tzlich wurden eine Reihe numerischer Deskriptoren getestet, mit den die Vorhersageverl{\"a}sslichkeit basierend auf der ``Applicability Domain'' abgesch{\"a}tzt werden k{\"o}nnte. Die RF-Proximity hat sich hier als vielversprechender Ausgangspunkt f{\"u}r weitere Entwicklungen erwiesen. Der zweite Teil der Arbeit besch{\"a}ftigt sich mit der Entwicklung neuer Inhibitoren f{\"u}r das Chaperon Hsp70, welches eine vielversprechende Zielstruktur f{\"u}r die Therapie des multiplen Myeloms darstellt. Grundlage dieser Arbeiten war eine Leitstruktur, die in einer vorhergehenden Arbeit entdeckt wurde und die vermutlich an einer neuartigen Bindestelle in der Interface-Region zwischen den beiden großen Dom{\"a}nen von Hsp70 angreift. Die Weiterentwicklung und Optimierung dieser Leitstruktur, eines Tetrahydroisochinolinon-Derivats, stand zun{\"a}chst im Vordergrund. Anhand detaillierter Docking-Analysen wurde der potentielle Bindemodus der Leitstruktur in der Interfaceregion von Hsp70 untersucht. Basierend auf diesen Ergebnissen wurde eine Substanzbibliothek erstellt, die von Kooperationspartnern innerhalb der KFO 216 synthetisiert und biologisch getestet wurde. Die Struktur-Wirkungsbeziehungen, die sich aus diesen experimentellen Daten ableiten lassen, konnten teilweise gut mit den erstellten Docking-Modellen korreliert werden. Andere Effekte konnten anhand der Docking-Posen jedoch nicht erkl{\"a}rt werden. F{\"u}r die Entwicklung neuer Derivate ist deswegen eine umfassendere experimentelle Charakterisierung und darauf aufbauend eine Verfeinerung der Bindungsmodelle notwendig. Strukturell handelt es sich bei Hsp70 um ein Zwei-Dom{\"a}nen-System, dass verschiedene allostere Zust{\"a}nde einnehmen kann. Um die Auswirkungen der daraus folgenden Flexibilit{\"a}t auf die Stabilit{\"a}t der Struktur und die Bindung von Inhibitoren zu untersuchen, wurden molekulardynamische Simulationen f{\"u}r das Protein durchgef{\"u}hrt. Diese zeigen, dass das Protein tats{\"a}chlich eine {\"u}berdurchschnittlich hohe Flexibilit{\"a}t aufweist, die vor allem durch die relative Bewegung der beiden großen Dom{\"a}nen zueinander dominiert wird. Die Proteinkonformation die in der Kristallstruktur hscaz beobachtet wird, bleibt jedoch in ihrer Grundstruktur in allen vier durchgef{\"u}hrten Simulationen erhalten. Es konnten hingegen keine Hinweise daf{\"u}r gefunden werden, dass die Mutationen, welche die f{\"u}r die strukturbasierten Arbeiten verwendete Kristallstruktur im Vergleich zum Wildtyp aufweist, einen kritischen Einfluss auf die Gesamtstabilit{\"a}t des Systems haben. Obwohl die Interface-Region zwischen NBD und SBD also in allen Simulationen erhalten bleibt, wird die Konformation in diesem Bereich doch wesentlich durch die Dom{\"a}nenbewegung beeinflusst und variiert. Da dieser Proteinbereich den wahrscheinlichsten Angriffspunkt der Tetrahydroisochinolinone darstellt, wurde der Konformationsraum detailliert untersucht. Wie erwartet weist die Region eine nicht unerhebliche Flexibilit{\"a}t auf, welche zudem, im Sinne eines ``Induced-Fit''-Mechanismus, durch die Gegenwart eines Liganden (Apoptozol) stark beeinflusst wird. Es ist daher als sehr wahrscheinlich anzusehen, dass die Dynamik der Interface-Region auch einen wesentlichen Einfluss auf die Bindung der Tetrahydroisochinolinone hat. Molekuardynamische Berechnungen werden deswegen auch in zuk{\"u}nftige Arbeiten auf diesem Gebiet eine wichtige Rolle spielen. Die Analysen zeigen zudem, dass die Konformation der Interface-Region eng mit der Konformation des gesamten Proteins - vor allem im Bezug auf die relative Stellung von SBD und NBD zueinander - verkn{\"u}pft ist. Das untermauert die Hypothese, dass die Interface-Bindetasche einen Angriffspunkt f{\"u}r die Inhibtion des Proteins darstellt.}, subject = {Arzneimittelforschung}, language = {de} } @phdthesis{Hein2014, author = {Hein, Michael}, title = {Entwicklung computergest{\"u}tzter Methoden zur Bewertung von Docking-L{\"o}sungen und Entwurf niedermolekularer MIP-Inhibitoren}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-101585}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2014}, abstract = {Dockingbasierte Ans{\"a}tze z{\"a}hlen zu den wichtigsten Komponenten im virtuellen Screening. Sie dienen der Vorhersage der Ligandposition und -konformation in der Bindetasche sowie der Absch{\"a}tzung der Bindungsaffinit{\"a}t zum Protein. Bis heute stellt die korrekte Identifizierung proteingebundener Ligandkonformationen ein noch nicht vollst{\"a}ndig gel{\"o}stes Problem f{\"u}r Scoringfunktionen dar. Der erste Teil der vorliegenden Arbeit ist daher der Entwicklung computergest{\"u}tzter Methoden zur Bewertung von Docking-L{\"o}sungen gewidmet. Der Fokus eines ersten Teilprojektes lag auf der Ber{\"u}cksichtigung der Abs{\"a}ttigung vergrabener Wasserstoffbr{\"u}ckenakzeptoren (HBA) und -donoren (HBD) bei der Bewertung von Docking-L{\"o}sungen. Nicht-abges{\"a}ttigte vergrabene HBA und HBD stellen einen der Bindungsaffinit{\"a}t abtr{\"a}glichen Beitrag dar, der bis dato aufgrund fehlender Struktur- bzw. Affinit{\"a}tsdaten in Scoringfunktionen vernachl{\"a}ssigt wird. Im Rahmen der vorliegenden Arbeit wurde auf der Basis einer detaillierten Untersuchung zur H{\"a}ufigkeit vergrabener nicht-abges{\"a}ttigter HBA und HBD in hochaufgel{\"o}sten Protein-Ligand-Komplexen des Hartshorn-Datensatzes eine empirische Filterfunktion („vnaHB"-Filterfunktion) entwickelt, die unerw{\"u}nschte Ligandbindeposen erkennt und von der Bewertung mittels Scoringfunktionen ausschließt. Der praktische Nutzen der empirischen Filterfunktion wurde f{\"u}r die Scoringfunktionen SFCscore und DSX anhand vorgenerierter Docking-L{\"o}sungen des Cheng-Datensatzes untersucht. Die H{\"a}ufigkeitsuntersuchung zeigt, dass eine Abs{\"a}ttigung vergrabener polarer Gruppen in Protein-Ligand-Komplexen f{\"u}r eine hochaffine Protein-Ligand-Bindung notwendig ist, da vergrabene nicht-abges{\"a}ttigte HBA und HBD nur selten auftreten. Eine vollst{\"a}ndige Abs{\"a}ttigung durch entsprechende Proteinpartner wird f{\"u}r ca. 48 \% der untersuchten Komplexe beobachtet, ca. 92 \% weisen weniger als drei haupts{\"a}chlich schwache, nicht-abges{\"a}ttigte HBA bzw. HBD (z. B. Etherfunktionen) auf. Unter Einbeziehung von Wassermolek{\"u}len in die H{\"a}ufigkeitsanalyse sind sogar f{\"u}r ca. 61 \% aller Komplexe alle wasserstoffbr{\"u}ckenbindenden Gruppen abges{\"a}ttigt. Im Gegensatz zu DSX werden f{\"u}r SFCscore nach Anwendung der empirischen Filterfunktion erh{\"o}hte Erfolgsraten f{\"u}r das Auffinden einer kristallnahen Pose (≤ 2.0 {\AA} Abweichung) unter den am besten bewerteten Docking-Posen erzielt. F{\"u}r die beste SFCscore-Funktion (SFCscore::229m) werden Steigerungen dieses als „Docking Power" bezeichneten Kriteriums f{\"u}r die Top-3-Posen (Erfolgsrate f{\"u}r die Identifizierung einer kristallnahen 2.0 {\AA} Pose unter den besten drei Docking-L{\"o}sungen) von 63.1 \% auf 64.2 \% beobachtet. In einem weiteren Teilprojekt wurden repulsive Protein-Ligand-Kontakte infolge sterischer {\"U}berlappungen der Bindungspartner bei der Bewertung von Docking-L{\"o}sungen ber{\"u}cksichtigt. Die ad{\"a}quate Einbeziehung solcher repulsiver Kontakte im Scoring ist f{\"u}r die Identifizierung proteingebundener Ligandkonformationen entscheidend, jedoch aufgrund fehlender Affinit{\"a}ts- bzw. Strukturdaten problematisch. Im Rahmen der vorliegenden Arbeit wurde auf der Basis des Lennard-Jones-Potentiales des AMBER-Kraftfeldes zun{\"a}chst ein neuer Deskriptor zur Beschreibung repulsiver Kontakte („Clash"-Deskriptor) entwickelt und zur Untersuchung der H{\"a}ufigkeit ung{\"u}nstiger Protein-Ligand-Kontakte in hochaufgel{\"o}sten Protein-Ligand-Komplexen des Hartshorn-Datensatzes herangezogen. Eine aus der H{\"a}ufigkeitsverteilung abgeleitete empirische Filterfunktion („Clash"-Filterfunktion) wurde anschließend der Bewertung von Docking-L{\"o}sungen des Cheng-Datensatzes mittels der Scoringfunktionen SFCscore und DSX vorgeschaltet, um unerw{\"u}nschte Ligandbindeposen auszuschließen. Die H{\"a}ufigkeitsuntersuchung zeigt, dass vorwiegend schwache repulsive Kontakte in Protein-Ligand-Komplexen auftreten. So werden in 75 \% der Komplexe des Hartshorn-Datensatzes abstoßende Potentiale unter 0.462 kcal/mol beobachtet. Zwar betragen die ung{\"u}nstigen Beitr{\"a}ge pro Komplex f{\"u}r 50 \% aller Strukturen ca. 0.8 kcal/mol bis 2.5 kcal/mol, jedoch k{\"o}nnen diese auf Ungenauigkeiten der Kristallstrukturen zur{\"u}ckzuf{\"u}hren sein bzw. durch g{\"u}nstige Protein-Ligand-Wechselwirkungen kompensiert werden. Die Anwendung der „Clash"-Filterfunktion zeigt signifikante Verbesserungen der Docking Power f{\"u}r SFCscore. F{\"u}r die beste SFCscore-Funktion (SFCscore::frag) werden Steigerungen der Erfolgsraten f{\"u}r das Auffinden einer kristallnahen Pose unter den drei am besten bewerteten Docking-L{\"o}sungen von 61.4 \% auf 86.9 \% erzielt, was an die Docking Power der bis dato besten Scoringfunktionen aus der Literatur (z. B. DSX, GlideScore::SP) heranreicht (Docking Power (DSX): 92.6 \%; Docking Power (GlideScore::SP): 86.9 \%). Die „Clash"-Filterfunktion allein ist auch der Kombination der „Clash"- und der „vnaHB"-Filterfunktion {\"u}berlegen. Ein weiterer Schwerpunkt der vorliegenden Arbeit wurde auf die Einbeziehung von Decoy-Daten (Struktur- und Affinit{\"a}tsdaten schwach affiner und inaktiver Liganden) im Zuge der Entwicklung computergest{\"u}tzter Methoden zur Bewertung von Docking-L{\"o}sungen gelegt. Dadurch soll eine ad{\"a}quate Ber{\"u}cksichtigung ung{\"u}nstiger Beitr{\"a}ge zur Bindungsaffinit{\"a}t erm{\"o}glicht werden, die f{\"u}r die Richtigkeit und Zuverl{\"a}ssigkeit ermittelter Vorhersagen essentiell ist. In der vorliegenden Arbeit wurden bin{\"a}re Klassifizierungsmodelle zur Bewertung von Docking-L{\"o}sungen entwickelt, die die Einbeziehung von Decoy-Daten ohne die Verf{\"u}gbarkeit von Affinit{\"a}tsdaten erlauben. Der Random-Forest-Algorithmus (RF), SFCscore-Deskriptoren, der neu entwickelte „Clash"-Deskriptor, und die Decoy-Datens{\"a}tze von Cheng und Huang (Trainingsdaten) bilden die Grundlage des leistungsf{\"a}higsten Klassifizierungsmodells. Der praktische Nutzen des „besten" RF-Modells wurde nach Kombination mit der Scoringfunktion DSX anhand der Docking Power f{\"u}r das Auffinden einer kristallnahen Pose auf Rang 1 am unabh{\"a}ngigen Cheng-/Huang- (Komplexe, die nicht in den Trainingsdaten enthalten sind) und CSAR-2012-Testdatensatz untersucht. Gegen{\"u}ber einer alleinigen Anwendung von DSX werden an beiden Testdatens{\"a}tzen weitere Verbesserungen der Docking Power erzielt (Cheng-/Huang-Testdatensatz: DSX 84.24 \%, RF 87.27 \%; CSAR-2012-Testdatensatz: DSX 87.93 \%, RF 91.38 \%). Das „beste" Modell zeichnet sich durch die zuverl{\"a}ssige Vorhersage richtig-positiver Docking-L{\"o}sungen f{\"u}r einige wenige Komplexe aus, f{\"u}r die DSX keine kristallnahe Ligandkonformation identifizieren kann. Ein visueller Vergleich der jeweils am besten bewerteten RF- und DSX-Pose f{\"u}r diese Komplexe zeigt Vorteile des RF-Modells hinsichtlich der Erkennung f{\"u}r die Protein-Ligand-Bindung essentieller Wechselwirkungen. Die Untersuchung der Bedeutung einzelner SFCscore-Deskriptoren f{\"u}r die Klassifizierung von Docking-L{\"o}sungen sowie die Analyse der Misserfolge nach Anwendung des Modells geben wertvolle Hinweise zur weiteren Optimierung der bestehenden Methode. Hinsichtlich der zu bewertenden Eigenschaften ausgeglichenere Trainingsdaten, Weiterentwicklungen bestehender SFCscore-Deskriptoren sowie die Implementierung neuer Deskriptoren zur Beschreibung bis dato nicht-ber{\"u}cksichtigter Beitr{\"a}ge zur Bindungsaffinit{\"a}t stellen Ansatzpunkte zur Verbesserung dar. Der zweite Teil der vorliegenden Arbeit umfasst die Anwendung dockingbasierter Methoden im Rahmen der Entwicklung neuer Inhibitoren des „Macrophage Infectivity Potentiator"-(MIP)-Proteins von Legionella pneumophila und Burkholderia pseudomallei. Das MIP-Protein von Legionella pneumophila stellt einen wichtigen Virulenzfaktor und daher ein attraktives Zielprotein f{\"u}r die Therapie der Legionellose dar. Im Rahmen der vorliegenden Arbeit erfolgten systematische Optimierungen des Pipecolins{\"a}ure-Sulfonamides 1, des bis dato besten niedermolekularen MIP-Inhibitors (IC50 (1): 9 ± 0.7 µM). Nach Hot-Spot-Analysen der Bindetasche wurden Docking-Studien zur Auswahl aussichtsreicher Kandidaten f{\"u}r die Synthese und Testung auf MIP-Inhibition durchgef{\"u}hrt. Die Ergebnisse der Hot-Spot-Analysen zeigen g{\"u}nstige Wechselwirkungsbereiche f{\"u}r Donorgruppen und hydrophobe Substituenten in meta-Position sowie Akzeptorgruppen in para-Position des Benzylringes von 1 auf. Die Einf{\"u}hrung einer Nitrofunktion in para-Position des Benzylringes von 1 (2h) resultiert in einer erh{\"o}hten MIP-Inhibition (IC50 (2h): 5 ± 1.5 µM), was wahrscheinlich auf die Ausbildung einer zus{\"a}tzlichen Wasserstoffbr{\"u}cke zu Gly116 zur{\"u}ckzuf{\"u}hren ist. Selektivit{\"a}tsverbesserungen gegen{\"u}ber dem strukturverwandten humanen FKBP12-Protein werden insbesondere f{\"u}r das para-Aminoderivat von 1 (2n) erzielt (Selektivit{\"a}tsindex (1): 45, Selektivit{\"a}tsindex (2n): 4.2; mit Selektivit{\"a}tsindex = IC50 (MIP)/IC50 (FKBP12)). Der Ersatz des hydrophoben Trimethoxyphenylrestes von 1 durch einen Pyridinring (2s) f{\"u}hrt zu einer verbesserten L{\"o}slichkeit bei vergleichbarer MIP-Inhibition. Das MIP-Protein von Burkholderia pseudomallei spielt eine wichtige Rolle in der Pathogenese der Melioidose und stellt daher ein attraktives Zielprotein f{\"u}r die Entwicklung neuer Arzneistoffe dar. In der vorliegenden Arbeit erfolgten Optimierungen des bis dato besten niedermolekularen MIP-Inhibitors 1. Ausgehend von einem Strukturvergleich von Burkholderia pseudomallei MIP mit Legionella pneumophila MIP und einer Hot-Spot-Analyse der Burkholderia pseudomallei MIP-Bindetasche wurden Docking-Studien zur Auswahl aussichtsreicher Kandidaten f{\"u}r die Synthese und Testung auf MIP-Inhibition durchgef{\"u}hrt. Der Strukturvergleich zeigt eine hohe Homologie beider Bindetaschen. Gr{\"o}ßere konformelle {\"A}nderungen werden lediglich f{\"u}r den von Ala94, Gly95, Val97 und Ile98 geformten Bindetaschenbereich beobachtet, was unterschiedliche Optimierungsstrategien f{\"u}r 1 erforderlich macht. G{\"u}nstige Wechselwirkungsbereiche der Burkholderia pseudomallei MIP-Bindetasche finden sich einerseits f{\"u}r Donorgruppen oder hydrophobe Substituenten in para-Position des Benzylringes (Region A) von 1, andererseits f{\"u}r Akzeptor- bzw. Donorgruppen in para- bzw. meta-/para-Position des Trimethoxyphenylringes (Region B). Anhand von Docking-Studien konnten sowohl f{\"u}r Variationen in Region A als auch in Region B aussichtsreiche Kandidaten identifiziert werden. Initiale MIP-Inhibitionsmessungen der bis dato synthetisierten Derivate deuten auf erh{\"o}hte Hemmungen im Vergleich zu 1 hin. Der Ersatz des hydrophoben Trimethoxyphenylrestes von 1 durch einen Pyridinring f{\"u}hrt auch hier zu vergleichbarer MIP-Inhibition bei verbesserter L{\"o}slichkeit. Derzeit sind weitere Synthesen und Testungen aussichtsreicher Liganden durch die Kooperationspartner geplant. Die Ergebnisse der Inhibitionsmessungen sollen deren Nutzen als MIP-Inhibitoren aufzeigen und wertvolle Informationen f{\"u}r weitere Zyklen des strukturbasierten Wirkstoffdesigns liefern.}, subject = {Arzneimitteldesign}, language = {de} } @phdthesis{Busemann2006, author = {Busemann, Matthias}, title = {Entwicklung chemometrischer Methoden f{\"u}r das in-silico-Wirkstoffdesign}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-18777}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2006}, abstract = {Diese Dissertation beschreibt Methoden zur L{\"o}sung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der {\"U}berpr{\"u}fung ihrer Leistungsf{\"a}higkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis h{\"a}ufig vernachl{\"a}ssigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums G{\"u}ltigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschr{\"a}nkt, außerhalb derer eine verl{\"a}ßliche Vorhersage unm{\"o}glich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabh{\"a}ngigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatens{\"a}tze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls w{\"u}nschenswert war die F{\"a}higkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gew{\"a}hrleisten. Die Methode mußte der {\"U}berpr{\"u}fung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datens{\"a}tze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am n{\"a}chsten benachbarten Trainingsobjekt. Der Schwellenwert f{\"u}r die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der N{\"a}chster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gew{\"u}nschte Dimensionsunabh{\"a}ngigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverl{\"a}ssig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebr{\"a}uchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsf{\"a}higkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datens{\"a}tze durchgef{\"u}hrt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringf{\"u}gigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und f{\"u}r verschiedenen Ans{\"a}tze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Dar{\"u}ber hinaus bieten die Studien eine Absch{\"a}tzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datens{\"a}tzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molek{\"u}lbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molek{\"u}len durchgef{\"u}hrt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter ({\"A}hnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Dar{\"u}ber hinauswurde durch Berechnung von Interaktionsfingerprints eineM{\"o}glichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium f{\"u}r die Leistungsf{\"a}higkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Molek{\"u}le in der simulierten Screeningdatenbank. Die Resultate f{\"u}hren zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information ben{\"o}tigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung {\"u}berlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenf{\"u}hrung von strukturbasierter Information und solcher {\"u}ber das Interaktionsmuster bekanntermaßen aktiver Verbindungen f{\"u}r die Erh{\"o}hung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-{\"A}hnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring f{\"u}hrt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erh{\"a}ltlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschr{\"a}nktes kovalentes Docking zu. Daher wurde f{\"u}r FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe f{\"u}r die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz l{\"a}ßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme {\"u}bertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen n{\"a}mlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke f{\"u}r das Verst{\"a}ndnis der Selektivit{\"a}t der untersuchten Liganden bez{\"u}glich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute {\"U}bereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis f{\"u}r die Validit{\"a}t des verwendeten Dockingprotokolls.}, subject = {Arzneimitteldesign}, language = {de} }