TY - THES A1 - Kuhn, Maximilian T1 - Strukturbasiertes Design von MIP-Inhibitoren und computergestützte Selektivitätsuntersuchung gegenüber MIP- und humanen FKB-Proteinen T1 - Structure-based design of MIP-Inhibitors and computer-aided selectivity studies towards MIP and human FKB proteins N2 - Bakterielle und parasitäre MIP-Proteine stellen wichtige Virulenzfaktoren dar, deren Inhibition das Überleben der Erreger sowie deren Penetration in menschliche Zellen stark einschränken kann. In dieser Arbeit standen die MIP-Proteine von Burkholderia pseudomallei (Auslöser der Melioidose) und Legionella pneumophila (Legionärskrankheit) im Fokus. Außerdem wurde das MIP-Protein von Trypanosoma cruzi (Chagas-Krankheit) untersucht. Die strukturverwandten humanen FKB-Proteine FKBP12 und FKBP52 sind relevante „off-targets“, wie Experimente mit Knockout-Mäusen gezeigt haben. Ziel dieser Arbeit war die Verbesserung von bekannten MIP-Inhibitoren im Hinblick auf ihre Affinität und Selektivität für MIP-Proteine gegenüber den beiden genannten FKB-Proteinen bei gleichzeitig verbesserter Löslichkeit, mit Hilfe von in silico Methoden. Ausgangspunkt waren hierbei zwei von Dr. Christina Juli und Dr. Florian Seufert entwickelte Leitstrukturen, welche ein Pipecolinsäuregrundgerüst aufweisen. Diese Referenzliganden beinhalten einen 3,4,5-Trimethoxyphenylring (TMPR, vgl. Ref_t) bzw. einen Pyridinylring (Ref_p). Beim Vergleich von insgesamt 32 MIP- und FKB-Proteinen konnten in zwei Loop-Bereichen, welche 50er bzw. 80er Loop genannt werden, relevante Unterschiede in der Aminosäuresequenz identifiziert werden. Die Nummerierung bezieht sich stets auf FKBP12. Diese Unterschiede ließen sich zum Design von vergleichsweise selektiv an MIP-Proteine bindenden Molekülen nutzen. Der 50er Loop ist in nahezu allen MIP-Proteinen (jedoch nicht in BpsMIP) im Vergleich zu den FKB-Proteinen um zwei Aminosäuren verkürzt. Dadurch befindet sich das Proteinrückgrat von LpnMIP (Gln49) und TcrMIP (Arg49) näher am Zentrum der Bindetasche (definiert als Ile56, welches durch die Pipecolinsäureesterfunktion der Liganden adressiert wird). MD-Simulationen der beiden Apoproteine belegten, dass die geringere Distanz nicht durch Artefakte beim Modellieren der Strukturen bedingt ist. Aufbauend auf dieser Erkenntnis wurde gezeigt, dass der Pyridinylring von Ref_p eine Wasserstoffbrücke zu Gln49 ausbildet. Experimentell wurde dieser Befund durch eine entsprechende chemische Verschiebung der Aminosäure im NMR-Experiment von Dr. Kristian Schweimer bestätigt. Durch Überbrückung des Pipecolinsäurerings (Ligand 6bp) konnte die Wasserstoffbrücke in MD-Simulationen weiter stabilisiert werden. Durch Rechnungen zur Abschätzung der freien Bindungsenthalpien (mittels LIE und MM/GBSA) wurde eine erhöhte Affinität von 6bp im Vergleich zu Ref_p in LpnMIP ermittelt. Im Laufe der Arbeit wurde anhand von pIC50-Werten, welche von Dr. Mathias Weiwad bestimmt wurden, erkannt, dass Liganden mit Pyridinylring oftmals eine bessere Affinität in LpnMIP aufweisen als die entsprechenden Liganden mit TMPR. Durch MD Simulationen wurde nachgewiesen, dass der TMPR in LpnMIP nur schwer an der in den anderen Proteinen bevorzugten Position binden kann. Grund hierfür ist die Mutation einer Aminosäure (zu Pro57) in diesem Bereich von LpnMIP: Diese verfügt über eine wenig flexible Seiten-kette, an welche sich der TMPR auf Grund seiner Rigidität nicht anpassen kann, was die Interaktion zwischen Protein und Ligand stört. Der Pyridinylring von Ref_p ist hiervon nicht betroffen, da er bevorzugt an einer anderen Stelle (Gln49, s. o.) bindet. Der 80er Loop weist in vielen MIP-Proteinen deutlich hydrophobere Aminosäuren auf als in FKB-Proteinen. Von besonderem Interesse ist die Position 90, da hier in BpsMIP und LpnMIP sterisch weniger anspruchsvolle Aminosäuren (Val, Pro) vorliegen als in den bei-den FKB-Proteinen (Ile, Lys). Dieser Unterschied wurde mit kleinen hydrophoben Substituenten am Phenylring der Liganden adressiert. Bereits im Docking zeigten sich die positiven Effekte der para-Substitution durch Halogenatome oder eine Methylgruppe. Die von Dr. Mathias Weiwad und Dr. Mirella Vivoli ermittelten pIC50- bzw. pKi-Werte bestätigten diesen Trend. Zugleich nahm die Affinität zu FKBP12 deutlich ab. Bei der Untersuchung der Referenzliganden sowie deren Chlor- und Bromderivate in MD-Simulationen zeigte sich, dass der Phenylring der Liganden in den MIP-Proteinen bevorzugt in Richtung des 80er Loops orientiert ist; in den FKB-Proteinen liegt er hingegen um etwa 110° gedreht vor und kann somit schlechter mit der Bindetasche interagieren. Besonders ausgeprägt ist dieser Effekt in FKBP12. Basierend auf diesen Ergebnissen wurde der Phenylring durch einen 4-Bromo-1H-imidazol-2-ylsubstituenten ersetzt (Ligand 8ap). Dieser ist in der Lage, in der erwarteten Orientierung im Bereich des 80er Loops von BpsMIP zu binden und gleichzeitig eine stabile Wasserstoffbrücke zu Asp37 auszubilden. Hieraus resultiert für den Liganden eine deutlich höhere Affinität in LIE- und MM/GBSA-Rechnungen; in FKBP12 blieb sie auf Grund der dort instabilen Interaktion unverändert. Die berechneten Energien können unmittelbar für einen relativen Vergleich verschiedener Liganden in einer Bindetasche verwendet werden. Für die Vorhersage von pKi- bzw. pIC50-Werten in den verschiedenen Proteinen ist eine Kalibrierung gegen die gemessenen Affinitäten erforderlich. Dies wurde für BpsMIP durchgeführt, indem eine lineare Korrelation zwischen den pKi- bzw. pIC50-Werten und den mit MM/GBSA ermittelten Energien aufgestellt wurde. Für LIE wurde auf publizierte Werte von Lamb et al. zurückgegriffen. Die berechneten Affinitäten stimmen für die bereits getesteten Inhibitoren gut mit den experimentellen pKi- und pIC50-Werten überein. Anhand der Modelle werden für 8ap Werte vorhergesagt, die besser als die experimentellen Affinitäten bekannter Liganden sind. Idealerweise können auch aus den Scores, die durch Docking erhalten werden, bereits Rückschlüsse auf die Affinitäten der Liganden gezogen werden. Für die untersuchten Proteine war dies, auf Grund des engen Bereichs der experimentell ermittelten pKi- und pIC50-Werte, nicht mit hinreichender Richtigkeit möglich. Um die Scores dennoch für die Beurteilung neuer Liganden verwenden zu können, wurden logistische Regressionsmodelle erstellt. Anhand dieser kann abgeschätzt werden, ob ein Molekül in BpsMIP submikromolare Affinität aufweist. Die Richtigkeit dieser Vorhersagemodelle konnte durch die Berücksichtigung dreier weiterer Deskriptoren (Konfiguration am Stereozentrum der Pipecolinsäure, Molekulargewicht und logD-Wert) deutlich verbessert werden, wobei die AUC der entsprechenden ROC-Kurven Werte bis zu 0.9 erreichte. Diese Modelle können für die Postprozessierung eines Dockings angewendet werden, um die vielversprechendsten Kandidaten zu identifizieren und anschließend in rechnerisch anspruchsvolleren MD-Simulationen genauer zu untersuchen. Mit dieser Arbeit wurde zur Weiterentwicklung der Leitstrukturen Ref_t und Ref_p beigetragen. Viele der getesteten Derivate wiesen deutlich verbesserte Löslichkeit bei gleichbleibender Affinität auf. Ferner wurden erstmalig detailliert die Unterschiede in den Bindetaschen zwischen 32 MIP- und FKB-Proteinen evaluiert. Hiervon wurden fünf in MD-Simulationen als Apoprotein und im Komplex mit verschiedenen Inhibitoren verglichen. Anhand dieser Simulationen wurde nachgewiesen, dass jeweils eine Aminosäure in BpsMIP und LpnMIP im Vergleich zum wichtigsten „off-target“ FKBP12 selektiv durch eine Wasserstoffbrücke adressiert werden kann. Durch LIE- und MM/GBSA-Rechnungen konnte gezeigt werden, dass in diesen hochkonservierten Bindetaschen eine bedeutende Modulation der Affinität zugunsten von BpsMIP möglich ist. N2 - Bacterial and parasitic MIP proteins constitute important virulence factors. Inhibiting these proteins can considerably reduce the survival of the pathogens as well as their penetration into human host cells. The work presented in this thesis focused on the MIP proteins of Burkholderia pseudomallei (the causative agent of melioidosis) and Legionella pneumophila (Legionnaires’ disease). Furthermore, the MIP protein of Trypanosoma cruzi (Chagas disease) was also investigated. The structurally homologous human FKB proteins FKBP12 and FKBP52 were taken into account as relevant off-targets. The aim of this thesis was to improve MIP inhibitors by means of in silico methods with respect to affinity and selectivity (for MIP proteins over FKBP12 and FKBP52) as well as solubility. The starting point for this task were two lead structures with a pipecolic acid scaffold from the work of Dr. Christina Juli and Dr. Florian Seufert. These reference ligands contain a 3,4,5-trimethoxyphenyl ring (TMPR, cf. Ref_t) or a pyridinyl ring (Ref_p). By comparison of 32 MIP and FKB proteins major differences with regard to the amino acid sequence could be identified in two loop regions, the so called 50s and 80s loop (numbering always with respect to FKBP12). It was possible to utilise these differences for the design of molecules with preferential binding to MIP proteins. The 50s loop is truncated by two amino acids in nearly all MIP proteins compared to the FKB proteins, except for BpsMIP. Thus, the protein backbone of LpnMIP (Gln49) and TcrMIP (Arg49) is located closer to the centre of the binding pocket. The centre is defined as Ile56, which is binding to the pipecolic ester function of the ligands. MD simulations of both apoproteins proved that the smaller distance is not caused by artefacts introduced during modelling of the structures. Expanding on this knowledge, it could be shown that the pyridinyl ring of Ref_p forms a hydrogen bond to Gln49. This finding was proven ex-perimentally by a corresponding chemical shift of the amino acid in an NMR experiment conducted by Dr. Kristian Schweimer. The hydrogen bond was stabilised further in MD simulations via bridging of the pipecolic acid ring (ligand 6bp). Calculations by MM/GBSA and LIE, estimating the binding free energies of the ligands, yielded im-proved affinity for 6bp compared to Ref_p in LpnMIP. It was noted in the course of this work, based on pIC50 measurements conducted by Dr. Mathias Weiwad, that ligands containing a pyridinyl ring often exhibit better affinity in LpnMIP than their corresponding counterparts with a TMPR. It could be shown with MD simulations that the TMPR is barely able to bind to LpnMIP at the position preferred in the other proteins. This is caused by mutation of an amino acid (to Pro57) in this region of LpnMIP. Due to its rigidity, the TMPR is not able to adjust to the hardly flexible side chain of proline. Consequently, the interaction between protein and ligand is disrupted. The pyridinyl ring of Ref_p is not affected by this mutation since it binds at another position (Gln49, see above). The 80s loop contains more hydrophobic amino acids in MIP proteins than in FKB proteins. Position 90 is of particular interest, as there are sterically less demanding amino acids in BpsMIP and LpnMIP (Val, Pro) than in both FKB proteins (Ile, Lys). This difference was addressed with small hydrophobic substituents at the ligands’ phenyl ring. The favourable effects of the substitution in para-position by halogen atoms or a methyl group could be observed in initial docking experiments. pIC50 and pKi values measured by Dr. Mathias Weiwad und Dr. Mirella Vivoli confirmed this trend. Furthermore, the affinity for FKBP12 clearly decreased. MD simulations of both reference ligands as well as their derivatives substituted with chlorine or bromine showed that the phenyl ring preferentially adopts a conformation pointing towards the 80s loop in MIP proteins. In contrast, the phenyl ring is rotated by approximately 110° in FKB proteins, leading to decreased interactions with the binding pocket. This effect is especially pronounced in FKBP12. Based on these results, the phenyl ring was substituted by 4-Bromo-1H-imidazol-2-yl (ligand 8ap). A ligand containing this substituent can bind next to the 80s loop of BpsMIP maintaining the previously described orientation and simultaneously form a stable hydrogen bond to Asp37. Hence, a considerably higher binding affinity of this ligand to BpsMIP was predicted via LIE and MM/GBSA calculations. There were no changes in affinity for FKBP12 due to the instable interaction in this protein. The calculated energies can directly be used to rank different ligands in a binding pocket. In order to predict pIC50 and pKi values in different proteins, these energies require calibration versus experimentally measured affinities. Such a calibration was carried out for BpsMIP by linearly correlating pIC50 and pKi values with energies gained from MM/GBSA calculations. For the LIE method, parameters published by Lamb et al. were used. Both computational approaches yielded affinities in good agreement with experimentally measured pIC50 and pKi values of known ligands. The affinities predicted by these models for 8ap are better than the inhibition constants of all currently known inhibitors. Ideally, scores obtained by docking can directly be used to gain insights into the ligands’ affinities. However, sufficient accuracy for the proteins investigated could not be gained, due to the narrow range of the experimental pIC50 and pKi values. Consequently, logistic regression models were created to allow for assessment of the ligands based on their score. These models predict whether a ligand is likely to show submicromolar affinity in BpsMIP. The accuracy of these models was considerably increased by implementing three other descriptors (configuration at the stereo centre of the pipecolic acid, molecular weight and logD value). Thus, AUCs up to 0.9 could be achieved in the corresponding ROC curves. The models can be used for postprocessing a docking calculation in order to identify the most promising ligands and subsequently investigating them with computationally more demanding MD simulations. This work contributed to the improvement of the lead structures Ref_t and Ref_p. Many of the tested derivatives exhibited increased solubility while affinity was maintained. Furthermore, differences in the binding pockets of 32 MIP and FKB proteins were evaluated in detail for the first time. Five of these proteins were compared in MD simulations, both as apoproteins as well as complexed with different inhibitors. It was proven by these simulations that one amino acid in BpsMIP as well as in LpnMIP can selectively be addressed with a hydrogen bond. These interactions cannot be formed in the most prominent off-target FKBP12. LIE and MM/GBSA calculations proved that considerable modulation of the binding affinity towards BpsMIP is possible in these highly conserved binding pockets. KW - Computational chemistry KW - Macrophage Infectivity Potentiator Protein KW - Arzneimitteldesign KW - MIP protein KW - FKBP KW - docking KW - MD simulation KW - Burkholderia pseudomallei KW - Legionella pneumophila KW - Trypanosoma cruzi KW - Drug design KW - molecular dynamics Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-165757 ER - TY - THES A1 - Busemann, Matthias T1 - Entwicklung chemometrischer Methoden für das in-silico-Wirkstoffdesign T1 - Development of chemometric techniques for the in-silico drug design N2 - Diese Dissertation beschreibt Methoden zur Lösung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der Überprüfung ihrer Leistungsfähigkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis häufig vernachlässigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums Gültigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschränkt, außerhalb derer eine verläßliche Vorhersage unmöglich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabhängigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatensätze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls wünschenswert war die Fähigkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gewährleisten. Die Methode mußte der Überprüfung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datensätze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am nächsten benachbarten Trainingsobjekt. Der Schwellenwert für die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der Nächster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gewünschte Dimensionsunabhängigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverlässig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebräuchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsfähigkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datensätze durchgeführt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringfügigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und für verschiedenen Ansätze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Darüber hinaus bieten die Studien eine Abschätzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datensätzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molekülbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molekülen durchgeführt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter (Ähnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Darüber hinauswurde durch Berechnung von Interaktionsfingerprints eineMöglichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium für die Leistungsfähigkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Moleküle in der simulierten Screeningdatenbank. Die Resultate führen zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information benötigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung überlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenführung von strukturbasierter Information und solcher über das Interaktionsmuster bekanntermaßen aktiver Verbindungen für die Erhöhung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-Ähnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring führt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erhältlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschränktes kovalentes Docking zu. Daher wurde für FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe für die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz läßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme übertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen nämlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke für das Verständnis der Selektivität der untersuchten Liganden bezüglich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute Übereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis für die Validität des verwendeten Dockingprotokolls. N2 - This thesis describes methods for solving important application-oriented aspects of structure-based and ligand-based in silico drug design. The proposed algorithms are compared to well established techniques. The focus is particularly on the development and benchmarking of different chemometric techniques. In the following, the approaches and results within the different project areas are summarised. Outlier Identification. The inspection of QSAR datasets in order to identify prediction outliers is often omitted in practice. However, it is clear that no QSAR model is applicable to every conceivable chemical compound. Since QSAR models represent empirical mathematical models, these are only valid within the data space spanned by the training data. Hence, every model is restricted to certain borders beyond which a reliable prediction is impossible. The method ODD developed in this work can be used to determine these borders and thus to identify outliers. Those are objects outside the data space spanned by the training data (i.e. the applicability domain of the model). The aim of the method is to detect outliers solely based on the predictor variables (X data). Moreover, the method must be capable to handle high-dimensional datasetswithminimal user interference (e.g. setting of cut-offs). Furthermore, the ability to identify inliers would be preferable. The computational speed should be high enough to apply the method to virtual screening. The developed technique had to prove that it provides a reduction of the model’s error of prediction if extreme outliers are present. At the same time, it should leave non-critical datasets unaffected. ODD is based on the evaluation of the Euclidean distance of a test object towards its nearest neighbouring training object. The cut-off for deeming an object as outlier is calculated from the distribution of the nearest neighbour distances of the training set. This intrinsic value leads to the desired independence from data dimensionality and, above all, to an automatic adjustment of the cut-off to the characteristics of the calibration dataset without any user intervention. The validation shows that ODD reliably identifies extreme outliers. On the other hand, it offers a low rate of false positives compared to other common techniques for outlier identification. Ensemble Techniques. In a benchmark study, the impact of different ensemble techniques on the prediction error was investigated. For this purpose, comprehensive simulations on several real QSAR datasets were carried out. The application of ensembles (i.e. a collection of many models trained with sligthly perturbed versions of the training set) usually lowers the error of prediction (RMSEP). The RMSEP reduction was determined and compared for different approaches of ensemble generation. Overall, the methods of convex pseudo data and bagging proved to be the most efficient ways for ensemble generation (i.e. they resulted in the largest reduction of the prediction error). Convex pseudo data, which were applied toQSAR data sets for the first time as ensemble technique, are proposed as the new standard for lowering RMSEP in QSAR problems using latent variable regression models. Furthermore, the effect size of ensemble averaging was quantified for typical QSAR data sets. Virtual Screening. Virtual screening is a technique to screen large (virtual) molecular databases — often several million compounds — for the most promising drug candidates. This can be done by structure-based as well as by ligand-based approaches. Comprehensive computations on six different targets and a library of more than 90 000 compounds were carried out to compare the potential of structure-based techniques (docking with FLEXX) and ligand-based techniques (similarity searching with multiple queries). In addition to that, interaction fingerprints were computed in order to combine the information of the otherwise distinct approaches. Several statistical methods were applied for data analysis to investigate the impact of the machine learning algorithm. Figure of merit for each approach was the number of active compounds retrieved from the assembled screening database with known actives. The results lead to the following conclusions: Ligand-based approaches, which are simpler to use but require more a priori information, turned out to be superior to structure-based virtual screening techniques in terms of database enrichment. In addition, it could be shown that combination of structure-based information with information of the interaction pattern of known actives is beneficial for increasing retrieval rates. Data analysis revealed that certain statistical methods (minimum Euclidean distance ED/Min, and Tanimoto similarity of integer fingerprints Int/Min, respectively) are on average to be preferred. Covalent Docking of Cathepsin Inhibitors. Cysteine proteases Cathepsin B and L are interesting pharmacological targets. Suitable inhibitors, amongst others, come from the structural class of aziridines. A nucleophilic attack of the enzyme’s active site cysteine moiety on the electrophilic aziridine ring leads to formation of a covalent bond between ligand and receptor. However, virtually all available docking programs concentrate on noncovalent ligand-receptor interactions and do not provide sophisticated, unrestricted covalent docking. Thus, a docking protocol for FLEXX was designed which is able to represent the essential non-covalent state before formation of the covalent bond. That way, it could be studied whether or not the reaction centres of both ligand and receptor adopt a position close enough to each other to actually form the covalent bond. The approach presented here can easily be transferred to other covalent ligand-receptor systems and therefore provides a broad applicability. Furthermore, the parametrisation of the FLEXX interaction geometries was adapted to account for the special structural features of aziridides. Those show a formal amide bond, but its geometric and electronic properties differ noticeably from a typical amide. The results of the docking studies provide valuable insights for understanding the Cathepsin B/L selectivity of the ligands under scrutiny. Vice versa, the good correspondence of the FLEXX results and the inhibition constants obtained experimentally provide evidence for the validity of the applied docking protocol. KW - Arzneimitteldesign KW - Chemometrie KW - Chemometrie KW - Outlier-Identifizierung KW - virtuelles Screening KW - Docking KW - Chemometrics KW - Outlier Detection KW - virtual screening KW - docking Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-18777 ER -