TY - THES A1 - Becht, Alexander Ulrich T1 - New applications for spectroscopic and chemometric studies of drugs T1 - Neue Anwendungen für spektroskopische und chemometrische Untersuchungen von Arzneimitteln N2 - Spectroscopic methods were established decades ago in a wide variety of fields. This also applies to the pharmaceutical field, although they initially were mostly used for identity testing or structure elucidation only. Technical developments, such as miniaturization (NMR benchtop devices), Fourier transformations (for NMR, MIR spectroscopy) or the combination with chemometric evaluation (e.g., in Process Analytical Technology, PAT), have further increased their importance and opened up new applications. The aim of this work was to investigate further new approaches and to find new applications for already established methods and to show their benefits. By means of MIR, NIR and NMR data and their chemometric evaluation (principal component analysis, PCA; hierarchical cluster analysis, HCA; linear discriminant analysis, LDA), possibilities were presented to successfully determine the manufacturer or the pharmaceutical company of various paracetamol preparations. In the course of this, various similarities and correlations between the preparations of individual companies could also be identified. For this purpose, a suitable sample preparation was developed for each spectroscopic method, and suitable measurement parameters in order to obtain reproducible spectra for the chemometric evaluation were determined. Furthermore, the results of the two unsupervised methods (HCA, PCA) were compared with each other. The HCA was able to confirm those of the PCA for the very most part. Additionally, through these methods it was possible to characterize many of the preparations based on clusters formed by comparable tablet compositions. In order to be able to measure unmortared, whole tablets using the NIR spectrometer, an attachment was developed and manufactured using 3D printing. Its functionality was demonstrated by measuring and analyzing the tablets of two different batches of nine paracetamol preparations. The batches were clearly distinguished on the basis of a PCA and a significant difference was also demonstrated by means of statistical tests. For NMR spectroscopy, a method was developed to obtain optimized "fingerprint" spectra of drug formulations. For this purpose, a 1D DOSY measurement was elaborated, in which the signals of the active ingredient could be filtered out by the appropriate choice of measurement parameters. The chemometric evaluation can thus focus on the remaining signals of the excipients, on the basis of which the preparations of the same API can be distinguished. Especially in the case of formulations that consist largely of active ingredient, data pre processing of the spectra can thus be simplified and greater importance can be assigned to the originally very small excipient signals. A quantitative 1H NMR method was developed for the comparison of a high field spectrometer (400 MHz) with a benchtop spectrometer (80 MHz) for two finished drugs. It was shown that it is possible to obtain comparable results with both instruments, but that the influence of the excipients on the signals and the lower resolution of the benchtop instrument must be taken into account. Therefore, it was not possible to obtain comparable results without further optimization of the method for one of the active ingredients. In the investigation of various reactions between APIs and excipients using DOSY, its usefulness as a screening method in stability testing was demonstrated. For this purpose, three different APIs and excipients were stressed together and the reaction mixtures were subsequently measured using DOSY. Based on the translational diffusion coefficient, the reaction products could be identified and distinguished from the active ingredients and the excipients used. The importance of thoughtful processing could also be demonstrated. If all peak heights are selected when evaluating signals split by direct spin spin coupling, this allows the detection of hidden signals as long as not all signals have the same diffusion coefficient. The selective selection of individual peak heights in the case of split signals also enables the evaluation of signals that overlap slightly. However, the limitations of this method were also shown when two signals overlap too much and differ too little in their diffusion coefficients. Hence, it has been successfully demonstrated in the various projects that the new chemometric approaches, as well as the new applications of already established methods, enable in depth findings and thus have a clear added value. N2 - Spektroskopische Methoden haben sich schon vor Jahrzehnten in den verschiedensten Bereichen etabliert. Dies betrifft auch den pharmazeutischen Bereich, auch wenn sie hier zunächst meist nur zur Identitätsprüfung oder Strukturaufklärung verwendet wurden. Durch technische Weiterentwicklungen, wie Miniaturisierungen (NMR benchtop Geräte), Fourier Transformationen (NMR, MIR) oder die Kombination mit einer chemometrischen Auswertung (z. B. bei Process Analytical Technology, PAT), haben sie weiter an Bedeutung gewonnen, und es wurden neue Einsatzbereiche erschlossen. Das Ziel der vorliegenden Arbeit war es, weitere neue Ansätze zu untersuchen und neue Anwendungen für bereits etablierte Methoden zu finden und deren Mehrwert aufzuzeigen. Es wurden Möglichkeiten aufgezeigt mittels MIR , NIR und NMR Daten und deren chemometrischen Auswertungen (Hauptkomponentenanalyse, PCA; hierarchische Clusteranalyse, HCA; lineare Diskriminanzanalyse, LDA) erfolgreich den Hersteller bzw. das pharmazeutische Unternehmen verschiedener Paracetamol Präparate zu bestimmen. In diesem Zuge konnten Ähnlichkeiten zwischen Präparaten unterschiedlicher Firmen identifiziert werden. Um dies zu erreichen, wurde für jede spektroskopische Methode eine geeignete Probenvorbereitung entwickelt sowie geeignete Messparameter festgelegt, um reproduzierbare Spektren für die chemometrische Auswertung zu erhalten. Weiterhin wurden die Ergebnisse der zwei unüberwachten Methoden (HCA, PCA) miteinander verglichen, wobei die HCA die der PCA zum allergrößten Teil bestätigen konnte. Zudem war es möglich durch diese Methoden viele der Präparate anhand von Clustern zu charakterisieren, die durch vergleichbare Tablettenzusammensetzungen gebildet wurden. Um mit Hilfe des NIR Spektrometers intakte Tabletten vermessen zu können, wurde ein Aufsatz entwickelt und mittels 3D Druck hergestellt. Dessen Funktionalität wurde überprüft, indem Tabletten aus je zwei unterschiedlichen Chargen von neun Paracetamol Präparaten vermessen und analysiert wurden. Dabei konnten die Batches anhand einer PCA eindeutig unterschieden und zudem mittels statistischer Tests ein signifikanter Unterschied nachgewiesen werden. Für die NMR Spektroskopie wurde eine Methode entwickelt, um optimierte „Fingerprint“ Spektren von Arzneimittelformulierungen zu erhalten. Dazu wurde eine 1D DOSY Messmethode erarbeitet, bei der durch die passende Wahl der Messparameter die Signale des Wirkstoffes herausgefiltert werden konnten. Die chemometrische Auswertung konnte sich somit auf die Signale der Hilfsstoffe beschränken, anhand derer die Präparate unterschieden werden können. Vor allem bei Formulierungen, die zum größten Teil aus Wirkstoff bestehen, kann so eine Datenvorverarbeitung der Spektren vereinfacht und den ursprünglich sehr kleinen Hilfsstoffsignalen eine größere Bedeutung beigemessen werden. Für den Vergleich eines Hochfeld Spektrometers (400 MHz) mit einem „benchtop“ Spektrometer (80 MHz) wurde für zwei Fertigarzneimittel eine quantitative 1H NMR Methode entwickelt. Es konnte gezeigt werden, dass es möglich ist, mit beiden Geräten vergleichbare Ergebnisse zu erzielen. Dabei ist jedoch der Einfluss der Hilfsstoffe auf die Signale sowie die geringere Auflösung des „benchtop“ Gerätes zu berücksichtigen. Aus diesen Gründen war es ohne eine weitere Optimierung der Methode für einen der Wirkstoffe nicht möglich vergleichbare Ergebnisse mit beiden Geräten zu erzielen. Bei der Untersuchung verschiedener Reaktionen zwischen Wirk- und Hilfsstoffen mittels DOSY konnte dessen Nutzen als Screening Methode bei Stabilitätstests gezeigt werden. Für diesen Zweck wurden drei verschiedene Wirk- und Hilfsstoffe gemeinsam gestresst und die Reaktionsgemische anschließend mittels DOSY vermessen. Anhand des translationalen Diffusionskoeffizienten konnten die Reaktionsprodukte identifiziert und von den eingesetzten Wirk- und Hilfsstoffen unterschieden werden. Ebenso konnte die Bedeutung einer sorgfältigen Prozessierung demonstriert werden. Werden bei der Auswertung von Signalen, die durch direkte Spin Spin Kopplung aufgespalten wurden, alle Peakhöhen ausgewählt, erlaubt dies die Detektion von versteckten Signalen, falls nicht alle Signale den gleichen Diffusionskoeffizienten besitzen. Die selektive Auswahl einzelner Peakhöhen bei aufgespaltenen Signalen ermöglicht zudem die Auswertung von leicht überlappenden Signalen. Es wurden jedoch auch die Grenzen dieser Methode aufgezeigt: wenn zwei Signale zu stark überlappen und sich dabei in ihrem Diffusionskoeffizienten zu wenig unterscheiden. Somit konnte in den verschiedenen Projekten erfolgreich gezeigt werden, dass die neuen chemometrischen Ansätze, sowie die neuen Anwendungen bereits etablierter Methoden vertiefte Erkenntnisse ermöglichen und somit einen deutlichen Mehrwert besitzen. KW - Instrumentelle Analytik KW - NMR-Spektroskopie KW - MIR-Spektroskopie KW - NIR-Spektroskopie KW - Chemometrie KW - Paracetamol KW - Acetaminophen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-275342 ER - TY - THES A1 - Wagner, Silvia T1 - Identifizierung von Biomarkern mittels LC-MS-basiertem Metabonomics - Merkaptursäuren als Indikatoren für die Bildung toxischer Intermediate T1 - Identification of biomarkers via LC-MS-based metabonomics – mercapturic acids as indicators for the formation of toxic intermediates N2 - Metabonomics bildet das Ende der Omics-Kaskade und stellt eine top-down-Strategie zur Erfassung und Interpretation des Metaboloms, d. h. der Gesamtheit aller niedermolekularen Metaboliten in einem intakten Organismus, dar. Ziel der Technik ist es, mittels geeigneter ungerichteter Screeningverfahren in nicht-invasiv zu gewinnenden biologischen Proben wie Urin oder Blut charakteristische Metabolitenprofile zu bestimmen. Im Kontext des Metabonomics wurde in Anlehnung an den Geno- bzw. Phänotyp hierfür der Begriff „Metabotyp“ geprägt. Durch biostatistische Methoden, die auf Mustererkennung (pattern recognition) basieren, können Signaturen gegenübergestellt und auf diesem Weg gruppenspezifische Metaboliten, d. h. Biomarker bzw. Metabolitenmuster, extrahiert werden. Metabonomics kann folglich als Fusion klassischer bioanalytischer und biostatistischer Verfahren aufgefasst werden. Seit der Einführung im Jahr 1999 hat sich das Konzept des Metabonomics in mehrere Richtungen weiterentwickelt. So gab es Bestrebungen, die Technik, die ursprünglich zur Prädiktion von toxischen Effekten bei der Arzneistoffentwicklung etabliert wurde, auf Fragestellungen zu übertragen, die den Menschen im Mittelpunkt haben. Neben präklinischen Anwendungen verfolgt man mit Metabonomics zunehmend das Ziel, einer personalisierten Medizin und Ernährung einen Schritt näher zu kommen. Da sich die ursprünglich eingesetzte NMR-Technik als zu unempfindlich und die resultierenden Metabolitenprofile als zu anfällig gegenüber biologischen und analytischen Einflussgrößen (Confoundern) erwiesen haben, wurde parallel auf sensitivere Verfahren wie die Massenspektrometrie gesetzt. Insbesondere die Kopplung mit der Hochdruckflüssigchromatographie erwies sich hierbei für das Metabolitenscreening als geeignet. Schnell wurde allerdings klar, dass aus den klassischen full scan/TOF-Methoden Datensätze resultierten, die häufig zu komplex waren, um mit nachgeschalteten chemometrischen Verfahren die „Spreu vom Weizen trennen“ zu können. Da sich Metabolitendatenbanken bisher noch im Aufbau befinden, ist die Identifizierung der Marker mit zusätzlichen Schwierigkeiten verbunden und bedarf aufwändiger analytischer Verfahren. Eine Strategie stellt daher die Beschränkung auf ein Metabolitensubset dar. Indem man sich auf Metabolitenklassen fokussiert, die einen Bezug zum untersuchten Mechanismus haben, können die Erfolgsaussichten bei der Identifizierung charakteristischer Biomarker deutlich erhöht werden. Aufgrund zahlreicher exogener und endogener Faktoren (Arzneistoffe, Industriechemikalien, Nahrungsbestandteile, Tabakrauchbestandteile, Produkte der Lipidperoxidation etc.) ist der menschliche Organismus stets einer Vielzahl an elektrophilen Verbindungen ausgesetzt. Oxidative Schädigungen an Strukturen wie der DNA, Proteinen und Lipiden werden mit einer Reihe von Krankheitsbildern in Zusammenhang gebracht, darunter Parkinson, Alzheimer, Krebs und Volkskrankheiten wie Arteriosklerose, Allergien und koronare Herzerkrankungen. Mit dem Glutathionsystem verfügt der Körper über einen wirksamen Detoxifizierungsmechanismus. Das Tripeptid Glutathion reagiert als Nukleophil mit den exogen oder endogen gebildeten elektrophilen Intermediaten. Endprodukte sind Merkaptursäuren (N-Acetyl-L-Cystein-Addukte) bzw. deren Sulfoxide, die in erster Linie mit dem Urin ausgeschieden werden. Folglich besteht zwischen diesen Merkaptursäurederivaten und der elektrophilen Belastung eines Organismus ein direkter Zusammenhang. Vor diesem Hintergrund war es das Ziel der Arbeit, einen nicht-invasiven Metabonomicsansatz zur Anwendung am Menschen zu entwickeln. Durch die Fokussierung des Metabolitenscreenings auf die Effekt-, Dosis- und Suszeptibilitätsmarkerklasse der Merkaptursäuren sollten hierbei die Erfolgsaussichten im Hinblick auf die Identifizierung potentieller Biomarker für diverse toxikologische sowie medizinische Endpunkte erhöht werden. N2 - Metabonomics forms the end of the omics-cascade and represents a top-down strategy for the interpretation of the metabolome, i. e. all the low molecular weight metabolites in an intact organism. The aim of the approach is to analyse characteristic metabolite profiles by suitable untargeted screening methods in biological samples like urine or blood that can be obtained in a non-invasive manner. In the context of metabonomics, the term “metabotype” was defined according to the geno- and phenotype, respectively. Biostatistical methods based on pattern recognition techniques allow comparing metabolic signatures and extracting group specific metabolites and biomarkers. Therefore, metabonomics can be regarded as the fusion of bioanalytical and biostatistical techniques. Since its introduction in 1999, the concept of metabonomics has permanently gained importance in many fields of scientific research. One aim was to transfer the methodology, which was originally established to predict toxic effects in drug development processes, to human issues. Apart from preclinical questions, metabonomics is increasingly applied in the area of personalised medicine and nutrition. As the NMR technique used by pioneers of the field was too insensitive and the resulting metabolite profiles were too susceptible to biological and analytical confounders, more sensitive techniques like mass spectrometry were more and more applied. Especially mass spectrometry in combination with high performance liquid chromatography showed great promise for the screening of metabolites. However, after a very short time, it was clear that the data sets resulting from full scan/TOF-methods were too complex to “separate the wheat from the chaff” with chemometric procedures. Metabolite databases are still under construction, and therefore marker identification is challenging and requires complex analytical techniques. Thus, one strategy is to concentrate on a certain metabolite subset. The focus on a metabolite class with a close relation to the mechanism under investigation can considerably increase the prospects of success in the biomarker identification process. Due to a variety of exogenous and endogenous factors (drugs, industrial chemicals, food ingredients, and tobacco smoke) the human organism is steadily confronted with a multitude of electrophilic compounds. Oxidative damage of the DNA, proteins, and lipids is associated with the development of diseases like Parkinson’s, Alzheimer’s, cancer and widespread diseases like arteriosclerosis, allergies and coronary heart diseases. With the glutathione system the human organism is equipped with an efficient detoxification mechanism. The tripeptide glutathione reacts as nucleophile with exogenously and endogenously formed electrophilic intermediates. End products are mercapturic acids (N-acetyl-L-cysteine-adducts) and respective sulfoxides that are predominantly excreted with urine. Therefore, there is a close relationship between these mercapturic acid patterns and the electrophilic burden of an organism. In this context, the aim of this thesis was to develop a non-invasive human metabonomics approach that focuses the metabolite screening on the effect, dose and susceptibility marker class of the mercapturic acids. Thus, the prospects of success regarding the identification of potential biomarkers for various toxicological and pathological endpoints should be increased. KW - Metabolom KW - Biomarker KW - Datenanalyse KW - Paracetamol KW - Validierung KW - Tetrachlormethan KW - Raucher KW - Tabakrauch KW - Zigarettenrauch KW - Biostatistik KW - Chemometrie KW - Hauptkomponentenanalyse KW - Methode der partiellen kleinsten Quadrate KW - Diskriminanzanalyse KW - Fl KW - Merkaptursäuren KW - Metabonomics KW - Metabolomics KW - Expositionsmarker KW - mercapturic acids KW - metabonomics KW - metabolomics KW - markers of exposure Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-35760 ER - TY - THES A1 - Stiefl, Nikolaus Johannes T1 - Entwicklung, Validierung und Anwendung einer neuen translations- und rotationsinvarianten 3D-QSAR-Methodik T1 - Development, validation and application of a novel translational and rotational invariant 3D-QSAR-technique N2 - Die vorliegende Arbeit beschreibt die Entwicklung und Validierung der neuartigen 3D-QSAR Technik Mapping Property Distributions of Molecular Surfaces (MaP). Die Methode ist gegenüber Translation und Rotation invariant, d. h. eine Überlagerung der Moleküle, wie sie zum Beispiel für CoMFA nötig ist, entfällt. MaP basiert auf der Charakterisierung der Moleküle nach ihrer Fähigkeit Wasserstoffbrücken auszubilden, sowie ihrer Hydrophobie / Hydrophilie. Dabei werden jedoch nicht nur die atombasierten Eigenschaften, sondern auch die Oberflächeneigenschaften der Moleküle zur Charakterisierung genutzt. Diese Loslösung von der chemischen Struktur der Verbindungen erlaubt es, die für die Ligand-Rezeptor-Interaktion (bzw. Substrat-Enzym-Interaktion) wichtigen Grenzflächen zu charakterisieren. Die wichtigsten methodischen Elemente der MaP-Technik, sowie die erhaltenen Ergebnisse der untersuchten Datensätze sollen hier noch einmal in kurzer Form dargestellt werden: Die theoretische Basis des MaP-Deskriptors bilden so genannte Radialverteilungsfunktionen. Mittels dieser selektiven Distanz-Zählstatistiken (SDZS) können sowohl die Form der Moleküle, als auch die Verteilung der einzelnen Oberflächeneigenschaften zueinander, in einem einzelnen Vektor beschrieben werden. Die MaP-Variablen kodieren dabei die Größe (absolute Anzahl an Einträgen), sowie die Orientierung (Distanz) verschiedener Oberflächeneigenschaften zueinander. Die Grundlage der Oberflächeneigenschaften stellen atomare Charakteristika wie das Wasserstoffbrückenbindungspotential sowie die atomare Hydrophobie / Hydrophilie dar. Diese Eigenschaften werden den Atomen mittels einfacher Regeln (Wasserstoffbrücken) bzw. einer Substruktursuche (Hydrophobie / Hydrophilie) zugewiesen und dann auf die Oberfläche projiziert. Um die mathematische Transformation der Rohdaten in die SDZS zu ermöglichen, muss die Moleküloberfläche durch gleichverteilte Oberflächenpunkte diskretisiert werden. Da diese Anforderung von gebräuchlichen analytischen Oberflächenberechnungsmethoden, wie zum Beispiel dem GEPOL-Algorithmus, nicht erfüllt wird, wurde der GEPOL-Algorithmus so modifiziert, dass ein Zusammenhang zwischen der Oberflächengröße und der Anzahl an Oberflächenpunkten gegeben ist. Da es aufgrund dieser Diskretisierung jedoch zum Verlust der Invarianz gegenüber Translation und Rotation kommen kann, wurde der Bestimmung der Moleküloberflächen eine spezielle Technik zur Ausrichtung der Moleküle im Koordinatensystem (Kanonisierung) vorgeschaltet. Dadurch wird ein identischer MaP-Deskriptor unabhängig von der Position der Moleküle im Raum garantiert. Um den Diskretisierungsfehler der Oberflächenbestimmung weiter zu reduzieren, wurde eine unscharfe Zählweise bei der Berechnung des MaP-Deskriptors adaptiert. Diese erlaubt es, Einträge die an den Kategoriengrenzen des MaP-Vektors liegen, auf die beiden nächsten Zentren zu verteilen. Dadurch werden kleine Schwankungen in den Distanzwerten kompensiert. Zur Modellbildung werden die infomativsten Variablen (MIV) mit Hilfe der ‚Reverse-Elimination-Method’-Tabu-Suche (REM-TS) identifiziert. Die so erhaltenen MIV’s können auf die Moleküle zurückprojiziert werden, was die Interpretation der berechneten Modelle stark vereinfacht. Zur Visualisierung der Ergebnisse können die Variablen unter Zuhilfenahme der unscharfen Zählweise nochmals gefiltert werden, um die Interpretation hoch besetzter Variablen zu vereinfachen. Da es aufgrund der Variablenselektion zu einer Zufallskorrelation in der Modellbildung kommen kann, werden die erhaltenen Modelle einer strengen Validierung unterzogen. Dabei werden neben der sehr anspruchsvollen ‚Lass-mehrere-Objekte-heraus’-Kreuzvalidierung als Gütefunktion der Variablenselektion auch ein Permutationstest der Modelle sowie eine Testdatenvorhersage angewandt. Durchläuft ein Modell all diese Validierungsschritte erfolgreich, so ist die Wahrscheinlichkeit einer Zufallskorrelation sehr gering. Um die Anwendbarkeit und die Güte des MaP-Deskriptors zu überprüfen, wurden verschiedene Datensätze untersucht. Diese können entsprechend ihrer Zielsetzung in unterschiedliche Gebiete aufgeteilt werden. Der erste Datensatz (Steroide) wird in der QSAR häufig als Vergleichsdatensatz eingesetzt. Ein weiterer Datensatz umfasst strukturell sehr heterogene Substanzen, die ein augenirritierendes Potential aufweisen (ECETOC). Inhibitoren des EndothelinA-Rezeptors (ETA) bildeten einen weiteren Datensatz. Die enthaltenen Moleküle sind im Datenraum stark in Untergruppen geklustert. Weiterhin wurden konformell sehr flexible, allostere Modulatoren des muskarinischen M2-Rezeptors (M2-Modulatoren) untersucht. Dieser Datensatz diente aufgrund der hohen Flexibilität der Moleküle auch zur Überprüfung der konformellen Abhängigkeit der Methode. Die Erweiterung des Standardparametersatzes wurde mit Hilfe von Naphthylisochinolin-Derivaten (NIQ) untersucht, die eine Aktivität gegen Plasmodium falciparum aufweisen. Ein weiterer Datensatz, deren Moleküle die Öffnungswahrscheinlickeit ATP-abhängiger Kalium-Kanäle erhöht (KCO), wurde herangezogen, um den Vorteil der mathematischen Transformation der MaP-Technik gegenüber der von GRIND benutzten MACC-2-Transformation herauszustellen. Inhibitoren des nicotinischen Acetylcholin-Rezeptors (CAR) bildeten einen weiteren Datensatz für den bisher keine QSAR-Studie vorlag. Zur strukturbasierten Validierung der Methode wurden Inhibitoren der Acetylcholinesterase (APZ-Datensatz) untersucht. Hierbei wurde geprüft, ob die aus der Kristallstruktur der Acetylcholinesterase wichtigen Ligand-Enzym-Wechselwirkungen durch MaP beschrieben werden. Die Ergebnisse dieser Untersuchungen lassen folgenden Rückschlüsse zu: Im Vergleich mit bereits etablierten 3D-QSAR-Techniken wie CoMFA, CoMSIA oder GRID/PLS führt die MaP-Technik zu vergleichbar guten Modellen (Steroide, ETA, M2-Modulatoren). Durch die Loslösung vom strukturellen Grundgerüst der Substanzen können auch strukturell diverse Datensätze gut modelliert und die relevante Information extrahiert werden (ECETOC). Dies ist mit Deskriptoren, die eine gemeinsame Ausrichtung der Moleküle benötigen (z.B. CoMFA), oft nicht möglich. Auch Datensätze, deren Objekte geklustert vorliegen, können mittels MaP gut modelliert werden. MaP ist dabei in der Lage die relevante Information sowohl zwischen, als auch innerhalb der einzelnen Gruppen zu extrahieren (ETA). Auch für Datensätze, deren Moleküle eine sehr hohe Flexibilität aufweisen, ist es möglich mit MaP gute Modelle zu erhalten (M2-Modulatoren, APZ). Hierbei ist es jedoch wichtig, zu beachten, dass MaP als 3D-QSAR-Technik gegenüber der Konformation der Moleküle nicht invariant ist. Bei der Anwendung der Methode zeigte sich jedoch, dass kleine konformelle Änderungen der Verbindungen oft einen sehr geringen Einfluss auf die Ergebnisse der Methode haben (M2-Modulatoren, APZ). Bei der Untersuchung der NIQ-Daten zeigte sich, dass unter Verwendung der MaP-Standardparameter bereits die relevanten Eigenschaften der Moleküle charakterisiert werden können. Allerdings führte eine Erweiterung dieser Parameter zu einer Vereinfachung der Interpretation der Ergebnisse. Hierbei ist jedoch darauf zu achten, dass die Modellvalidierung strikt eingehalten werden muss. Der Vorteil der mathematischen Transformation der Rohdaten (SDZS) gegenüber der von GRIND verwendeten MACC-2 Transformation konnte mittels der KCO-Daten aufgezeigt werden. Das erhaltene Modell spiegelte sehr schön die bereits bekannten Struktur-Wirkungs-Beziehungen wider. Leider ist die publizierte Datenlage in diesem Falle noch nicht ausreichend, um einen abschließenden Vergleich der beiden konkurrierenden Techniken zu ermöglichen. Beim CAR-Datensatz war MaP in der Lage, neben der bekannten, relevanten strukturellen Allylalkoholgruppe ein weiteres strukturelles Merkmal zu identifizieren. Abschließend konnte gezeigt werden, dass MaP in der Lage ist, die für die Wechselwirkung zwischen Acetylcholinesterase und Ligand wichtigen Interaktionsstellen und Charakteristika eindeutig zu identifizieren (APZ-Datensatz). Diese Eigenschaften wurden zur besseren Interpretation der Ergebnisse in die Bindetasche projiziert. Die Ergebnisse dieser Untersuchungen zeigen, dass die entwickelte Technik ein weites Anwendungsspektrum besitzt, leicht zu interpretieren ist und sich dabei durch ihre Robustheit auszeichnet. Vor allem aber liefert MaP aussagekräftige 3D-QSAR-Modelle. Bei der MaP-Methode handelt es sich jedoch nicht nur um einen neuen Moleküldeskriptor, sondern um eine Kombination aus Deskriptor, mathematischer Modellierung, Modellvalidierung und Modellvisualisierung. Obwohl MaP in Hinsicht auf Modellqualität und Modellinterpretierbarkeit Techniken wie zum Beispiel CoMFA in nichts nachsteht, sind aufgrund der einfachen und trotzdem hocheffizienten mathematischen Grundlagen folgende Erweiterungen denkbar: (1) als dreidimensionale Technik ist MaP von den Ausgangskonformationen der Moleküle abhängig. Findet sich im untersuchten Datensatz ein starres Molekül (M2-Modulatoren) oder aber sind Informationen über einen möglichen Bindungsmodus vorhanden, so können diese Konformationen relativ leicht erhalten werden. Da dies jedoch nicht immer der Fall ist, ist eine Erweiterung der Technik in die vierte Dimension (konformelle Flexibilität) wichtig. Dass dies prinzipiell möglich ist, konnte Hopfinger bereits zeigen. Da die mathematische Grundlage der MaP-Technik sehr einfach ist, sollte diese Art der Erweiterung in die vierte Dimension auch für MaP möglich sein. (2) Momentan ist der MaP-Deskriptor auf Verknüpfungen zwischen zwei Oberflächenpunkten beschränkt. Diese Einschränkung könnte dazu führen, dass Inkremente ein und derselben Variablen aus verschiedenen Teilen des Moleküls stammen. Wenn nur ein Teil davon Eigenschaften kodieren, die relevant für die Ligand-Rezeptor-Interaktion sind, könnte dies theoretisch zu Inkonsistenzen in dem resultierenden Modell führen. Bei den bislang untersuchten Datensätzen konnte dies noch nicht beobachtet werden. Eine mögliche Erklärung hierfür ist, dass die MaP-Variablen zu einem gewissen Grad redundant sind, d.h. das selbe Phänomen kann durch verschiedene Variablen beschrieben werden. Von diesen redundanten Variablen werden durch die strenge Validierung diejenigen vom Suchalgorithmus der Variablenselektion identifiziert, die am wenigsten mit anderen Eigenschaften vermengt sind. Prinzipiell ist eine solche Problematik jedoch denkbar. Um die Wahrscheinlichkeit eines derartigen Phänomens weiter zu reduzieren, sollten die bisher genutzten Zweipunktverknüpfungen auf drei Punkte erweitert werden. N2 - This thesis describes the development and validation of the novel 3D-QSAR technique Mapping Property Distributions of Molecular Surfaces (MaP). The method is invariant to translation and rotation. Hence a superimposition of the molecules prior to analysis is not necessary as opposed to field-based methods such as CoMFA. MaP characterises molecules with respect to their hydrogen bonding capabilities and their hydrophilicity / hydrophobicity. However, in contrast to atom-based approaches, MaP uses molecular surface properties for this description of the noncovalent binding forces relevant for receptor-ligand interaction. This property-based approach allows to describe the important interactions which form between the surfaces of receptor and ligand. In the following, the theoretical fundamentals of the MaP technique as well as the most important applications will be summarised. Radial distribution functions form the basis of the MaP descriptor. These are implemented as selective distance count statistics (SDCS) and allow the description of molecular shape as well as the distribution of different surface properties with a single vector. MaP variables themselves inherently encode the size of surface patches with particular properties in terms of the absolute number of counts and their relative position by the distance which separates the two properties under scrutiny. Surface properties are categorised based on atomic characteristics like the hydrogen bonding potential and the atomic hydrophobicity / hydrophilicity. Firstly, the atomic features are assigned by simple rules (hydrogen bonding) and substructure search routines (hydrophilicity / hydrophobicity), respectively. In a second step, they are projected onto the molecular surface. In order to make the mathematical transformation of the raw data into the SDCS possible, the molecular surface needs to be discretised by equally distributed surface points. Standard surface calculation algorithms like the GEPOL algorithm do not fulfil the requirement of equally distributed surface points. Consequently, the GEPOL algorithm was modified as to ensure a linear correlation between surface size and number of surface points. Unfortunately, this discretisation step bears the potential risk, that the translational and rotational invariance of the descriptor is lost. Hence, to avoid this undesirable feature of the descriptor, the molecules are canonicalised. When canonicalising a molecule its centre of mass is first translated into the origin of the coordinate system. Next a rotation matrix is computed which orients the molecules along their principal moments of inertia. These two steps render the surface (and thus the descriptor) translationally and rotationally invariant. To further reduce the discretisation error, the concept of fuzzy counts was introduced for the calculation of the MaP descriptor. Fuzzy counting means, that the two bins closest to the respective distance are incremented proportionally. That way, minor fluctuations due to the surface discretisation are compensated for. Identification of the most important variables (MIV) by variable selection is one of the key data modelling steps in the MaP procedure. For this task MaP employs a reverse-elemination-method tabu-search (REM-TS). For model interpretation these MIVs are back-projected onto the molecules. To further facilitate interpretation of the graphical output, fuzzy counts can be used to filter densely populated variables. One of the major drawbacks of variable selection in data modelling is the risk of chance correlations. Consequently, a strict validation procedure is applied to the MaP models. Apart from using the highly discriminative leave-multiple-out cross-validation as objective function in variable selection, permutation testing as well as test set prediction is applied. If a model passes all tests (validation steps), the risk of a chance correlation is very low. To validate the MaP descriptor and the quality of the models obtained with it, different data sets were investigated. Depending on the problem investigated, these data sets reflect different aspects of research. The first data set comprises structurally rigid compounds (steroids). It is frequently used as a ‘benchmark’ data set for novel QSAR techniques. The molecules of the second data set are structurally very heterogenous compounds with an eye-irritating potential (ECETOC). Members of the third data set include inhibitors of the endothelin-A receptor, that are highly clustered in data space (ETA). Another set of compounds comprises conformationally very flexible allosteric modulators of the muscarinic M2 receptors (M2-modulators). Due to this high flexibility of the compounds the data set is also used to validate the conformational dependence of the method. The NIQ data set which comprises naphthylisoquinolin derivatives with an antimalarial activity against Plasmodium falciparum was used to investigate the extension of the standard parameter set. To compare the mathematical transformation used by MaP with to the one used by GRIND (MACC-2 transformation), a set of compounds which increase the opening probability of ATP dependent potassium channels (KCO) was used. Another data set consisted of inhibitors of the nicotinic acetylcholine receptor (CAR), for which hitherto no QSAR study was performed. The last data set presented (APZ) was utilised to carry out a structure-based validation of the MaP method. Here it was examined, if the important ligand-enzyme interactions can be correctly identified by MaP. For this task, inhibitors of the actylcholine esterase (AChE) were used since a broad knowledge of the actual interactions are known from the different crystal structures available for AChE. From the obtained results the following conclusions can be drawn. When compared to already established 3D-QSAR techniques like CoMFA, CoMSIA, or GRID/PLS the models obtained with the MaP technique are of similar quality (steroids, ETA, M2-modulators). With the pursued property-based approach, even data sets comprising structurally highly diverse compounds can easily be modelled and the relevant information can be extracted (ECETOC). This is in contrast to techniques that need a superpositioning step of the molecules under study (e.g. CoMFA), for which these kind of data sets are hardly accessible. Furthermore, data sets with highly clustered objects can be modelled with MaP. Here MaP is able to extract not only intercluster, but also relevant intracluster information (ETA). Data sets with conformationally highly flexible molecules can also be modelled with good results employing MaP. However, it is important to keep in mind, that MaP, as every 3D-QSAR technique, is still sensitive to the molecular conformation. Nevertheless, it was found, that minor conformational changes of the molecules under study have a low impact on the results obtained with MaP (M2-modulators, APZ). Studying the NIQ data set it was found, that when applying the default parameters, MaP is already able to characterise the most relevant properties of the molecules under study. Yet, an extension of this parameter set resulted in a simplified interpretation of the obtained models. A necessity when using such an extension, however, is the strict model validation applied within MaP. The advantage of the mathematical transformation of the raw data using SDCS (MaP) over the MACC-2 transformation (GRIND) could be highlighted with the KCO data. Here, the model obtained was in full agreement with the available structure–activity relationships. Unfortunately, a complete comparison of the two techniques is currently not possible owing to comparatively few papers published. For the CAR data set, beside the important allyl alcohol group that was already known to be relevant for biological activity, it was possible to identify an additional important structural feature of the compounds under scrutiny. Finally, MaP is able to identify the relevant features as well as the interaction sites between the AChE and the respective ligand (APZ). To make the latter results easily understandable, a projection into the binding pocket of the enzyme was performed. The findings of these studies allow the conclusion, that MaP is widely applicable, easy to interpret and very robust. Most notably however, MaP produces meaningful and sensible 3D-QSAR models. Additionally, it should be emphasised, that MaP is not just yet another molecular descriptor, but a combination of molecular descriptor, mathematical modelling procedure, model validation and model visualisation. Even though MaP is comparable to standard 3D-QSAR techniques like CoMFA in terms of model quality and model interpretability, the following extension are conceivable owing to MaP’s simple but highly efficient fundamental mathematical principles: (1) As a three-dimensional technique, MaP is dependent on the molecular conformations employed. If the data set includes a rigid molecule (M2-modulators) or if information on a possible binding mode of the molecules is available, these conformations can be obtained comparatively easy. However, since these prerequisites are not always available, an extension of MaP to the fourth dimension (conformational flexibility) is important. Hopfinger showed, that in principle such an extension is possible. With the simple mathematical fundamentals of MaP, making use of this fourth dimension should be an achievable development step. (2) Currently, MaP is restricted to connections between two surface points. A numerical artefact of this constraint is, that the same variable might be incremented by surface areas of completely different parts of the molecule. Theoretically, if only a part of these encode properties that are relevant for the ligand-receptor interactions, this could lead to inconsistencies of the resulting model. One explanation why this was not the case thus far is, that MaP-variables are redundant up to a certain degree. Put differently, the same phenomena is explained by different variables. With the strict validation criteria applied within MaP, the search algorithm currently seems to select those variables, which exhibit the lowest confounding with others. Nevertheless, the aforementioned difficulties are possible. To further reduce the probability of such a situation, the two-point approach should extended to three points. KW - QSAR KW - translations- und rotationsinvariant KW - TRI KW - Chemometrie KW - Validierung KW - QSAR KW - translationally and rotationally invariant KW - TRI KW - chemometrics KW - validation Y1 - 2004 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-8230 ER - TY - THES A1 - Busemann, Matthias T1 - Entwicklung chemometrischer Methoden für das in-silico-Wirkstoffdesign T1 - Development of chemometric techniques for the in-silico drug design N2 - Diese Dissertation beschreibt Methoden zur Lösung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der Überprüfung ihrer Leistungsfähigkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis häufig vernachlässigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums Gültigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschränkt, außerhalb derer eine verläßliche Vorhersage unmöglich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabhängigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatensätze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls wünschenswert war die Fähigkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gewährleisten. Die Methode mußte der Überprüfung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datensätze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am nächsten benachbarten Trainingsobjekt. Der Schwellenwert für die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der Nächster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gewünschte Dimensionsunabhängigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverlässig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebräuchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsfähigkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datensätze durchgeführt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringfügigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und für verschiedenen Ansätze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Darüber hinaus bieten die Studien eine Abschätzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datensätzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molekülbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molekülen durchgeführt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter (Ähnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Darüber hinauswurde durch Berechnung von Interaktionsfingerprints eineMöglichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium für die Leistungsfähigkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Moleküle in der simulierten Screeningdatenbank. Die Resultate führen zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information benötigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung überlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenführung von strukturbasierter Information und solcher über das Interaktionsmuster bekanntermaßen aktiver Verbindungen für die Erhöhung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-Ähnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring führt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erhältlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschränktes kovalentes Docking zu. Daher wurde für FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe für die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz läßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme übertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen nämlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke für das Verständnis der Selektivität der untersuchten Liganden bezüglich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute Übereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis für die Validität des verwendeten Dockingprotokolls. N2 - This thesis describes methods for solving important application-oriented aspects of structure-based and ligand-based in silico drug design. The proposed algorithms are compared to well established techniques. The focus is particularly on the development and benchmarking of different chemometric techniques. In the following, the approaches and results within the different project areas are summarised. Outlier Identification. The inspection of QSAR datasets in order to identify prediction outliers is often omitted in practice. However, it is clear that no QSAR model is applicable to every conceivable chemical compound. Since QSAR models represent empirical mathematical models, these are only valid within the data space spanned by the training data. Hence, every model is restricted to certain borders beyond which a reliable prediction is impossible. The method ODD developed in this work can be used to determine these borders and thus to identify outliers. Those are objects outside the data space spanned by the training data (i.e. the applicability domain of the model). The aim of the method is to detect outliers solely based on the predictor variables (X data). Moreover, the method must be capable to handle high-dimensional datasetswithminimal user interference (e.g. setting of cut-offs). Furthermore, the ability to identify inliers would be preferable. The computational speed should be high enough to apply the method to virtual screening. The developed technique had to prove that it provides a reduction of the model’s error of prediction if extreme outliers are present. At the same time, it should leave non-critical datasets unaffected. ODD is based on the evaluation of the Euclidean distance of a test object towards its nearest neighbouring training object. The cut-off for deeming an object as outlier is calculated from the distribution of the nearest neighbour distances of the training set. This intrinsic value leads to the desired independence from data dimensionality and, above all, to an automatic adjustment of the cut-off to the characteristics of the calibration dataset without any user intervention. The validation shows that ODD reliably identifies extreme outliers. On the other hand, it offers a low rate of false positives compared to other common techniques for outlier identification. Ensemble Techniques. In a benchmark study, the impact of different ensemble techniques on the prediction error was investigated. For this purpose, comprehensive simulations on several real QSAR datasets were carried out. The application of ensembles (i.e. a collection of many models trained with sligthly perturbed versions of the training set) usually lowers the error of prediction (RMSEP). The RMSEP reduction was determined and compared for different approaches of ensemble generation. Overall, the methods of convex pseudo data and bagging proved to be the most efficient ways for ensemble generation (i.e. they resulted in the largest reduction of the prediction error). Convex pseudo data, which were applied toQSAR data sets for the first time as ensemble technique, are proposed as the new standard for lowering RMSEP in QSAR problems using latent variable regression models. Furthermore, the effect size of ensemble averaging was quantified for typical QSAR data sets. Virtual Screening. Virtual screening is a technique to screen large (virtual) molecular databases — often several million compounds — for the most promising drug candidates. This can be done by structure-based as well as by ligand-based approaches. Comprehensive computations on six different targets and a library of more than 90 000 compounds were carried out to compare the potential of structure-based techniques (docking with FLEXX) and ligand-based techniques (similarity searching with multiple queries). In addition to that, interaction fingerprints were computed in order to combine the information of the otherwise distinct approaches. Several statistical methods were applied for data analysis to investigate the impact of the machine learning algorithm. Figure of merit for each approach was the number of active compounds retrieved from the assembled screening database with known actives. The results lead to the following conclusions: Ligand-based approaches, which are simpler to use but require more a priori information, turned out to be superior to structure-based virtual screening techniques in terms of database enrichment. In addition, it could be shown that combination of structure-based information with information of the interaction pattern of known actives is beneficial for increasing retrieval rates. Data analysis revealed that certain statistical methods (minimum Euclidean distance ED/Min, and Tanimoto similarity of integer fingerprints Int/Min, respectively) are on average to be preferred. Covalent Docking of Cathepsin Inhibitors. Cysteine proteases Cathepsin B and L are interesting pharmacological targets. Suitable inhibitors, amongst others, come from the structural class of aziridines. A nucleophilic attack of the enzyme’s active site cysteine moiety on the electrophilic aziridine ring leads to formation of a covalent bond between ligand and receptor. However, virtually all available docking programs concentrate on noncovalent ligand-receptor interactions and do not provide sophisticated, unrestricted covalent docking. Thus, a docking protocol for FLEXX was designed which is able to represent the essential non-covalent state before formation of the covalent bond. That way, it could be studied whether or not the reaction centres of both ligand and receptor adopt a position close enough to each other to actually form the covalent bond. The approach presented here can easily be transferred to other covalent ligand-receptor systems and therefore provides a broad applicability. Furthermore, the parametrisation of the FLEXX interaction geometries was adapted to account for the special structural features of aziridides. Those show a formal amide bond, but its geometric and electronic properties differ noticeably from a typical amide. The results of the docking studies provide valuable insights for understanding the Cathepsin B/L selectivity of the ligands under scrutiny. Vice versa, the good correspondence of the FLEXX results and the inhibition constants obtained experimentally provide evidence for the validity of the applied docking protocol. KW - Arzneimitteldesign KW - Chemometrie KW - Chemometrie KW - Outlier-Identifizierung KW - virtuelles Screening KW - Docking KW - Chemometrics KW - Outlier Detection KW - virtual screening KW - docking Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-18777 ER -