Entwicklung, Validierung und Anwendung einer neuen translations- und rotationsinvarianten 3D-QSAR-Methodik
Development, validation and application of a novel translational and rotational invariant 3D-QSAR-technique
Please always quote using this URN: urn:nbn:de:bvb:20-opus-8230
- Die vorliegende Arbeit beschreibt die Entwicklung und Validierung der neuartigen 3D-QSAR Technik Mapping Property Distributions of Molecular Surfaces (MaP). Die Methode ist gegenüber Translation und Rotation invariant, d. h. eine Überlagerung der Moleküle, wie sie zum Beispiel für CoMFA nötig ist, entfällt. MaP basiert auf der Charakterisierung der Moleküle nach ihrer Fähigkeit Wasserstoffbrücken auszubilden, sowie ihrer Hydrophobie / Hydrophilie. Dabei werden jedoch nicht nur die atombasierten Eigenschaften, sondern auch dieDie vorliegende Arbeit beschreibt die Entwicklung und Validierung der neuartigen 3D-QSAR Technik Mapping Property Distributions of Molecular Surfaces (MaP). Die Methode ist gegenüber Translation und Rotation invariant, d. h. eine Überlagerung der Moleküle, wie sie zum Beispiel für CoMFA nötig ist, entfällt. MaP basiert auf der Charakterisierung der Moleküle nach ihrer Fähigkeit Wasserstoffbrücken auszubilden, sowie ihrer Hydrophobie / Hydrophilie. Dabei werden jedoch nicht nur die atombasierten Eigenschaften, sondern auch die Oberflächeneigenschaften der Moleküle zur Charakterisierung genutzt. Diese Loslösung von der chemischen Struktur der Verbindungen erlaubt es, die für die Ligand-Rezeptor-Interaktion (bzw. Substrat-Enzym-Interaktion) wichtigen Grenzflächen zu charakterisieren. Die wichtigsten methodischen Elemente der MaP-Technik, sowie die erhaltenen Ergebnisse der untersuchten Datensätze sollen hier noch einmal in kurzer Form dargestellt werden: Die theoretische Basis des MaP-Deskriptors bilden so genannte Radialverteilungsfunktionen. Mittels dieser selektiven Distanz-Zählstatistiken (SDZS) können sowohl die Form der Moleküle, als auch die Verteilung der einzelnen Oberflächeneigenschaften zueinander, in einem einzelnen Vektor beschrieben werden. Die MaP-Variablen kodieren dabei die Größe (absolute Anzahl an Einträgen), sowie die Orientierung (Distanz) verschiedener Oberflächeneigenschaften zueinander. Die Grundlage der Oberflächeneigenschaften stellen atomare Charakteristika wie das Wasserstoffbrückenbindungspotential sowie die atomare Hydrophobie / Hydrophilie dar. Diese Eigenschaften werden den Atomen mittels einfacher Regeln (Wasserstoffbrücken) bzw. einer Substruktursuche (Hydrophobie / Hydrophilie) zugewiesen und dann auf die Oberfläche projiziert. Um die mathematische Transformation der Rohdaten in die SDZS zu ermöglichen, muss die Moleküloberfläche durch gleichverteilte Oberflächenpunkte diskretisiert werden. Da diese Anforderung von gebräuchlichen analytischen Oberflächenberechnungsmethoden, wie zum Beispiel dem GEPOL-Algorithmus, nicht erfüllt wird, wurde der GEPOL-Algorithmus so modifiziert, dass ein Zusammenhang zwischen der Oberflächengröße und der Anzahl an Oberflächenpunkten gegeben ist. Da es aufgrund dieser Diskretisierung jedoch zum Verlust der Invarianz gegenüber Translation und Rotation kommen kann, wurde der Bestimmung der Moleküloberflächen eine spezielle Technik zur Ausrichtung der Moleküle im Koordinatensystem (Kanonisierung) vorgeschaltet. Dadurch wird ein identischer MaP-Deskriptor unabhängig von der Position der Moleküle im Raum garantiert. Um den Diskretisierungsfehler der Oberflächenbestimmung weiter zu reduzieren, wurde eine unscharfe Zählweise bei der Berechnung des MaP-Deskriptors adaptiert. Diese erlaubt es, Einträge die an den Kategoriengrenzen des MaP-Vektors liegen, auf die beiden nächsten Zentren zu verteilen. Dadurch werden kleine Schwankungen in den Distanzwerten kompensiert. Zur Modellbildung werden die infomativsten Variablen (MIV) mit Hilfe der ‚Reverse-Elimination-Method’-Tabu-Suche (REM-TS) identifiziert. Die so erhaltenen MIV’s können auf die Moleküle zurückprojiziert werden, was die Interpretation der berechneten Modelle stark vereinfacht. Zur Visualisierung der Ergebnisse können die Variablen unter Zuhilfenahme der unscharfen Zählweise nochmals gefiltert werden, um die Interpretation hoch besetzter Variablen zu vereinfachen. Da es aufgrund der Variablenselektion zu einer Zufallskorrelation in der Modellbildung kommen kann, werden die erhaltenen Modelle einer strengen Validierung unterzogen. Dabei werden neben der sehr anspruchsvollen ‚Lass-mehrere-Objekte-heraus’-Kreuzvalidierung als Gütefunktion der Variablenselektion auch ein Permutationstest der Modelle sowie eine Testdatenvorhersage angewandt. Durchläuft ein Modell all diese Validierungsschritte erfolgreich, so ist die Wahrscheinlichkeit einer Zufallskorrelation sehr gering. Um die Anwendbarkeit und die Güte des MaP-Deskriptors zu überprüfen, wurden verschiedene Datensätze untersucht. Diese können entsprechend ihrer Zielsetzung in unterschiedliche Gebiete aufgeteilt werden. Der erste Datensatz (Steroide) wird in der QSAR häufig als Vergleichsdatensatz eingesetzt. Ein weiterer Datensatz umfasst strukturell sehr heterogene Substanzen, die ein augenirritierendes Potential aufweisen (ECETOC). Inhibitoren des EndothelinA-Rezeptors (ETA) bildeten einen weiteren Datensatz. Die enthaltenen Moleküle sind im Datenraum stark in Untergruppen geklustert. Weiterhin wurden konformell sehr flexible, allostere Modulatoren des muskarinischen M2-Rezeptors (M2-Modulatoren) untersucht. Dieser Datensatz diente aufgrund der hohen Flexibilität der Moleküle auch zur Überprüfung der konformellen Abhängigkeit der Methode. Die Erweiterung des Standardparametersatzes wurde mit Hilfe von Naphthylisochinolin-Derivaten (NIQ) untersucht, die eine Aktivität gegen Plasmodium falciparum aufweisen. Ein weiterer Datensatz, deren Moleküle die Öffnungswahrscheinlickeit ATP-abhängiger Kalium-Kanäle erhöht (KCO), wurde herangezogen, um den Vorteil der mathematischen Transformation der MaP-Technik gegenüber der von GRIND benutzten MACC-2-Transformation herauszustellen. Inhibitoren des nicotinischen Acetylcholin-Rezeptors (CAR) bildeten einen weiteren Datensatz für den bisher keine QSAR-Studie vorlag. Zur strukturbasierten Validierung der Methode wurden Inhibitoren der Acetylcholinesterase (APZ-Datensatz) untersucht. Hierbei wurde geprüft, ob die aus der Kristallstruktur der Acetylcholinesterase wichtigen Ligand-Enzym-Wechselwirkungen durch MaP beschrieben werden. Die Ergebnisse dieser Untersuchungen lassen folgenden Rückschlüsse zu: Im Vergleich mit bereits etablierten 3D-QSAR-Techniken wie CoMFA, CoMSIA oder GRID/PLS führt die MaP-Technik zu vergleichbar guten Modellen (Steroide, ETA, M2-Modulatoren). Durch die Loslösung vom strukturellen Grundgerüst der Substanzen können auch strukturell diverse Datensätze gut modelliert und die relevante Information extrahiert werden (ECETOC). Dies ist mit Deskriptoren, die eine gemeinsame Ausrichtung der Moleküle benötigen (z.B. CoMFA), oft nicht möglich. Auch Datensätze, deren Objekte geklustert vorliegen, können mittels MaP gut modelliert werden. MaP ist dabei in der Lage die relevante Information sowohl zwischen, als auch innerhalb der einzelnen Gruppen zu extrahieren (ETA). Auch für Datensätze, deren Moleküle eine sehr hohe Flexibilität aufweisen, ist es möglich mit MaP gute Modelle zu erhalten (M2-Modulatoren, APZ). Hierbei ist es jedoch wichtig, zu beachten, dass MaP als 3D-QSAR-Technik gegenüber der Konformation der Moleküle nicht invariant ist. Bei der Anwendung der Methode zeigte sich jedoch, dass kleine konformelle Änderungen der Verbindungen oft einen sehr geringen Einfluss auf die Ergebnisse der Methode haben (M2-Modulatoren, APZ). Bei der Untersuchung der NIQ-Daten zeigte sich, dass unter Verwendung der MaP-Standardparameter bereits die relevanten Eigenschaften der Moleküle charakterisiert werden können. Allerdings führte eine Erweiterung dieser Parameter zu einer Vereinfachung der Interpretation der Ergebnisse. Hierbei ist jedoch darauf zu achten, dass die Modellvalidierung strikt eingehalten werden muss. Der Vorteil der mathematischen Transformation der Rohdaten (SDZS) gegenüber der von GRIND verwendeten MACC-2 Transformation konnte mittels der KCO-Daten aufgezeigt werden. Das erhaltene Modell spiegelte sehr schön die bereits bekannten Struktur-Wirkungs-Beziehungen wider. Leider ist die publizierte Datenlage in diesem Falle noch nicht ausreichend, um einen abschließenden Vergleich der beiden konkurrierenden Techniken zu ermöglichen. Beim CAR-Datensatz war MaP in der Lage, neben der bekannten, relevanten strukturellen Allylalkoholgruppe ein weiteres strukturelles Merkmal zu identifizieren. Abschließend konnte gezeigt werden, dass MaP in der Lage ist, die für die Wechselwirkung zwischen Acetylcholinesterase und Ligand wichtigen Interaktionsstellen und Charakteristika eindeutig zu identifizieren (APZ-Datensatz). Diese Eigenschaften wurden zur besseren Interpretation der Ergebnisse in die Bindetasche projiziert. Die Ergebnisse dieser Untersuchungen zeigen, dass die entwickelte Technik ein weites Anwendungsspektrum besitzt, leicht zu interpretieren ist und sich dabei durch ihre Robustheit auszeichnet. Vor allem aber liefert MaP aussagekräftige 3D-QSAR-Modelle. Bei der MaP-Methode handelt es sich jedoch nicht nur um einen neuen Moleküldeskriptor, sondern um eine Kombination aus Deskriptor, mathematischer Modellierung, Modellvalidierung und Modellvisualisierung. Obwohl MaP in Hinsicht auf Modellqualität und Modellinterpretierbarkeit Techniken wie zum Beispiel CoMFA in nichts nachsteht, sind aufgrund der einfachen und trotzdem hocheffizienten mathematischen Grundlagen folgende Erweiterungen denkbar: (1) als dreidimensionale Technik ist MaP von den Ausgangskonformationen der Moleküle abhängig. Findet sich im untersuchten Datensatz ein starres Molekül (M2-Modulatoren) oder aber sind Informationen über einen möglichen Bindungsmodus vorhanden, so können diese Konformationen relativ leicht erhalten werden. Da dies jedoch nicht immer der Fall ist, ist eine Erweiterung der Technik in die vierte Dimension (konformelle Flexibilität) wichtig. Dass dies prinzipiell möglich ist, konnte Hopfinger bereits zeigen. Da die mathematische Grundlage der MaP-Technik sehr einfach ist, sollte diese Art der Erweiterung in die vierte Dimension auch für MaP möglich sein. (2) Momentan ist der MaP-Deskriptor auf Verknüpfungen zwischen zwei Oberflächenpunkten beschränkt. Diese Einschränkung könnte dazu führen, dass Inkremente ein und derselben Variablen aus verschiedenen Teilen des Moleküls stammen. Wenn nur ein Teil davon Eigenschaften kodieren, die relevant für die Ligand-Rezeptor-Interaktion sind, könnte dies theoretisch zu Inkonsistenzen in dem resultierenden Modell führen. Bei den bislang untersuchten Datensätzen konnte dies noch nicht beobachtet werden. Eine mögliche Erklärung hierfür ist, dass die MaP-Variablen zu einem gewissen Grad redundant sind, d.h. das selbe Phänomen kann durch verschiedene Variablen beschrieben werden. Von diesen redundanten Variablen werden durch die strenge Validierung diejenigen vom Suchalgorithmus der Variablenselektion identifiziert, die am wenigsten mit anderen Eigenschaften vermengt sind. Prinzipiell ist eine solche Problematik jedoch denkbar. Um die Wahrscheinlichkeit eines derartigen Phänomens weiter zu reduzieren, sollten die bisher genutzten Zweipunktverknüpfungen auf drei Punkte erweitert werden.…
- This thesis describes the development and validation of the novel 3D-QSAR technique Mapping Property Distributions of Molecular Surfaces (MaP). The method is invariant to translation and rotation. Hence a superimposition of the molecules prior to analysis is not necessary as opposed to field-based methods such as CoMFA. MaP characterises molecules with respect to their hydrogen bonding capabilities and their hydrophilicity / hydrophobicity. However, in contrast to atom-based approaches, MaP uses molecular surface properties for this descriptionThis thesis describes the development and validation of the novel 3D-QSAR technique Mapping Property Distributions of Molecular Surfaces (MaP). The method is invariant to translation and rotation. Hence a superimposition of the molecules prior to analysis is not necessary as opposed to field-based methods such as CoMFA. MaP characterises molecules with respect to their hydrogen bonding capabilities and their hydrophilicity / hydrophobicity. However, in contrast to atom-based approaches, MaP uses molecular surface properties for this description of the noncovalent binding forces relevant for receptor-ligand interaction. This property-based approach allows to describe the important interactions which form between the surfaces of receptor and ligand. In the following, the theoretical fundamentals of the MaP technique as well as the most important applications will be summarised. Radial distribution functions form the basis of the MaP descriptor. These are implemented as selective distance count statistics (SDCS) and allow the description of molecular shape as well as the distribution of different surface properties with a single vector. MaP variables themselves inherently encode the size of surface patches with particular properties in terms of the absolute number of counts and their relative position by the distance which separates the two properties under scrutiny. Surface properties are categorised based on atomic characteristics like the hydrogen bonding potential and the atomic hydrophobicity / hydrophilicity. Firstly, the atomic features are assigned by simple rules (hydrogen bonding) and substructure search routines (hydrophilicity / hydrophobicity), respectively. In a second step, they are projected onto the molecular surface. In order to make the mathematical transformation of the raw data into the SDCS possible, the molecular surface needs to be discretised by equally distributed surface points. Standard surface calculation algorithms like the GEPOL algorithm do not fulfil the requirement of equally distributed surface points. Consequently, the GEPOL algorithm was modified as to ensure a linear correlation between surface size and number of surface points. Unfortunately, this discretisation step bears the potential risk, that the translational and rotational invariance of the descriptor is lost. Hence, to avoid this undesirable feature of the descriptor, the molecules are canonicalised. When canonicalising a molecule its centre of mass is first translated into the origin of the coordinate system. Next a rotation matrix is computed which orients the molecules along their principal moments of inertia. These two steps render the surface (and thus the descriptor) translationally and rotationally invariant. To further reduce the discretisation error, the concept of fuzzy counts was introduced for the calculation of the MaP descriptor. Fuzzy counting means, that the two bins closest to the respective distance are incremented proportionally. That way, minor fluctuations due to the surface discretisation are compensated for. Identification of the most important variables (MIV) by variable selection is one of the key data modelling steps in the MaP procedure. For this task MaP employs a reverse-elemination-method tabu-search (REM-TS). For model interpretation these MIVs are back-projected onto the molecules. To further facilitate interpretation of the graphical output, fuzzy counts can be used to filter densely populated variables. One of the major drawbacks of variable selection in data modelling is the risk of chance correlations. Consequently, a strict validation procedure is applied to the MaP models. Apart from using the highly discriminative leave-multiple-out cross-validation as objective function in variable selection, permutation testing as well as test set prediction is applied. If a model passes all tests (validation steps), the risk of a chance correlation is very low. To validate the MaP descriptor and the quality of the models obtained with it, different data sets were investigated. Depending on the problem investigated, these data sets reflect different aspects of research. The first data set comprises structurally rigid compounds (steroids). It is frequently used as a ‘benchmark’ data set for novel QSAR techniques. The molecules of the second data set are structurally very heterogenous compounds with an eye-irritating potential (ECETOC). Members of the third data set include inhibitors of the endothelin-A receptor, that are highly clustered in data space (ETA). Another set of compounds comprises conformationally very flexible allosteric modulators of the muscarinic M2 receptors (M2-modulators). Due to this high flexibility of the compounds the data set is also used to validate the conformational dependence of the method. The NIQ data set which comprises naphthylisoquinolin derivatives with an antimalarial activity against Plasmodium falciparum was used to investigate the extension of the standard parameter set. To compare the mathematical transformation used by MaP with to the one used by GRIND (MACC-2 transformation), a set of compounds which increase the opening probability of ATP dependent potassium channels (KCO) was used. Another data set consisted of inhibitors of the nicotinic acetylcholine receptor (CAR), for which hitherto no QSAR study was performed. The last data set presented (APZ) was utilised to carry out a structure-based validation of the MaP method. Here it was examined, if the important ligand-enzyme interactions can be correctly identified by MaP. For this task, inhibitors of the actylcholine esterase (AChE) were used since a broad knowledge of the actual interactions are known from the different crystal structures available for AChE. From the obtained results the following conclusions can be drawn. When compared to already established 3D-QSAR techniques like CoMFA, CoMSIA, or GRID/PLS the models obtained with the MaP technique are of similar quality (steroids, ETA, M2-modulators). With the pursued property-based approach, even data sets comprising structurally highly diverse compounds can easily be modelled and the relevant information can be extracted (ECETOC). This is in contrast to techniques that need a superpositioning step of the molecules under study (e.g. CoMFA), for which these kind of data sets are hardly accessible. Furthermore, data sets with highly clustered objects can be modelled with MaP. Here MaP is able to extract not only intercluster, but also relevant intracluster information (ETA). Data sets with conformationally highly flexible molecules can also be modelled with good results employing MaP. However, it is important to keep in mind, that MaP, as every 3D-QSAR technique, is still sensitive to the molecular conformation. Nevertheless, it was found, that minor conformational changes of the molecules under study have a low impact on the results obtained with MaP (M2-modulators, APZ). Studying the NIQ data set it was found, that when applying the default parameters, MaP is already able to characterise the most relevant properties of the molecules under study. Yet, an extension of this parameter set resulted in a simplified interpretation of the obtained models. A necessity when using such an extension, however, is the strict model validation applied within MaP. The advantage of the mathematical transformation of the raw data using SDCS (MaP) over the MACC-2 transformation (GRIND) could be highlighted with the KCO data. Here, the model obtained was in full agreement with the available structure–activity relationships. Unfortunately, a complete comparison of the two techniques is currently not possible owing to comparatively few papers published. For the CAR data set, beside the important allyl alcohol group that was already known to be relevant for biological activity, it was possible to identify an additional important structural feature of the compounds under scrutiny. Finally, MaP is able to identify the relevant features as well as the interaction sites between the AChE and the respective ligand (APZ). To make the latter results easily understandable, a projection into the binding pocket of the enzyme was performed. The findings of these studies allow the conclusion, that MaP is widely applicable, easy to interpret and very robust. Most notably however, MaP produces meaningful and sensible 3D-QSAR models. Additionally, it should be emphasised, that MaP is not just yet another molecular descriptor, but a combination of molecular descriptor, mathematical modelling procedure, model validation and model visualisation. Even though MaP is comparable to standard 3D-QSAR techniques like CoMFA in terms of model quality and model interpretability, the following extension are conceivable owing to MaP’s simple but highly efficient fundamental mathematical principles: (1) As a three-dimensional technique, MaP is dependent on the molecular conformations employed. If the data set includes a rigid molecule (M2-modulators) or if information on a possible binding mode of the molecules is available, these conformations can be obtained comparatively easy. However, since these prerequisites are not always available, an extension of MaP to the fourth dimension (conformational flexibility) is important. Hopfinger showed, that in principle such an extension is possible. With the simple mathematical fundamentals of MaP, making use of this fourth dimension should be an achievable development step. (2) Currently, MaP is restricted to connections between two surface points. A numerical artefact of this constraint is, that the same variable might be incremented by surface areas of completely different parts of the molecule. Theoretically, if only a part of these encode properties that are relevant for the ligand-receptor interactions, this could lead to inconsistencies of the resulting model. One explanation why this was not the case thus far is, that MaP-variables are redundant up to a certain degree. Put differently, the same phenomena is explained by different variables. With the strict validation criteria applied within MaP, the search algorithm currently seems to select those variables, which exhibit the lowest confounding with others. Nevertheless, the aforementioned difficulties are possible. To further reduce the probability of such a situation, the two-point approach should extended to three points.…
Author: | Nikolaus Johannes Stiefl |
---|---|
URN: | urn:nbn:de:bvb:20-opus-8230 |
Document Type: | Doctoral Thesis |
Granting Institution: | Universität Würzburg, Fakultät für Chemie und Pharmazie |
Faculties: | Fakultät für Chemie und Pharmazie / Institut für Pharmazie und Lebensmittelchemie |
Date of final exam: | 2004/03/03 |
Language: | German |
Year of Completion: | 2004 |
Dewey Decimal Classification: | 5 Naturwissenschaften und Mathematik / 54 Chemie / 540 Chemie und zugeordnete Wissenschaften |
Tag: | Chemometrie; QSAR; TRI; Validierung; translations- und rotationsinvariant QSAR; TRI; chemometrics; translationally and rotationally invariant; validation |
Release Date: | 2004/03/15 |
Advisor: | PD Dr. Knut Baumann |