TY - THES A1 - Axmacher, Franz T1 - Die SVM-gestützte Prädiktabilität der Bindungsspezifität ‎von SH3-Domänen anhand ihrer Aminosäuresequenz T1 - The SVM-based predictability of SH3-domain binding specificity by means of its amino-acid-‎sequence. ‎ N2 - Die Identifikation der Bindungsspezifitäten von Proteininteraktionsdomänen und damit letztlich auch ‎die Fähigkeit potentielle Bindungspartner dieser in vivo vorherzusagen bildet ein grundlegendes ‎Element für das Verständnis der biologischen Funktionen dieser Domänen. In dieser Arbeit wurde ‎untersucht, inwieweit solche Vorhersagen bezüglich der SH3-Domäne – als Beispiel für eine ‎Proteininteraktionsdomäne – mithilfe von Support-Vector-Machines (SVMs) möglich sind, wenn ‎diesen als Informationsquelle ausschließlich die innerhalb der Aminosäuresequenz der Domäne ‎konservierten Informationen zur Verfügung stehen. Um den SVM-basierten Klassifikator zu ‎trainieren und zu validieren, wurde ein Satz aus 51 SH3-Domänen verwendet, die zuvor ‎entsprechend ihrer Ligandenpräferenz in ein System aus acht verschiedenen Klassen eingeteilt ‎worden waren. Da die innerhalb der Aminosäuresequenzen konservierten Informationen in ‎abstrakte Zahlenwerte konvertiert werden mussten (Voraussetzung für mathematisch basierte ‎Klassifikatoren wie SVMs), wurde jede Aminosäuresequenz durch ihren jeweiligen Fisher-Score-‎Vektor ausgedrückt. Die Ergebnisse erbrachten einen Klassifikationserror, welcher weit unterhalb des ‎Zufallsniveaus lag, was darauf hindeutet, dass sich die Bindungsspezifität (Klasse) einer SH3-Domäne ‎in der Tat von seiner Aminosäuresequenz ableiten lassen dürfte. Mithilfe klassenspezifisch ‎emittierter, artifizieller Sequenzen, implementiert in den Trainingsprozess des Klassifikators, um ‎etwaigen nachteiligen Auswirkungen von Overfitting zu entgegenzuwirken, sowie durch ‎Berücksichtigung taxonomischer Informationen des Klassensystems während Training und ‎Validierung, ließ sich der Klassifikationserror sogar noch weiter senken und lag schließlich bei lediglich ‎‎35,29% (vergleiche Zufall: 7/8 = 87.50%). Auch die Nutzung von Feature Selections zur Abmilderung ‎Overfitting-bedingter, negativer Effekte lieferte recht vielversprechende Ergebnisse, wenngleich ihr ‎volles Potential aufgrund von Software-Beschränkungen nicht ausgenutzt werden konnte.‎ Die Analyse der Positionen im Sequence-Alignment, welche für den SVM- basierten Klassifikator am ‎relevantesten waren, zeigte, dass diese häufig mit Positionen korrelierten, von denen angenommen ‎wird auch in vivo eine Schlüsselrolle bei der Determination der Bindungsspezifität (Klasse) zu spielen. ‎Dies unterstreicht nicht nur die Reliabilität des präsentierten Klassifikators, es gibt auch Grund zur ‎Annahme, dass das Verfahren möglicherweise auch als Supplement anderer Ansätze genutzt werden ‎könnte, welche zum Ziel haben die Positionen zu identifizieren, die die Ligandenpräferenz in vivo ‎determinieren. Informationen, die nicht nur für ein besseres Verständnis der SH3-Domäne (und ‎möglicherweise auch anderer Proteininteraktionsdomänen) von grundlegender Bedeutung sind, ‎sondern auch aus pharmakologischer Sicht von großem Interesse sein dürften.‎ N2 - Regarding protein-interaction-domains the identification of their binding specificities and ‎eventually ‎also the ability to predict potential binding partners for them in vivo constitutes a fundamental ‎element for the understanding of the biological functions of these domains. In this study it ‎was ‎investigated to what extent such predictions could be made for the SH3-domain – as an ‎example ‎for a protein-interaction-domain – when using support-vector-machines (SVMs) trained ‎exclusively ‎with the information conserved within the amino-acid-sequence of the domain. A set of ‎‎51 SH3-‎domains, pre-classified into a system of eight different classes according to their ligand ‎preference, was used to train and cross-validate the SVM-based classifier. To convert the ‎information ‎conserved within the amino-acid-sequences into abstract numeric values (a ‎prerequisite for a ‎mathematics-based classifier like SVMs) each sequence was represented by its ‎respective Fisher-‎score-vector. The results revealed a classification error level way below chance ‎level, indicating the ‎binding specificity (class) of an SH3-domain can indeed be inferred from its ‎amino-acid-sequence. ‎With the help of class-specific emitted, artificial sequences introduced into ‎the training process of the ‎classifier to counter adverse overfitting effects and by additionally ‎considering taxonomic ‎information of the class system during training and cross-validation, the ‎classification error level of ‎the classifier could be lowered even farther, eventually reaching a level ‎as low as 35.29% (compare ‎chance level: 7/8 = 87.50%). The use feature selections to counter ‎overfitting returned quite ‎promising results, too, however couldn't be exploited to its full potential ‎due to software limitations. ‎ The analysis of those positions in the sequence-alignment being most relevant for the SVM-‎based ‎classifier showed, they frequently correlated with positions considered to also play in vivo a ‎pivotal ‎role in binding specificity (class) determination of the SH3-domain. Not only does this ‎underline the ‎reliability of the presented classifier, it also gives reason to believe, the method could ‎possibly be ‎used as a supplement for other approaches trying to identify positions that determine ‎ligand ‎preference in vivo. Information, not only fundamental for a better understanding of the SH3-‎‎domain (and maybe also other protein-interaction-domains), but also likely to be of great interest ‎from a pharmacological point of view.‎ KW - Support-Vektor-Maschine KW - Alignment KW - Hidden-Markov-Modell KW - Kreuzvalidierung KW - Taxonomie KW - SH3-Domäne KW - Fisher-Score KW - Regularisierung KW - Feature-Selection KW - PyMOL KW - WebLogo KW - e1071 Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-113349 ER - TY - JOUR A1 - Opwis, K. A1 - Gold, A. A1 - Schneider, Wolfgang T1 - Möglichkeiten der Kreuzvalidierung von Strukturgleichungsmodellen T1 - Cross-validating structural equation models: Problems and perspectives T1 - Possibilites de validation croisee pour des modeles d'equation structurale N2 - Die Beurteilung der Angemessenheit theoretischer Oberlegungen auf der Grundlage statistischer Hypothesentests ist für die empirische Forschung von zentraler Bedeutung. Im Mittelpunkt der Arbeit stehen die mit der Testung von multivariaten Strukturgleichungsmodellen (LISREL-Modelle) verbundenen Probleme. Zu Beginn wird das LISREL-Modell unter den Aspekten der simultanen Analyse von Kovarianzund Mittelwertstrukturen und der Modelltestung diskutiert. Anschließend werden anhand eines Illustrationsbeispiels aus der pädagogisch-psychologischen Forschung verschiedene Vorgehensweisen der Kreuzvalidierung einander gegenübergestellt und an empirischen Daten demonstriert. Es zeigt sich, daß die Obernahme exakter numerischer Parameterwerte sowohl aufgrund inhaltlicher wie auch formaler Argumente unangemessen streng erscheint. Diese Einschätzung kann empirisch belegt werden, indem eine Approximation von Intervallrestriktionen vorgenommen wird. N2 - This study focuses on the problem of how to judge the adequacy of theoretical models on the basis of statistical hypothesis testing procedures. In particular, problems of testing multivariate structural equation models (LISREL-models) are discussed. In a first step, the possibilities of simultaneously analyzing covariance and mean structures and of testing LISREL models are discussed . Next, data from a study conducted in the field of educational psychology are used to illustrate different procedures of cross-validating LISREL models. As it turns out, the usual restriction to base the model on equivalent numerical parameter values appears to be inappropriately rigorous. Thus, the suggestion is that cross-validations of structural equation models should rely on approximations of interval restrictions instead. N2 - Le jugement de l'appropriation des modeles theoriques base sur des tests d'hytheses statistiques est d'une importance capitale pour la recherche empirique . Les problemes lies a la verification de modeJes muJtivariants d'equation structurale sont au cen tre de cette etude. On trouve pour commencer une discussion sur le modele LISREL sous l'aspect de l'analyse simultanee de structures de covariance et de valeur moyenne et sous celui de la verification du modele. Suit ne comparaison de differents procedes de validation croiée. demontree d'apres des donnees empiriques et illustree par des exemples pris dans Ja recherche psychopedagogique. Il en ressort que la reprise de parametres numeriques exacts parait inadequate dans sa rigueur en raison d'arguments concernant tant le fond que la forme. Cette evaluation peut etre prouvee de facon empirique en faisant une approximation des restrictions d'intervalles. KW - Kreuzvalidierung KW - Strukturgleichungsmodell Y1 - 1987 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-87377 ER -