TY - THES A1 - Pils, Birgit T1 - Insights into the evolution of protein domains give rise to improvements of function prediction T1 - Untersuchung der Evolution von Proteindomänen führt zu Neuerungen in ihrer Funktionsvorhersage N2 - The growing number of uncharacterised sequences in public databases has turned the prediction of protein function into a challenging research field. Traditional annotation methods are often error-prone due to the small subset of proteins with experimentally verified function. Goal of this thesis was to analyse the function and evolution of protein domains in order to understand molecular processes in the cell. The focus was on signalling domains of little understood function, as well as on functional sites of protein domains in general. Glucosaminidases (GlcNAcases) represent key enzymes in signal transduction pathways. Together with glucosamine transferases, they serve as molecular switches, similar to kinases and phosphatases. Little was known about the molecular function and structure of the GlcNAcases. In this thesis, the GlcNAcases were identified as remote homologues of N-acetyltransferases. By comparing the homologous sequences, I was able to predict functional sites of the GlcNAcase family and to identify the GlcNAcases as the first family member of the acetyltransferase superfamily with a distinct catalytic mechanism, which is not involved in the transfer of acetyl groups. In a similar approach, the sensor domain of a plant hormone receptor was studied. I was able to predict putative ligand-binding sites by comparing evolutionary constraints in functionally diverged subfamilies. Most of the putative ligand-binding sites have been experimentally confirmed in the meantime. Due to the importance of enzymes involved in cellular signalling, it seems impossible to find substitutions of catalytic amino acids that turn them catalytically inactive. Nevertheless, by scanning catalytic positions of the protein tyrosine phosphatase families, I found many inactive domains among single domain and tandem domain phosphatases in metazoan proteomes. In addition, I found that inactive phosphatases are conserved throughout evolution, which led to the question about the function of these catalytically inactive phosphatase domains. An analysis of evolutionary site rates of amino acid substitutions revealed a cluster of conserved residues in the apparently redundant domain of tandem phosphatases. This putative regulatory center might be responsible for the experimentally verified dimerization of the active and inactive domain in order to control the catalytic activity of the active phosphatase domain. Moreover, I detected a subgroup of inactive phosphatases, which presumably functions in substrate recognition, based on different evolutionary site rates within the phosphatase family. The characterization of these new regulatory modules in the phosphatase family raised the question whether inactivation of enzymes is a more general evolutionary mechanism to enlarge signalling pathways and whether inactive domains are also found in other enzyme families. A large-scale analysis of substitutions at catalytic positions of enzymatic domains was performed in this work. I identified many domains with inactivating substitutions in various enzyme families. Signalling domains harbour a particular high occurrence of catalytically inactive domains indicating that these domains have evolved to modulate existing regulatory pathways. Furthermore, it was shown that inactivation of enzymes by single substitutions happened multiple times independently in evolution. The surprising variability of amino acids at catalytic positions was decisive for a subsequent analysis of the diversity of functional sites in general. Using functional residues extracted from structural complexes I could show that functional sites of protein domains do not only vary in their type of amino acid but also in their structural location within the domain. In the process of evolution, protein domains have arisen from duplication events and subsequently adapted to new binding partners and developed new functions, which is reflected in the high variability of functional sites. However, great differences exist between domain families. The analysis demonstrated that functional sites of nuclear domains are more conserved than functional sites of extracellular domains. Furthermore, the type of ligand influences the degree of conservation, for example ion binding sites are more conserved than peptide binding sites. The work presented in this thesis has led to the detection of functional sites in various protein domains involved in signalling pathways and it has resulted in insights into the molecular function of those domains. In addition, properties of functional sites of protein domains were revealed. This knowledge can be used in the future to improve the prediction of protein function and to identify functional sites of proteins. N2 - Durch den rasanten Anstieg unbekannter Proteinsequenzen in öffentlichen Datenbanken ist die Vorhersage der Proteinfunktion zu einem herausfordernden Forschungsgebiet geworden. Herkömmliche Annotationsmethoden sind häufig fehlerhaft, da nur einem kleinen Teil der Proteine experimentell eine Funktion zugewiesen werden konnte. Ziel der hier vorliegenden Arbeit war es, die Funktion und Evolution von Proteindomänen in Hinblick auf die molekularen Vorgänge innerhalb der Zelle zu untersuchen. Der Schwerpunkt lag auf Signaldomänen mit unbekannter Funktion und auf funktionell wichtigen Positionen in Domänen. Glucosaminidasen (GlcNAcasen) spielen eine wichtige Rolle in Signaltransduktionswegen. Zusammen mit den Glucosamintransferasen dienen sie als molekulare Schalter, ähnlich den Kinasen und Phosphatasen, jedoch war sehr wenig über ihre molekulare Funktion, sowie über ihre Struktur bekannt. In dieser Studie wurde die entfernte Verwandtschaft der GlcNAcasen zu den Acetyltransferasen gezeigt. Durch den Vergleich von homologen Sequenzen konnte ich funktionelle Positionen vorhersagen und die GLcNAcasen als erstes Mitglied der Acetyltransferasen-Superfamilie mit einem neuen katalytischen Mechanismus identifizieren, der nicht den Transfer von Acetylgruppen vermittelt. In einem ähnlichen Ansatz wurde die Sensordomäne eines Hormonrezeptors aus Pflanzen untersucht. Dabei konnte ich durch den Vergleich von evolutiven Zwängen in funktionell unterschiedlichen Subfamilien Liganden-bindende Positionen bestimmen. Die meisten dieser Vorhersagen wurden inzwischen experimentell bestätigt. Aufgrund der entscheidenden Bedeutung von enzymatischen Domänen in Signaltransduktionsprozessen erscheint es unmöglich, Substitutionen von katalytischen Aminosäuren zu finden, die die Domäne inaktivieren würden. Dennoch habe ich in einer Analyse der katalytischen Positionen in der Proteintyrosinphosphatase-Familie viele inaktive Domänen in Einzel- und Tandem-Domänen-Phosphatasen in den Proteomen von Metazoa gefunden. Ich habe zusätzlich beobachtet, dass die inaktiven Domänen in der Evolution konserviert sind, was die Frage aufwirft, welche Funktion diese katalytisch inaktiven Domänen haben. Eine Analyse der Evolutionsraten von Aminosäuresubstitutionen identifizierte eine Ansammlung von konservierten Positionen in der scheinbar überflüssigen inaktiven Domäne von Tandemphosphatasen. Dieser möglicherweise regulatorische Bereich könnte für die Dimerisierung der aktiven und inaktiven Domäne verantwortlich sein, welche experimentell nachgewiesen wurde, sowie für die Regulation der katalytischen Aktivität der Phosphatasedomäne. Außerdem habe ich durch die unterschiedlichen Evolutionsraten eine Untergruppe der inaktiven Phosphatasen entdeckt, die wahrscheinlich an der Substraterkennung beteiligt ist. Die Charakterisierung dieser neuen regulatorischen Module in der Phosphatase- Familie führte zu der Frage, ob die Inaktivierung von Enzymen ein allgemeiner Mechanismus in der Evolution ist, um Signaltransduktionswege zu erweitern, und ob es auch in anderen Enzymfamilien inaktive Domänen gibt. Dazu wurde eine umfassende Analyse durchgeführt, um Substitutionen an katalytischen Positionen in enzymatischen Domänen zu untersuchen. Ich habe in vielen Domänen aus unterschiedlichen Enzymfamilien inaktivierende Substitutionen gefunden. Einen besonders hohen Anteil an katalytisch inaktiven Domänen gibt es in Signaldomänen, was zeigt, daß diese Domänen entstanden sind, um existierende regulatorische Netze zu modifizieren. Es konnte ferner gezeigt werden, daß die Inaktivierung von Enzymen durch einzelne Subsitutionen mehrmals unabhängig voneinander in der Evolution stattgefunden hat. Die Variabilität von Aminosäuren an katalytischen Positionen war ausschlaggebend für eine anschließende, allgemeinere Analyse von funktionellen Positionen. Mit Hilfe von funktionellen Positionen, die aus strukturellen Komplexen extrahiert wurden, konnte ich zeigen, dass funktionelle Positionen nicht nur in der Aminosäure, sondern auch in ihrer Lokalisation innerhalb der Struktur variieren. Im Laufe der Evolution haben sich Domänen aus Duplikationsprozessen gebildet, sich neuen Bindungspartnern angepasst und neue Funktionen entwickelt, was sich nun in der hohen Variabilität ihrer funktionellen Positionen widerspiegelt. Dennoch gibt es große Unterschiede zwischen Domänenfamilien. Die Analyse hat gezeigt, dass funktionelle Positionen von nuklearen Domänen viel stärker konserviert sind, als jene von extrazellulären Domänen. Die hier vorgestellte Studie beschreibt funktionelle Positionen in verschiedenen an Signaltransduktionswegen beteiligten Proteindomänen und liefert Einblicke in ihre molekulare Funktion. Außerdem wurden Eigenschaften von funktionell wichtigen Positionen aufgezeigt. Diese Erkenntnisse können in Zukunft zur Optimierung der Vorhersage von Proteinfunktionen und zur Identifikation von funktionellen Positionen genutzt werden. KW - Domäne KW - Funktion KW - Bioinformatik KW - Protein KW - Domäne KW - Funktionelle Positionen KW - Bioinformatik KW - Evolution KW - Protein KW - Domain KW - Functional Sites KW - Bioinformatics KW - Evolution Y1 - 2005 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-16805 ER -