@phdthesis{Pils2005, author = {Pils, Birgit}, title = {Insights into the evolution of protein domains give rise to improvements of function prediction}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-16805}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2005}, abstract = {The growing number of uncharacterised sequences in public databases has turned the prediction of protein function into a challenging research field. Traditional annotation methods are often error-prone due to the small subset of proteins with experimentally verified function. Goal of this thesis was to analyse the function and evolution of protein domains in order to understand molecular processes in the cell. The focus was on signalling domains of little understood function, as well as on functional sites of protein domains in general. Glucosaminidases (GlcNAcases) represent key enzymes in signal transduction pathways. Together with glucosamine transferases, they serve as molecular switches, similar to kinases and phosphatases. Little was known about the molecular function and structure of the GlcNAcases. In this thesis, the GlcNAcases were identified as remote homologues of N-acetyltransferases. By comparing the homologous sequences, I was able to predict functional sites of the GlcNAcase family and to identify the GlcNAcases as the first family member of the acetyltransferase superfamily with a distinct catalytic mechanism, which is not involved in the transfer of acetyl groups. In a similar approach, the sensor domain of a plant hormone receptor was studied. I was able to predict putative ligand-binding sites by comparing evolutionary constraints in functionally diverged subfamilies. Most of the putative ligand-binding sites have been experimentally confirmed in the meantime. Due to the importance of enzymes involved in cellular signalling, it seems impossible to find substitutions of catalytic amino acids that turn them catalytically inactive. Nevertheless, by scanning catalytic positions of the protein tyrosine phosphatase families, I found many inactive domains among single domain and tandem domain phosphatases in metazoan proteomes. In addition, I found that inactive phosphatases are conserved throughout evolution, which led to the question about the function of these catalytically inactive phosphatase domains. An analysis of evolutionary site rates of amino acid substitutions revealed a cluster of conserved residues in the apparently redundant domain of tandem phosphatases. This putative regulatory center might be responsible for the experimentally verified dimerization of the active and inactive domain in order to control the catalytic activity of the active phosphatase domain. Moreover, I detected a subgroup of inactive phosphatases, which presumably functions in substrate recognition, based on different evolutionary site rates within the phosphatase family. The characterization of these new regulatory modules in the phosphatase family raised the question whether inactivation of enzymes is a more general evolutionary mechanism to enlarge signalling pathways and whether inactive domains are also found in other enzyme families. A large-scale analysis of substitutions at catalytic positions of enzymatic domains was performed in this work. I identified many domains with inactivating substitutions in various enzyme families. Signalling domains harbour a particular high occurrence of catalytically inactive domains indicating that these domains have evolved to modulate existing regulatory pathways. Furthermore, it was shown that inactivation of enzymes by single substitutions happened multiple times independently in evolution. The surprising variability of amino acids at catalytic positions was decisive for a subsequent analysis of the diversity of functional sites in general. Using functional residues extracted from structural complexes I could show that functional sites of protein domains do not only vary in their type of amino acid but also in their structural location within the domain. In the process of evolution, protein domains have arisen from duplication events and subsequently adapted to new binding partners and developed new functions, which is reflected in the high variability of functional sites. However, great differences exist between domain families. The analysis demonstrated that functional sites of nuclear domains are more conserved than functional sites of extracellular domains. Furthermore, the type of ligand influences the degree of conservation, for example ion binding sites are more conserved than peptide binding sites. The work presented in this thesis has led to the detection of functional sites in various protein domains involved in signalling pathways and it has resulted in insights into the molecular function of those domains. In addition, properties of functional sites of protein domains were revealed. This knowledge can be used in the future to improve the prediction of protein function and to identify functional sites of proteins.}, subject = {Dom{\"a}ne }, language = {en} } @phdthesis{Pinkert2008, author = {Pinkert, Stefan}, title = {The human proteome is shaped by evolution and interactions}, url = {http://nbn-resolving.de/urn:nbn:de:bvb:20-opus-35566}, school = {Universit{\"a}t W{\"u}rzburg}, year = {2008}, abstract = {Das menschliche Genom ist seit 2001 komplett sequenziert. Ein Großteil der Proteine wurde mittlerweile beschrieben und t{\"a}glich werden bioinformatische Vorhersagen praktisch best{\"a}tigt. Als weiteres Großprojekt wurde k{\"u}rzlich die Sequenzierung des Genoms von 1000 Menschen gestartet. Trotzdem ist immer noch wenig {\"u}ber die Evolution des gesamten menschlichen Proteoms bekannt. Proteindom{\"a}nen und ihre Kombinationen sind teilweise sehr detailliert erforscht, aber es wurden noch nicht alle Dom{\"a}nenarchitekturen des Menschen in ihrer Gesamtheit miteinander verglichen. Der verwendete große hochqualitative Datensatz von Protein-Protein-Interaktionen und Komplexen stammt aus dem Jahr 2006 und erm{\"o}glicht es erstmals das menschliche Proteom mit einer vorher nicht m{\"o}glichen Genauigkeit analysieren zu k{\"o}nnen. Hochentwickelte Cluster Algorithmen und die Verf{\"u}gbarkeit von großer Rechenkapazit{\"a}t bef{\"a}higen uns neue Information {\"u}ber Proteinnetzwerke ohne weitere Laborarbeit zu gewinnen. Die vorliegende Arbeit analysiert das menschliche Proteom auf drei verschiedenen Ebenen. Zuerst wurde der Ursprung von Proteinen basierend auf ihrer Dom{\"a}nenarchitektur analysiert, danach wurden Protein-Protein-Interaktionen untersucht und schließlich erfolgte Einteilung der Proteine nach ihren vorhandenen und fehlenden Interaktionen. Die meisten bekannten Proteine enthalten mindestens eine Dom{\"a}ne und die Proteinfunktion ergibt sich aus der Summe der Funktionen der einzelnen enthaltenen Dom{\"a}nen. Proteine, die auf der gleichen Dom{\"a}nenarchitektur basieren, das heißt die die gleichen Dom{\"a}nen in derselben Reihenfolge besitzen, sind homolog und daher aus einem gemeinsamen urspr{\"u}nglichen Protein entstanden. Die Dom{\"a}nenarchitekturen der urspr{\"u}nglichen Proteine wurden f{\"u}r 750000 Proteine aus 1313 Spezies bestimmt. Die Gruppierung von Spezies und ihrer Proteine ergibt sich aus taxonomischen Daten von NCBI-Taxonomy, welche mit zus{\"a}tzlichen Informationen basierend auf molekularen Markern erg{\"a}nzt wurden. Der resultierende Datensatz, bestehend aus 5817 Dom{\"a}nen und 32868 Dom{\"a}nenarchitekturen, war die Grundlage f{\"u}r die Bestimmung des Ursprungs der Proteine aufgrund ihrer Dom{\"a}nenarchitekturen. Es wurde festgestellt, dass nur ein kleiner Teil der neu evolvierten Dom{\"a}nenarchitekturen eines Taxons gleichzeitig auch im selben Taxon neu entstandene Proteindom{\"a}nen enth{\"a}lt. Ein weiteres Ergebnis war, dass Dom{\"a}nenarchitekturen im Verlauf der Evolution l{\"a}nger und komplexer werden, und dass so verschiedene Organismen wie der Fadenwurm, die Fruchtfliege und der Mensch die gleiche Menge an unterschiedlichen Proteinen haben, aber deutliche Unterschiede in der Anzahl ihrer Dom{\"a}nenarchitekturen aufweisen. Der zweite Teil besch{\"a}ftigt sich mit der Frage wie neu entstandene Proteine Bindungen mit dem schon bestehenden Proteinnetzwerk eingehen. In fr{\"u}heren Arbeiten wurde gezeigt, dass das Protein-Interaktions-Netzwerk ein skalenfreies Netz ist. Skalenfreie Netze, wie zum Beispiel das Internet, bestehen aus wenigen Knoten mit vielen Interaktionen, genannt Hubs, und andererseits aus vielen Knoten mit wenigen Interaktionen. Man vermutet, dass zwei Mechanismen zur Entstehung solcher Netzwerke f{\"u}hren. Erstens m{\"u}ssen neue Proteine um auch Teil des Proteinnetzwerkes zu werden mit Proteinen interagieren, die bereits Teil des Netzwerkes sind. Zweitens interagieren die neuen Proteine, gem{\"a}ß der Theorie der bevorzugten Bindung, mit h{\"o}herer Wahrscheinlichkeit mit solchen Proteinen im Netzwerk, die schon an zahlreichen weiteren Protein-Interaktionen beteiligt sind. Die Human Protein Reference Database stellt ein auf Informationen aus in-vivo Experimenten beruhendes Proteinnetzwerk f{\"u}r menschliche Proteine zur Verf{\"u}gung. Basierend auf den in Kapitel I gewonnenen Informationen wurden die Proteine mit dem Ursprungstaxon ihrer Dom{\"a}nenarchitekturen versehen. Dadurch wurde gezeigt, dass ein Protein h{\"a}ufiger mit Proteinen, die im selben Taxon entstanden sind, interagiert, als mit Proteinen, die in anderen Taxa neu aufgetreten sind. Es stellte sich heraus, dass diese Interaktionsraten f{\"u}r alle Taxa deutlich h{\"o}her waren, als durch das Zufallsmodel vorhergesagt wurden. Alle Taxa enthalten den gleichen Anteil an Proteinen mit vielen Interaktionen. Diese zwei Ergebnisse sprechen dagegen, dass die bevorzugte Bindung der alleinige Mechanismus ist, der zum heutigen Aufbau des menschlichen Proteininteraktion-Netzwerks beigetragen hat. Im dritten Teil wurden Proteine basierend auf dem Vorhandensein und der Abwesenheit von Interaktionen in Gruppen eingeteilt. Proteinnetzwerke k{\"o}nnen in kleine hoch vernetzte Teile zerlegt werden, die eine spezifische Funktion aus{\"u}ben. Diese Gruppen k{\"o}nnen mit hoher statistischer Signifikanz berechnet werden, haben meistens jedoch keine biologische Relevanz. Mit einem neuen Algorithmus, welcher zus{\"a}tzlich zu Interaktionen auch Nicht-Interaktionen ber{\"u}cksichtigt, wurde ein Datensatz bestehend aus 8,756 Proteinen und 32,331 Interaktionen neu unterteilt. Eine Einteilung in elf Gruppen zeigte hohe auf Gene Ontology basierte Werte und die Gruppen konnten signifikant einzelnen Zellteilen zugeordnet werden. Eine Gruppe besteht aus Proteinen, welche wenige Interaktionen miteinander aber viele Interaktionen zu zwei benachbarten Gruppen besitzen. Diese Gruppe enth{\"a}lt eine signifikant erh{\"o}hte Anzahl an Transportproteinen und die zwei benachbarten Gruppen haben eine erh{\"o}hte Anzahl an einerseits extrazellul{\"a}ren und andererseits im Zytoplasma und an der Membran lokalisierten Proteinen. Der Algorithmus hat damit unter Beweis gestellt das die Ergebnisse nicht bloß statistisch sondern auch biologisch relevant sind. Wenn wir auch noch weit vom Verst{\"a}ndnis des Ursprungs der Spezies entfernt sind, so hat diese Arbeit doch einen Beitrag zum besseren Verst{\"a}ndnis der Evolution auf dem Level der Proteine geleistet. Im Speziellen wurden neue Erkenntnisse {\"u}ber die Beziehung von Proteindom{\"a}nen und Dom{\"a}nenarchitekturen, sowie ihre Pr{\"a}ferenzen f{\"u}r Interaktionspartner im Interaktionsnetzwerk gewonnen.}, subject = {Evolution}, language = {en} }