TY - THES A1 - Pinkert, Stefan T1 - The human proteome is shaped by evolution and interactions T1 - Das menschliche Proteom ist geformt durch Evolution und Interaktion N2 - Das menschliche Genom ist seit 2001 komplett sequenziert. Ein Großteil der Proteine wurde mittlerweile beschrieben und täglich werden bioinformatische Vorhersagen praktisch bestätigt. Als weiteres Großprojekt wurde kürzlich die Sequenzierung des Genoms von 1000 Menschen gestartet. Trotzdem ist immer noch wenig über die Evolution des gesamten menschlichen Proteoms bekannt. Proteindomänen und ihre Kombinationen sind teilweise sehr detailliert erforscht, aber es wurden noch nicht alle Domänenarchitekturen des Menschen in ihrer Gesamtheit miteinander verglichen. Der verwendete große hochqualitative Datensatz von Protein-Protein-Interaktionen und Komplexen stammt aus dem Jahr 2006 und ermöglicht es erstmals das menschliche Proteom mit einer vorher nicht möglichen Genauigkeit analysieren zu können. Hochentwickelte Cluster Algorithmen und die Verfügbarkeit von großer Rechenkapazität befähigen uns neue Information über Proteinnetzwerke ohne weitere Laborarbeit zu gewinnen. Die vorliegende Arbeit analysiert das menschliche Proteom auf drei verschiedenen Ebenen. Zuerst wurde der Ursprung von Proteinen basierend auf ihrer Domänenarchitektur analysiert, danach wurden Protein-Protein-Interaktionen untersucht und schließlich erfolgte Einteilung der Proteine nach ihren vorhandenen und fehlenden Interaktionen. Die meisten bekannten Proteine enthalten mindestens eine Domäne und die Proteinfunktion ergibt sich aus der Summe der Funktionen der einzelnen enthaltenen Domänen. Proteine, die auf der gleichen Domänenarchitektur basieren, das heißt die die gleichen Domänen in derselben Reihenfolge besitzen, sind homolog und daher aus einem gemeinsamen ursprünglichen Protein entstanden. Die Domänenarchitekturen der ursprünglichen Proteine wurden für 750000 Proteine aus 1313 Spezies bestimmt. Die Gruppierung von Spezies und ihrer Proteine ergibt sich aus taxonomischen Daten von NCBI-Taxonomy, welche mit zusätzlichen Informationen basierend auf molekularen Markern ergänzt wurden. Der resultierende Datensatz, bestehend aus 5817 Domänen und 32868 Domänenarchitekturen, war die Grundlage für die Bestimmung des Ursprungs der Proteine aufgrund ihrer Domänenarchitekturen. Es wurde festgestellt, dass nur ein kleiner Teil der neu evolvierten Domänenarchitekturen eines Taxons gleichzeitig auch im selben Taxon neu entstandene Proteindomänen enthält. Ein weiteres Ergebnis war, dass Domänenarchitekturen im Verlauf der Evolution länger und komplexer werden, und dass so verschiedene Organismen wie der Fadenwurm, die Fruchtfliege und der Mensch die gleiche Menge an unterschiedlichen Proteinen haben, aber deutliche Unterschiede in der Anzahl ihrer Domänenarchitekturen aufweisen. Der zweite Teil beschäftigt sich mit der Frage wie neu entstandene Proteine Bindungen mit dem schon bestehenden Proteinnetzwerk eingehen. In früheren Arbeiten wurde gezeigt, dass das Protein-Interaktions-Netzwerk ein skalenfreies Netz ist. Skalenfreie Netze, wie zum Beispiel das Internet, bestehen aus wenigen Knoten mit vielen Interaktionen, genannt Hubs, und andererseits aus vielen Knoten mit wenigen Interaktionen. Man vermutet, dass zwei Mechanismen zur Entstehung solcher Netzwerke führen. Erstens müssen neue Proteine um auch Teil des Proteinnetzwerkes zu werden mit Proteinen interagieren, die bereits Teil des Netzwerkes sind. Zweitens interagieren die neuen Proteine, gemäß der Theorie der bevorzugten Bindung, mit höherer Wahrscheinlichkeit mit solchen Proteinen im Netzwerk, die schon an zahlreichen weiteren Protein-Interaktionen beteiligt sind. Die Human Protein Reference Database stellt ein auf Informationen aus in-vivo Experimenten beruhendes Proteinnetzwerk für menschliche Proteine zur Verfügung. Basierend auf den in Kapitel I gewonnenen Informationen wurden die Proteine mit dem Ursprungstaxon ihrer Domänenarchitekturen versehen. Dadurch wurde gezeigt, dass ein Protein häufiger mit Proteinen, die im selben Taxon entstanden sind, interagiert, als mit Proteinen, die in anderen Taxa neu aufgetreten sind. Es stellte sich heraus, dass diese Interaktionsraten für alle Taxa deutlich höher waren, als durch das Zufallsmodel vorhergesagt wurden. Alle Taxa enthalten den gleichen Anteil an Proteinen mit vielen Interaktionen. Diese zwei Ergebnisse sprechen dagegen, dass die bevorzugte Bindung der alleinige Mechanismus ist, der zum heutigen Aufbau des menschlichen Proteininteraktion-Netzwerks beigetragen hat. Im dritten Teil wurden Proteine basierend auf dem Vorhandensein und der Abwesenheit von Interaktionen in Gruppen eingeteilt. Proteinnetzwerke können in kleine hoch vernetzte Teile zerlegt werden, die eine spezifische Funktion ausüben. Diese Gruppen können mit hoher statistischer Signifikanz berechnet werden, haben meistens jedoch keine biologische Relevanz. Mit einem neuen Algorithmus, welcher zusätzlich zu Interaktionen auch Nicht-Interaktionen berücksichtigt, wurde ein Datensatz bestehend aus 8,756 Proteinen und 32,331 Interaktionen neu unterteilt. Eine Einteilung in elf Gruppen zeigte hohe auf Gene Ontology basierte Werte und die Gruppen konnten signifikant einzelnen Zellteilen zugeordnet werden. Eine Gruppe besteht aus Proteinen, welche wenige Interaktionen miteinander aber viele Interaktionen zu zwei benachbarten Gruppen besitzen. Diese Gruppe enthält eine signifikant erhöhte Anzahl an Transportproteinen und die zwei benachbarten Gruppen haben eine erhöhte Anzahl an einerseits extrazellulären und andererseits im Zytoplasma und an der Membran lokalisierten Proteinen. Der Algorithmus hat damit unter Beweis gestellt das die Ergebnisse nicht bloß statistisch sondern auch biologisch relevant sind. Wenn wir auch noch weit vom Verständnis des Ursprungs der Spezies entfernt sind, so hat diese Arbeit doch einen Beitrag zum besseren Verständnis der Evolution auf dem Level der Proteine geleistet. Im Speziellen wurden neue Erkenntnisse über die Beziehung von Proteindomänen und Domänenarchitekturen, sowie ihre Präferenzen für Interaktionspartner im Interaktionsnetzwerk gewonnen. N2 - The human genome has been sequenced since 2001. Most proteins have been characterized now and with everyday more bioinformatical predictions are experimentally verified. A project is underway to sequence thousand humans. But still, little is known about the evolution of the human proteome itself. Domains and their combinations are analysed in detail but not all of the human domain architectures at once. Like no one before, we have large datasets of high quality human protein-protein-protein interactions and complexes available which allow us to characterize the human proteome with unmatched accuracy. Advanced clustering algorithms and computing power enable us to gain new information about protein interactions without touching a pipette. In this work, the human proteome is analysed at three different levels. First, the origin of the different types of proteins was analysed based on their domain architectures. The second part focuses on the protein-protein interactions. Finally, in the third part, proteins are clustered based on their interactions and non-interactions. Most proteins are built of domains and their function is the sum of their domain functions. Proteins that share the same domain architecture, the linear order of domains are homologues and should have originated from one common ancestral protein. This ancestor was calculated for roughly 750 000 proteins from 1313 species. The relations between the species are based on the NCBI Taxonomy and additional molecular data. The resulting data set of 5817 domains and 32868 domain architectures was used to estimate the origin of these proteins based on their architectures. It could be observed, that new domain architectures are only in a small fraction composed of domains arisen at the same taxon. It was also found that domain architectures increase in length and complexity in the course of evolution and that different organisms like worm, and human share nearly the same amount of proteins but differ in their number of distinct domain architectures. The second part of this thesis focuses on protein-protein interactions. This chapter addresses the question how new evolved proteins form connections within the existing network. The network built of protein-protein interactions was shown to be scale free. Scale free networks, like the internet, consist of few hubs with many connections and many nodes with few connections. They are thought to arise by two mechanisms. First, newly emerged proteins interact with proteins of the network. Second, according to the theory of preferential attachment, new proteins have a higher chance to interact with already interaction rich proteins. The Human Protein Reference Database provides an on in-vivo interaction data based network for human. With the data obtained from chapter one, proteins were marked with their taxon of origin based on their domain architectures. The interaction ratio of proteins of the same taxa compared to all interactions was calculated and higher values than the random model showed for nearly every taxa. On the other hand, there was no enrichment of proteins originated at the taxon of cellular organisms for the node degree found. The node degree is the number of links for this node. According to the theorie of preferential attachment the oldest nodes should have the most interactions and newly arisen proteins should be preferably attached to them not together. Both could not be shown in this analysis, preferential attachment could therefore not be the only explanation for the forming of the human protein interaction network. Finally in part three, proteins and all their interactions in the network are analysed. Protein networks can be divided into smaller highly interacting parts carrying out specific functions. This can be done with high statistical significance but still, it does not reflect the biological significance. Proteins were clustered based on their interactions and non-interactions with other proteins. A version with eleven clusters showed high gene ontology based ratings and clusters related to specific cell parts. One cluster consists of proteins having very few interactions together but many to proteins of two other clusters. This first cluster is significantly enriched with transport proteins and the two others are enriched with extracellular and cytoplasm/membrane located proteins. The algorithm seems therefore well suited to reflect the biological importance behind functional modules. Although we are still far from understanding the origin of species, this work has significantly contributed to a better understanding of evolution at the protein level and has, in particular, shown the relation of protein domains and protein architectures and their preferences for binding partners within interaction networks. KW - Evolution KW - Protein KW - Domäne KW - Interaktion KW - evolution KW - protein KW - interaction KW - domain Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-35566 ER - TY - THES A1 - Gros, Andreas T1 - Interactions in the evolution of dispersal distance and emigration probability T1 - Wechselwirkungen bei der Evolution von Ausbreitungsdistanz und Auswanderwahrscheinlichkeit N2 - Chapter 1 - Evolution of local adaptations in dispersal strategies The optimal probability and distance of dispersal largely depend on the risk to end up in unsuitable habitat. This risk is highest close to the habitat’s edge and consequently, optimal dispersal probability and distance should decline towards the habitat’s border. This selection should lead to the emergence of spatial gradients in dispersal strategies. However, gene flow caused by dispersal itself is counteracting local adaptation. Using an individual based model I investigate the evolution of local adaptations of dispersal probability and distance within a single, circular, habitat patch. I compare evolved dispersal probabilities and distances for six different dispersal kernels (two negative exponential kernels, two skewed kernels, nearest neighbour dispersal and global dispersal) in patches of different size. For all kernels a positive correlation between patch size and dispersal probability emerges. However, a minimum patch size is necessary to allow for local adaptation of dispersal strategies within patches. Beyond this minimum patch area the difference in mean dispersal distance between center and edge increases linearly with patch radius, but the intensity of local adaptation depends on the dispersal kernel. Except for global and nearest neighbour dispersal, the evolved spatial pattern are qualitatively similar for both, mean dispersal probability and distance. I conclude, that inspite of the gene-flow originating from dispersal local adaptation of dispersal strategies is possible if a habitat is of sufficient size. This presumably holds for any realistic type of dispersal kernel. Chapter 2 - How dispersal propensity and distance depend on the capability to assess population density We analyze the simultaneous evolution of emigration probability and dispersal distance for species with different abilities to assess habitat quality (population density) and which suffer from distance dependent dispersal costs. Using an individual-based model I simulate dispersal as a multistep (patch to patch) process in a world consisting of habitat patches surrounded by lethal matrix. Our simulations show that natal dispersal is strongly driven by kin-competition but that consecutive dispersal steps are mostly determined by the chance to immigrate into patches with lower population density. Consequently, individuals following an informed strategy where emigration probability depends on local population density disperse over larger distances than individuals performing density-independent emigration; this especially holds when variation in environmental conditions is spatially correlated. However, already moderate distance-dependent dispersal costs prevent the evolution of long-distance dispersal irrespectively of the chosen dispersal strategy. Chapter 3 - Evolution of sex-biased dispersal: the role of sex-specific dispersal costs, demographic stochasticity, and inbreeding Inbreeding avoidance and asymmetric competition over resources have both been identified as factors favouring the evolution of sex- biased dispersal. It has also been recognized that sex-specific costs of dispersal would promote selection for sexspecific dispersal, but there is little quantitative information on this aspect. In this paper I explore (i) the quantitative relationship between cost-asymmetry and a bias in dispersal, (ii) the influence of demographic stochasticity on this effect, and (iii) how inbreeding and cost-asymmetry interact in their effect on sex-specific dispersal. I adjust an existing analytical model to account for sex-specific costs of dispersal. Based on numerical calculations I predict a severe bias in dispersal already for small differences in dispersal costs. I corroborate these predictions in individualbased simulations, but show that demographic stochasticity generally leads to more balanced dispersal. In combination with inbreeding, cost asymmetries will usually determine which of the two sexes becomes the more dispersive. Chapter 4 - Evolution of sex-biased dispersal: the role of sex-specific dispersal costs, demographic stochasticity, and inbreeding Inbreeding depression, asymmetries in costs or benefits, and the mating system have been identified as potential factors underlying the evolution of sex-biased dispersal. We use individual-based simulations to explore how the mating system and demographic stochasticity influence the evolution of sex-specific dispersal in a metapopulation with females competing over breeding sites, and males over mating opportunities. Comparison of simulation results for random mating with those for a harem system (locally, a single male sires all offspring) reveal that even extreme variance in local male reproductive success (extreme male competition) does not induce a male bias in dispersal. The latter evolves if between-patch variance in reproductive success is larger for males than females. This can emerge due to demographic stochasticity if habitat patches are small. More generally, members of a group of individuals experiencing higher spatio-temporal variance in fitness expectations may evolve to disperse with greater probability than others. N2 - Die optimale Dispersal- oder Ausbreitungsstrategie (eine Kombination aus Auswanderwahrscheinlichkeit und Ausbreitungsdistanz) hängt hauptsächlich von dem Risiko ab, in einem für Reproduktion ungeeigneten Habitat zu enden. Dieses Risiko ist am Rand eines Habitats am höchsten, und daher sollten die evolvierenden Ausbreitungsdistanzen und Auswanderwahrscheinlichkeiten zum Rand des Habitats hin abnehmen. Dieser Selektionsdruck sollte zu räumlichen Gradienten in Ausbreitungsstrategien führen. Der Genfluss, der durch Dispersal verursacht wird, wirkt jedoch lokaler Anpassung der Ausbreitungsstrategie an die jeweilige Umgebung entgegen. Mit einem individuenbasierten Modell untersuchen wir die Evolution lokaler Anpassungen von Ausbreitungsstrategien innerhalb eines einzelnen, kreisförmigen Habitats. Ich vergleiche die evolvierenden Auswanderwahrscheinlichkeiten und -distanzen von sechs verschiedenen Ausbreitungsfunktionen (sog. Kernels, welche die Kombination aus Auswanderwahrscheinlichkeit und Ausbreitungsdistanz abbilden: zwei negativ-exponentielle Kernels, zwei schiefe Kernels, ein Kernel, der Ausbreitung nur in die unmittelbare Nachbarschaft der Mutterpflanze erlaubt (nearest-neighbor dispersal), und ein Kernel, der darin besteht, einen zufälligen Zielort auszuwählen (global dispersal)). Die Evolution der Form der Kernels untersuchen wir in Habitatinseln unterschiedlicher Größe. Ich konnte zeigen, dass eine minimale Habitatgröße nötig ist, um lokale Anpassungen der Ausbreitungsstrategien zu ermöglichen. In Habitatinseln, die diese minimale Größe überschreiten, nimmt die Differenz der Ausbreitungsdistanz zwischen Mitte und Rand des Habitats linear zu, wobei jedoch der Betrag der Differenz vom Kernel abhängt. Mit Ausnahme der Kernels “global dispersal” und “nearest-neighbor dispersal” gleichen sich die evolvierenden räumlichen Muster qualitativ für Auswanderwahrscheinlichkeit und Ausbreitungsdistanz der Kernels. Ich schließe daraus, dass trotz des Genflusses, der mit Ausbreitung einhergeht, lokale Anpassungen der Ausbreitungsstrategien möglich sind, wenn die Habitatinsel groß genug ist. Dies gilt wahrscheinlich für jede realistische Ausbreitungsfunktion. Kapitel 2 - Wie hängen Auswanderwahrscheinlichkeit und Ausbreitungsdistanz von der Fähigkeit ab, Populationsdichten zu bestimmen? Ich untersuche die gleichzeitige Evolution von Auswanderwahrscheinlichkeit und Ausbreitungsdistanz für Arten, die die Populationsdichte in ihren Habitaten unterschiedlich gut wahrnehmen können. In diesem System werden die Überlebenswahrscheinlichkeiten für Nachkommen von steigender Populationsdichte negativ beeinflusst. Mit einem individuenbasierten Modell simuliere ich Dispersal als einen schrittweisen Prozess, in dem Individuen von einem Habitat zum nächsten dispergieren können, wobei sie in jedem dieser Schritte mit einer bestimmten Wahrscheinlichkeit sterben. Meine Ergebnisse zeigen, dass die Emigration aus dem Geburtshabitat stark von Verwandtenselektion beeinflusst wird, wohingegen die Tendenz, weitere Dispersalschritte zu unternehmen, zum größten Teil von der Aussicht bestimmt wird, in ein Habitat einzuwandern, das eine geringere Populationsdichte – und damit bessere Bedingungen für das Überleben der Nachkommen – aufweist, als das Geburtshabitat. Hierbei wird deutlich, dass Individuen, die sich abhängig von der lokalen Populationsdichte dazu “entscheiden”, auszuwandern, im Durchschnitt größere Distanzen zurücklegen, als Individuen die unabhängig von der Populationsdichte auswandern. Dies gilt vor allem dann, wenn die Populationsdichten räumlich korreliert sind und damit dicht und weniger dicht besiedelte Habitate geklumpt vorkommen. Jedoch sorgen schon geringe Wahrscheinlichkeiten, während des Dispersal zu sterben, dafür, dass mit keiner Ausbreitungsstrategie Ausbreitungsdistanzen evolvieren, die im Schnitt mehr als zwei Schritte beinhalten. Kapitel 3 - Evolution von geschlechterspezifischen Ausbreitungsstrategien: die Rolle von geschlechtsspezifischer Wandermortalität, demographischer Mortalität und Inzucht-Depression Inzucht-Vermeidung und asymmetrische Ressourcen-Konkurrenz wurden schon als mögliche Auslöser der Evolution von geschlechterspezifischen Ausbreitungsstrate gien identifiziert. Daneben können jedoch auch unterschiedliche Wandermortalitäten die geschlechterspezifischen Ausbreitungsstrategien beeinflussen, insofern als dasjenige Geschlecht mit der höheren Wandermortalität wahrscheinlich philopatrisch wird, das andere hingegen das Dispersal übernimmt. Leider gibt es dazu wenig quantitative Daten. In diesem Kapitel untersuche ich den quantitativen Zusammenhang zwischen der Differenz in Wandermortalität und dem Ungleichgewicht in der Auswanderwahrscheinlichkeit der Geschlechter. Weiterhin untersuche ich den Einfluss von demographischer Stochastizität und wie Inzucht-Depression in Zusammenspiel mit Unterschieden in der Wandermortalität das Ungleichgewicht der Auswanderwahrscheinlichkeit beeinflusst. Dazu habe ich ein existierendes mathematisches Modell so angepasst, dass geschlechtsspezifische Wandermortalitäten betrachtet werden können. Auf dieser numerischen Basis kann ich Unterschiede in der Auswanderwahrscheinlichkeit von Geschlechtern selbst für sehr kleine Differenzen in der Mortalität vorhersagen. Ich bestätige diese Ergebnisse mit individuenbasierten Simulationen und zeige, dass demographische Stochastizität einen ausgleichenden Einfluss auf die Auswanderwahrscheinlichkeiten der beiden Geschlechter hat. Selbst bei gleichzeitig wirkender Inzucht-Depression bestimmen dieMortalitätsunterschiede welches Geschlecht die höhere Auswanderwahrscheinlichkeit entwickelt. Kapitel 4 - Geschlechtsspezifische räumlich-zeitliche Variabilität des reproduktiven Erfolgs fördert die Evolution von geschlechtsspezifischen Ausbreitungsstrategien Inzucht-Depression, asymmetrische Wandermortalität und unterschiedliche Paarungssysteme wurden als mögliche Auslöser für die Evolution von Ausbreitungsstrategien identifiziert, in denen die Auswanderwahrscheinlichkeit eines Geschlechtes die des anderen überwiegt. Wir verwenden individuenbasierte Simulationen, um den Einfluss des Paarungssystems und demographischer Stochastizität auf die Evolution geschlechtsspezifischen Dispersals zu untersuchen. Wir betrachten dabei Meta-Populationen, in denen Weibchen um Brutplätze und Männchen um Paarungen mit erfolgreichen Weibchen konkurrieren. Der Vergleich der Ergebnisse der Paarungssysteme “random-mating” (alle Weibchen wählen zufällig Männchen als Paarungspartner aus) und “harem” (alle Weibchen eines Habitats paaren sich mit demselben Männchen) zeigt, dass ein Unterschied in der Intensität der Konkurrenz um reproduktionsrelevante Ressourcen alleine nicht genügt, um einen Unterschied in den Auswanderwahrscheinlichkeiten der Geschlechter hervorzurufen. Vielmehr kommt es in solchen Fällen zu besagtem Ungleichgewicht, in denen ein Geschlecht eine größere Variabilität der Nachkommenzahl zwischen Habitaten erfährt. Dann evolviert das Geschlecht mit der höheren Varianz der Nachkommenzahl zwischen Habitaten die höhere Auswanderwahrscheinlichkeit. KW - Theoretische Ökologie KW - Ausbreitung KW - Evolution KW - Evolutionsstabile Strategie KW - Ausbreitungsstrategie KW - Auswanderwahrscheinlichkeit KW - Ausbreitungsdistanz KW - dispersal strategy KW - dispersal propensity KW - dispersal distance Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-29226 ER -