• search hit 1 of 1
Back to Result List

Quantitative and qualitative analyses of in-paralogs

Please always quote using this URN: urn:nbn:de:bvb:20-opus-51358
  • In our analysis I was interested in the gene duplications, with focus on in-paralogs. In-paralogs are gene duplicates which arose after species split. Here I analysed the in-paralogs quantitatively, as well as qualitatively. For quantitative analysis genomes of 21 species were taken. Most of them have vastly different lifestyles with maximum evolutionary distance between them 1100 million years. Species included mammals, fish, insects and worm, plus some other chordates. All the species were pairwised analysed by the Inparanoid software, andIn our analysis I was interested in the gene duplications, with focus on in-paralogs. In-paralogs are gene duplicates which arose after species split. Here I analysed the in-paralogs quantitatively, as well as qualitatively. For quantitative analysis genomes of 21 species were taken. Most of them have vastly different lifestyles with maximum evolutionary distance between them 1100 million years. Species included mammals, fish, insects and worm, plus some other chordates. All the species were pairwised analysed by the Inparanoid software, and in-paralogs matrix were built representing number of in-paralogs in all vs. all manner. Based on the in-paralogs matrix I tried to reconstruct the evolutionary tree using in-paralog numbers as evolutionary distance. If all 21 species were used the resulting tree was very far from real one: a lot of species were misplaced. However if the number was reduced to 12, all of the species were placed correctly with only difference being wrong insect and fish clusters switched. Then to in-paralogs matrix the neighbour-net algorithm was applied. The resulting "net" tree showed the species with fast or slow duplications rates compared to the others. We could identify species with very high or very low duplications frequencies and it correlates with known occurrences of the whole genome duplications. As the next step I built the graphs for every single species showing the correlation between their in-paralogs number and evolutionary distance. As we have 21 species, graph for every species is built using 20 points. Coordinates of the points are set using the evolutionary distance to that particular species and in-paralogs number. In mammals with increasing the distance from speciation the in-paralogs number also increased, however not in linear fashion. In fish and insects the graph close to zero is just the same in mammals' case. However, after reaching the evolutionary distances more than 800 million years the number of inparalogs is beginning to decrease. We also made a simulation of gene duplications for all 21 species and all the splits according to the fossil and molecular clock data from literature. In our simulation duplication frequency was minimal closer to the past and maximum in the near-present time. Resulting curves had the same shape the experimental data ones. In case of fish and insect for simulation the duplication rate coefficient even had to be set negative in order to repeat experimental curve shape. To the duplication rate coefficient in our simulation contribute 2 criteria: gene duplications and gene losses. As gene duplication is stochastical process it should always be a constant. So the changing in the coefficient should be solely explained by the increasing gene loss of old genes. The processes are explained by the evolution model with high gene duplication and loss ratio. The drop in number of in-paralogs is probably due to the BLAST algorithm. It is observed in comparing highly divergent species and BLAST cannot find the orthologs so precisely anymore. In the second part of my work I concentrated more on the specific function of inparalogs. Because such analysis is time-consuming it could be done on the limited number species. Here I used three insects: Drosophila melanogaster (fruit y), Anopheles gambiae (mosquito) and Apis mellifera (honeybee). After Inparnoid analyses and I listed the cluster of orthologs. Functional analyses of all listed genes were done using GO annotations and also KEGG PATHWAY database. We found, that the gene duplication pattern is unique for each species and that this uniqueness is rejected through the differences in functional classes of duplicated genes. The preferences for some classes reject the evolutionary trends of the last 350 million years and allow assumptions on the role of those genes duplications in the lifestyle of species. Furthermore, the observed gene duplications allowed me to find connections between genomic changes and their phenotypic manifestations. For example I found duplications within carbohydrate metabolism rejecting feed pattern adaptation, within photo- and olfactory-receptors indicating sensing adaptation and within troponin indicating adaptations in the development. Despite these species specific differences, found high correlations between the independently duplicated genes between the species. This might hint for a "pool" of genes preferentially duplicated. Taken together, the observed duplication patterns reject the adaptational process and provide us another link to the field of genomic zoology.show moreshow less
  • In unserer Analyse untersuchten wir Genduplikationen mit besonderem Fokus auf "Inparalogen". In-paraloge sind Genduplikationen die nach Speziazion enstehen. Diese betrachteten wir hier in einer quantitativen als auch qualitativen Messreihe. Die quantitative Analyse umfasste Genome aus insgesamt 21 Spezies. Der Großteil diese hat verschiedene Lebensgewonheiten mit eine maximalen Evolutionsdistanz von 1100 Millionen Jahren. Die Arten bestanden aus Säugetiere, Fischen, Insekten und Würmern, sowie weiteren Chordaten. Alle Arten wurden mittels derIn unserer Analyse untersuchten wir Genduplikationen mit besonderem Fokus auf "Inparalogen". In-paraloge sind Genduplikationen die nach Speziazion enstehen. Diese betrachteten wir hier in einer quantitativen als auch qualitativen Messreihe. Die quantitative Analyse umfasste Genome aus insgesamt 21 Spezies. Der Großteil diese hat verschiedene Lebensgewonheiten mit eine maximalen Evolutionsdistanz von 1100 Millionen Jahren. Die Arten bestanden aus Säugetiere, Fischen, Insekten und Würmern, sowie weiteren Chordaten. Alle Arten wurden mittels der Inparanoid Software paarweise "all against all" analysiert und in in-paralog Matrizen gespeichert. Basierend auf der in-paralog Matrix versuchten wir den evolutionären Baum über die Anzahl der In-paraloge als Maß für die evolutionäre Distanz zu rekonstruiren. Bei der Betrachtung alle 21 Arten würde der Baum jedoch sehr unpräzise: viel Arten wurden falsch plaziert. Durch eine Reduktion der Anzahl auf nur 12 Spezies clusterten jedoch alle Arten richtig, nur Insekten und Fische waren vertauscht. Anschließend wurde auf die In-paralog Matrix der Neighbor-net Algorithmus angewandt. Der daraus resultierende "Netz"-Baum repräsentiert die Spezies mit schneller oder langsamer Duplikationsrate im Vergleich zu den Anderen. Wir konnten Spezies mit sehr niedriger oder sehr hoher Rate identifizieren. Dabei korrelieren die Genome mit der höheren Rate zu der Anzahl der auftauchenden Whole Genome Duplikationen. Im nächsten Schritt erstellten wir Graphen für jede einzelne Spezies die das Verhältnis zwischen der Anzahl ihrer In-paraloger zur evolutionäre Distanz anzeigen. Jeder der 21 Graphen enthält insgesamt 20 Punkte. Die Punktkoordianten repräsentiern die evolutionere Distanz auf der X-Achse zu der Anzahl In-paraloger auf der Y-Achse. Bei Säugertieren wächst mit steigender Distanz auch die Anzahl In-paraloger. Das Verhältnis ist jedoch nicht linear. Bei Fischen und Insekten ist der Graph in der Nähe des Nullpunkts gleich dem von Säugetieren. Beim Erreichen einer Distanz von mehr als 800 Millionen Jahren sinkt jedoch die Anzahl der In-paralogen. Wir haben nun zusätzlich eine Simulation der Genduplikationen für alle 21 Spezies und alle dazu gehörigen Splits durchgeführt. Die Splits wurden aus publizierten Fossilien und "Molecular Clock" Daten entnommen. In unsere Simulation stieg die Duplikationsrate mit Annäherung an die heutige Zeit. In Vergleich zu den Experimentellen Daten haben die simulierten Graphen das gleiche Aussehen. Bei Fischen und Insekten musste der Koeffizient der Duplikationsrate negiert werden um die experimentelle Kurve zu erhalten. Der Koeffizient der Duplikationsrate stützt sich dabei auf folgende 2 Kriterien: Gen-Duplikation und Gen-Verlust. Da Genduplikationen einem stochastischen Prozess folgen sollten sie immer konstant sein. Daher sind die erhöhten Genverluste alter Gene verantwortlich für die Veränderunrg dieses Koeffizienten. Die Erklärung für dieses Verhalten basiert auf dem Evolutionsmodel - mit hohem Gen-Verlust und hoher Gen Duplikation. Der Verlust der In-Paralogen enstehet wahrscheinlich durch den BLAST Algorithmus. Man beobachtet dies besonders bei sehr divergenten Arten bei dennen BLAST die Orthologen nicht mehr so präzise findet. Der zweite Teil meiner Arbeit bezieht sich auf die spezifische Funktion von In-paralogen. Da diese Analyse sehr zeitaufwendig ist konnte sie nur an einer begrenzten Anzahl von Spezies durchgeführt werden. Hier habe ich die folgenden drei Insekten verwendet: Drosophila melanogaster (Fruchtfliege), Anopheles gambiae (Moskito) und Apis mellifera (Honigbiene). Alle durch die Inparanoid-Software entstandenen Cluster wurden mit der GO Annotation und der KEGG Pathway Datenbank analyiert. Wir haben herausgefunden, dass das Gen-Duplikationsmuster für jede Spezies einzigartig ist, und dass diese Einzigartigkeit durch Funktionale Unterschiede in duplizierten Genen entsteht. Die Bevorzugung einiger Gene repräsentiert die Evolutionsgeschichte der letzten 350 Millionen Jahre und erlaubt Annahmen über die Auswirkung der Gen Duplikationen im Leben der Spezies zu treffen. Weiterhin fanden wir durch die beobachteten Genduplikationen Zusammenhänge zwischen der Genomveränderung und ihrer phenotypischen Manifestation. Beispielsweise haben wir Duplikationen innerhalb des Karbohydratestoffwechsels für die Anpassung des Essvehaltens, Photo- und Olifaktorisch Rezeptoren - für Seh- und Geruchsvermögen und Troponin - zuständig für die Muskelentwicklung gefunden. Trotz diese speziesspezifischen Unterschiede haben wir starke Korrelation zwischen unabhängig duplizierten Genen erkannt. Dies könnte ein Indikator für einen "Pool" von bevorzugt duplizierten Genen sein. Zusammengefasst stellen die beobachteten Duplikationsmuster den Evolvierungsprozess dar, und liefern eine weitere Verbindung zur genomischen Zoologie.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar Statistics
Metadaten
Author: Stanislav Vershenya
URN:urn:nbn:de:bvb:20-opus-51358
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Biologie
Faculties:Fakultät für Biologie / Theodor-Boveri-Institut für Biowissenschaften
Date of final exam:2010/09/15
Language:English
Year of Completion:2010
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
GND Keyword:Duplikation; Evolution
Tag:Genetik
Gene duplication; In-paralogs; Inparanoid
Release Date:2010/09/16
Advisor:Prof. Dr. Jörg Schultz
Licence (German):License LogoDeutsches Urheberrecht