TY - THES A1 - Förster, Frank T1 - Making the most of phylogeny: Unique adaptations in tardigrades and 216374 internal transcribed spacer 2 structures T1 - Einzigartige Anpassungen in Tardigraden und 216374 "internal transcribed spacer 2" Strukturen N2 - The phylum Tardigrada consists of about 1000 described species to date. The animals live in habitats within marine, freshwater and terrestrial ecosystems allover the world. Tardigrades are polyextremophiles. They are capable to resist extreme temperature, pressure or radiation. In the event of desiccation, tardigrades enter a so-called tun stage. The reason for their great tolerance capabilities against extreme environmental conditions is not discovered yet. Our Funcrypta project aims at finding answers to the question what mechanisms underlie these adaption capabilities particularly with regard to the species Milnesium tardigradum. The first part of this thesis describes the establishment of expressed sequence tags (ESTs) libraries for different stages of M. tardigradum. From proteomics data we bioinformatically identified 144 proteins with a known function and additionally 36 proteins which seemed to be specific for M. tardigradum. The generation of a comprehensive web-based database allows us to merge the proteome and transcriptome data. Therefore we created an annotation pipeline for the functional annotation of the protein and nucleotide sequences. Additionally, we clustered the obtained proteome dataset and identified some tardigrade-specific proteins (TSPs) which did not show homology to known proteins. Moreover, we examined the heat shock proteins of M. tardigradum and their different expression levels depending on the actual state of the animals. In further bioinformatical analyses of the whole data set, we discovered promising proteins and pathways which are described to be correlated with the stress tolerance, e.g. late embryogenesis abundant (LEA) proteins. Besides, we compared the tardigrades with nematodes, rotifers, yeast and man to identify shared and tardigrade specific stress pathways. An analysis of the 50 and 30 untranslated regions (UTRs) demonstrates a strong usage of stabilising motifs like the 15-lipoxygenase differentiation control element (15-LOX-DICE) but also reveals a lack of other common UTR motifs normally used, e.g. AU rich elements. The second part of this thesis focuses on the relatedness between several cryptic species within the tardigrade genus Paramacrobiotus. Therefore for the first time, we used the sequence-structure information of the internal transcribed spacer 2 (ITS2) as a phylogenetic marker in tardigrades. This allowed the description of three new species which were indistinguishable using morphological characters or common molecular markers like the 18S ribosomal ribonucleic acid (rRNA) or the Cytochrome c oxidase subunit I (COI). In a large in silico simulation study we also succeeded to show the benefit for the phylogenetic tree reconstruction by adding structure information to the ITS2 sequence. Next to the genus Paramacrobiotus we used the ITS2 to corroborate a monophyletic DO-group (Sphaeropleales) within the Chlorophyceae. Additionally we redesigned another comprehensive database—the ITS2 database resulting in a doubled number of sequence-structure pairs of the ITS2. In conclusion, this thesis shows the first insights (6 first author publications and 4 coauthor publications) into the reasons for the enormous adaption capabilities of tardigrades and offers a solution to the debate on the phylogenetic relatedness within the tardigrade genus Paramacrobiotus. N2 - Der Tierstamm Tardigrada besteht aus derzeitig etwa 1000 beschriebenen Arten. Die Tiere leben in Habitaten in marinen, limnischen und terrestrischen Ökosystemen auf der ganzen Welt. Tardigraden sind polyextremophil. Sie können extremer Temperatur, Druck oder Strahlung widerstehen. Beim Austrocknen bilden sie ein so genanntes Tönnchenstadium. Der Grund für die hohe Toleranz gegenüber extremen Umweltbedingungen ist bis jetzt nicht aufgeklärt worden. Unser Funcrypta Projekt versucht Antworten darauf zu finden, was die hinter dieser Anpassungsfähigkeit liegenden Mechanismen sind. Dabei steht die Art Milnesium tardigradum im Mittelpunkt. Der erste Teil dieser Arbeit beschreibt die Etablierung einer expressed sequence tags (ESTs) Bibliothek für verschiedene Stadien von M. tardigradum. Aus unseren Proteomansatz konnten wir bislang 144 Proteine bioinformatisch identifizieren, denen eine Funktion zugeordnet werden konnte. Darüber hinaus wurden 36 Proteine gefunden, welche spezifisch für M. tardigradum zu sein scheinen. Die Erstellung einer umfassenden internetbasierenden Datenbank erlaubt uns die Verknüpfung der Proteom und Transkriptomdaten. Dafür wurde eine Annotations-Pipeline erstellt um den Sequenzen Funktionen zuordnen zu können. Außerdem wurden die erhaltenen Proteindaten von uns geclustert. Dabei konnten wir einige Tardigraden-spezifische Proteine (tardigrade-specific protein, TSP) identifizieren die keinerlei Homologie zu bekannten Proteinen zeigen. Außerdem untersuchten wir die Hitze-Schock-Proteine von M. tardigradum und deren differenzielle Expression in Abhängigkeit vom Stadium der Tiere. In weiteren bioinformatischen Analysen konnten wir viel versprechende Proteine und Stoffwechselwege entdecken für die beschrieben ist, dass sie mit Stressreaktionen in Verbindung stehen, beispielsweise late embryogenesis abundant (LEA) Proteine. Des Weiteren verglichen wir Tardigraden mit Nematoden, Rotatorien, Hefe und dem Menschen, um gemeinsame und Tardigraden-spezifische Stoffwechselwege identifizieren zu können. Analysen der 50 und 30 untranslatierten Bereiche zeigen eine verstärkte Nutzung von stabilisierenden Motiven, wie dem 15-lipoxygenase differentiation control element (LEA). Im Gegensatz dazu werden häufig benutzte Motive, wie beispielsweise AU-reiche Bereiche, gar nicht gefunden. Der zweite Teil der Doktorarbeit beschäftigt sich mit den Verwandtschaftsverhältnissen einiger kryptischer Arten in der Tardigradengattung Paramacrobiotus. Hierfür haben wir, zum ersten Mal in Tardigraden, die Sequenz-Struktur-Informationen der internal transcribed spacer 2 Region als phylogenetischen Marker verwendet. Dies erlaubte uns die Beschreibung von drei neuen Arten, welche mit klassischen morphologischen Merkmalen oder anderen molekularen Markern wie 18S ribosomaler RNA oder Cytochrome c oxidase subunit I (COI) nicht unterschieden werden konnten. In einer umfangreichen in silico Simulationsstudie zeigten wir den Vorteil der bei der Rekonstruktion phylogenetischer Bäume unter der Hinzunahme der Strukturinformationen zur Sequenz der ITS2 entsteht. ITS2 Sequenz-Struktur-Informationen wurden außerdem auch dazu benutzt, eine monophyletische DO-Gruppe (Sphaeropleales) in den Chlorophyceae zu bestätigen. Zusätzlich haben wir eine umfassende Datenbank, die ITS2-Datenbank, überarbeitet. Dadurch konnten die Sequenz-Struktur-Informationen verdoppelt werden, die in dieser Datenbank verfügbar sind. Die vorliegende Doktorarbeit zeigt erste Einblicke (6 Erstautor- und 4 Koautor-Publikationen) in die Ursachen für die hervorragende Anpassungsfähigkeit der Tardigraden und beschreibt die erfolgreiche Aufklärung der Verwandtschaftsverhältnisse in der Tardigradengattung Paramacrobiotus. KW - Phylogenie KW - Bioinformatik KW - Würzburg / Universität / Lehrstuhl für Bioinformatik KW - Anpassung KW - Datenbank KW - ITS2 KW - Marker KW - Tardigraden KW - Bärtierchen KW - ITS2 KW - Marker KW - Tardigrades KW - Waterbear Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51466 ER - TY - THES A1 - Vainshtein, Yevhen T1 - Applying microarray‐based techniques to study gene expression patterns: a bio‐computational approach T1 - Anwendung von Mikroarrayanalysen um Genexpressionsmuster zu untersuchen: Ein bioinformatischer Ansatz N2 - The regulation and maintenance of iron homeostasis is critical to human health. As a constituent of hemoglobin, iron is essential for oxygen transport and significant iron deficiency leads to anemia. Eukaryotic cells require iron for survival and proliferation. Iron is part of hemoproteins, iron-sulfur (Fe-S) proteins, and other proteins with functional groups that require iron as a cofactor. At the cellular level, iron uptake, utilization, storage, and export are regulated at different molecular levels (transcriptional, mRNA stability, translational, and posttranslational). Iron regulatory proteins (IRPs) 1 and 2 post-transcriptionally control mammalian iron homeostasis by binding to iron-responsive elements (IREs), conserved RNA stem-loop structures located in the 5’- or 3‘- untranslated regions of genes involved in iron metabolism (e.g. FTH1, FTL, and TFRC). To identify novel IRE-containing mRNAs, we integrated biochemical, biocomputational, and microarray-based experimental approaches. Gene expression studies greatly contribute to our understanding of complex relationships in gene regulatory networks. However, the complexity of array design, production and manipulations are limiting factors, affecting data quality. The use of customized DNA microarrays improves overall data quality in many situations, however, only if for these specifically designed microarrays analysis tools are available. Methods In this project response to the iron treatment was examined under different conditions using bioinformatical methods. This would improve our understanding of an iron regulatory network. For these purposes we used microarray gene expression data. To identify novel IRE-containing mRNAs biochemical, biocomputational, and microarray-based experimental approaches were integrated. IRP/IRE messenger ribonucleoproteins were immunoselected and their mRNA composition was analysed using an IronChip microarray enriched for genes predicted computationally to contain IRE-like motifs. Analysis of IronChip microarray data requires specialized tool which can use all advantages of a customized microarray platform. Novel decision-tree based algorithm was implemented using Perl in IronChip Evaluation Package (ICEP). Results IRE-like motifs were identified from genomic nucleic acid databases by an algorithm combining primary nucleic acid sequence and RNA structural criteria. Depending on the choice of constraining criteria, such computational screens tend to generate a large number of false positives. To refine the search and reduce the number of false positive hits, additional constraints were introduced. The refined screen yielded 15 IRE-like motifs. A second approach made use of a reported list of 230 IRE-like sequences obtained from screening UTR databases. We selected 6 out of these 230 entries based on the ability of the lower IRE stem to form at least 6 out of 7 bp. Corresponding ESTs were spotted onto the human or mouse versions of the IronChip and the results were analysed using ICEP. Our data show that the immunoselection/microarray strategy is a feasible approach for screening bioinformatically predicted IRE genes and the detection of novel IRE-containing mRNAs. In addition, we identified a novel IRE-containing gene CDC14A (Sanchez M, et al. 2006). The IronChip Evaluation Package (ICEP) is a collection of Perl utilities and an easy to use data evaluation pipeline for the analysis of microarray data with a focus on data quality of custom-designed microarrays. The package has been developed for the statistical and bioinformatical analysis of the custom cDNA microarray IronChip, but can be easily adapted for other cDNA or oligonucleotide-based designed microarray platforms. ICEP uses decision tree-based algorithms to assign quality flags and performs robust analysis based on chip design properties regarding multiple repetitions, ratio cut-off, background and negative controls (Vainshtein Y, et al., 2010). N2 - Die Regulierung und Aufrechterhaltung der Eisen-Homeostase ist bedeutend für die menschliche Gesundheit. Als Bestandteil des Hämoglobins ist es wichtig für den Transport von Sauerstoff, ein Mangel führt zu Blutarmut. Eukaryotische Zellen benötigen Eisen zum Überleben und zum Proliferieren. Eisen ist am Aufbau von Hämo- und Eisenschwefelproteinen (Fe-S) beteiligt und kann als Kofaktor dienen. Die Aufnahme, Nutzung, Speicherung und der Export von Eisen ist zellulär auf verschiedenen molekularen Ebenen reguliert (Transkription, mRNA-Level, Translation, Protein-Level). Die iron regulatory proteins (IRPs) 1 und 2 kontrollieren die Eisen-Homeostase in Säugetieren posttranslational durch die Bindung an Iron-responsive elements (IREs). IREs sind konservierte RNA stem-loop Strukturen in den 5' oder 3' untranslatierten Bereichen von Genen, die im Eisenmetabolismus involviert sind (z.B. FTH1, FTL und TFRC). In dieser Arbeit wurden biochemische und bioinformatische Methoden mit Microarray-Experimenten kombiniert, um neue mRNAs mit IREs zu identifizieren. Genexpressionsstudien verbessern unser Verständnis über die komplexen Zusammenhänge in genregulatorischen Netzwerken. Das komplexe Design von Microarrays, deren Produktion und Manipulation sind dabei die limitierenden Faktoren bezüglich der Datenqualität. Die Verwendung von angepassten DNA Microarrays verbessert häufig die Datenqualität, falls entsprechende Analysemöglichkeiten für diese Arrays existieren. Methoden Um unser Verständnis von eisenregulierten Netzwerken zu verbessern, wurde im Rahmen dieses Projektes die Auswirkung einer Behandlung mit Eisen bzw. von Knockout Mutation unter verschiedenen Bedingungen mittels bioinformatischer Methoden untersucht. Hierfür nutzen wir Expressionsdaten aus Microarray-Experimenten. Durch die Verknüpfung von biochemischen, bioinformatischen und Microarray Ansätzen können neue Proteine mit IREs identifiziert werden. IRP/IRE messenger Ribonucleoproteine wurden immunpräzipitiert. Die Zusammensetzung der enthaltenen mRNAs wurde mittels einem IronChip Microarray analysiert: Für diesen Chip wurden bioinformatisch Gene vorhergesagt, die IRE-like Motive aufweisen. Der Chip wurde mit solchen Oligonucleotiden beschichtet und durch Hybridisierung überprüft, ob die präzipitierten mRNA sich hieran binden. Die Analyse der erhaltenen Daten erfordert ein spezialisiertes Werkzeug um von allen Vorteilen der angepassten Microarrays zu profitieren. Ein neuer Entscheidungsbaum-basierter Algorithmus wurde in Perl im IronChip Evaluation Package (ICEP) implementiert. Ergebnisse Aus großen Sequenz-Datenbanken wurden IRE-like Motive identifiziert. Dazu kombiniert der Algorithmus, insbesondere RNA-Primärsequenz und RNA-Strukturdaten. Solche Datenbankanalysen tendieren dazu, eine große Anzahl falsch positiver Treffer zu generieren. Daher wurden zusätzliche Bedingungen formuliert, um die Suche zu verfeinern und die Anzahl an falsch positiven Treffer zu reduzieren. Die angepassten Suchkriterien ergaben 15 IRE-like Motive. In einem weiteren Ansatz verwendeten wir eine Liste von 230 IRE-like Sequenzen aus UTR-Datenbanken. Daraus wurden 6 Sequenzen ausgewählt, die auch im unteren Teil stabil sind (untere Helix über 6 bp stabil). Die korrespondierenden Expressed Sequence Tags (ESTs) wurden auf die humane oder murine Version des IronChips aufgetragen. Die Microarray Ergebnisse wurden mit dem ICEP Programm ausgewertet. Unsere Ergebnisse zeigen, dass die Immunpräzipitation mit anschließender Microarrayanalyse ein nützlicher Ansatz ist, um bioinformatisch vorhergesagte IRE-Gene zu identifizieren. Darüber hinaus ermöglicht uns dieser Ansatz die Detektion neuer mRNAs, die IREs enthalten, wie das von uns gefundene Gen CDC14A (Sanchez et al., 2006). ICEP ist ein optimiertes Programmpaket aus Perl Programmen (Vainshtein et al., BMC Bioinformatics, 2010). Es ermöglicht die einfache Auswertung von Microarray Daten mit dem Fokus auf selbst entwickelten Microarray Designs. ICEP diente für die statistische und bioinformatische Analyse von selbst entwickelten IronChips, kann aber auch leicht an die Analyse von oligonucleotidbasierten oder cDNA Microarrays adaptiert werden. ICEP nutzt einen Entscheidungsbaum-basierten Algorithmus um die Qualität zu bewerten und führt eine robuste Analyse basierend auf Chipeigenschaften, wie mehrfachen Wiederholungen, Signal/Rausch Verhältnis, Hintergrund und Negativkontrollen durch. KW - Microarray KW - Genexpression KW - Bioinformatik KW - geneexpression KW - microarrays KW - IronChip KW - ICEP Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-51967 ER - TY - THES A1 - Arumugam, Manimozhiyan T1 - Comparative metagenomic analysis of the human intestinal microbiota T1 - Vergleichende metagenomische Analyse des menschlichen Darmflora N2 - The human gut is home for thousands of microbes that are important for human life. As most of these cannot be cultivated, metagenomics is an important means to understand this important community. To perform comparative metagenomic analysis of the human gut microbiome, I have developed SMASH (Simple metagenomic analysis shell), a computational pipeline. SMASH can also be used to assemble and analyze single genomes, and has been successfully applied to the bacterium Mycoplasma pneumoniae and the fungus Chaetomium thermophilum. In the context of the MetaHIT (Metagenomics of the human intestinal tract) consortium our group is participating in, I used SMASH to validate the assembly and to estimate the assembly error rate of 576.7 Gb metagenome sequence obtained using Illumina Solexa technology from fecal DNA of 124 European individuals. I also estimated the completeness of the gene catalogue containing 3.3 million open reading frames obtained from these metagenomes. Finally, I used SMASH to analyze human gut metagenomes of 39 individuals from 6 countries encompassing a wide range of host properties such as age, body mass index and disease states. We find that the variation in the gut microbiome is not continuous but stratified into enterotypes. Enterotypes are complex host-microbial symbiotic states that are not explained by host properties, nutritional habits or possible technical biases. The concept of enterotypes might have far reaching implications, for example, to explain different responses to diet or drug intake. We also find several functional markers in the human gut microbiome that correlate with a number of host properties such as body mass index, highlighting the need for functional analysis and raising hopes for the application of microbial markers as diagnostic or even prognostic tools for microbiota-associated human disorders. N2 - Der menschliche Darm beheimatet tausende Mikroben, die für das menschliche Leben wichtig sind. Da die meisten dieser Mikroben nicht kultivierbar sind, ist „Metagenomics“ ein wichtiges Werkzeug zum Verständnis dieser wichtigen mikrobiellen Gemeinschaft. Um vergleichende Metagenomanalysen durchführen zu können, habe ich das Computerprogramm SMASH (Simple metagenomic analysis shell) entwickelt. SMASH kann auch zur Assemblierung und Analyse von Einzelgenomen benutzt werden und wurde erfolgreich auch das Bakterium Mycoplasma pneumoniae und den Pilz Chaetomium thermophilum angewandt. Im Zusammenhang mit der Beteiligung unserer Arbeitsgruppe am MetaHIT (Metagenomics of the human intestinal tract) Konsortium, habe ich SMASH benutzt um die Assemblierung zu validieren und die Fehlerrate der Assemblierung von 576.7 Gb Metagenomsequenzen, die mit der Illumina Solexa Technologie aus der fäkalen DNS von 124 europäischen Personen gewonnen wurde, zu bestimmen. Des Weiteren habe ich die Vollständigkeit des Genkatalogs dieser Metagenome, der 3.3 Millionen offene Leserahmen enthält, geschätzt. Zuletzt habe ich SMASH benutzt um die Darmmetagenome von 39 Personen aus 6 Ländern zu analysieren. Hauptergebnis dieser Analyse war, dass die Variation der Darmmikrobiota nicht kontinuierlich ist. Anstatt dessen fanden wir so genannte Enterotypen. Enterotypen sind komplexe Zustände der Symbiose zwischen Wirt und Mikroben, die sich nicht durch Wirteigenschaften, wie Alter, Body-Mass-Index, Erkrankungen und Ernährungseigenschaften oder ein mögliches technisches Bias erklären lassen. Das Konzept der Enterotypen könnte weitgehende Folgen haben. Diese könnten zum Beispiel die unterschiedlichen Reaktionen auf Diäten oder Medikamenteneinahmen erklären. Weiterhin konnten wir eine Anzahl an Markern im menschlichen Darmmikrobiome finden, die mit unterschiedlichen Wirtseigenschaften wie dem Body-Mass-Index korrelieren. Dies hebt die Wichtigkeit dieser Analysemethode hervor und erweckt Hoffnungen auf Anwendung mikrobieller Marker als diagnostisches oder sogar prognostisches Werkzeug für menschliche Erkrankungen in denen das Mikrobiom eine Rolle spielt. KW - Darmflora KW - Metagenom KW - Bioinformatik KW - human gut microbiome KW - metagenomics KW - comparative metagenomics KW - computational analysis Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-55903 ER -