TY - THES A1 - Brado, Dominik Alexander T1 - Genetic diversity and baseline drug resistance of South African HIV-1 Integrase sequences prior to the availability of Integrase strand-transfer inhibitors T1 - Genetische Variabilität und medikamentöse Resistenz südafrikanischer HIV-1 Integrase Sequenzen vor der Verfügbarkeit von Integrase Strang-Transfer Inhibitoren N2 - Background: Integrase strand transfer inhibitors (INSTIs) are the latest addition to the array of antiretroviral compounds used to treat an infection with Human Immunodeficiency Virus (HIV). Due to their high efficacy and increased tolerability, INSTIs have become an integral part of first-line therapy in most high-income countries over the past years. However, little is known about HIV-1’s genetic inter- and intra-subtype diversity on the Integrase (IN)-gene and its impact on the emergence of INSTI-resistance. In the absence of a functional cure, long-term efficacy of first-line compounds remains paramount for reducing virological failure and curbing on-going HIV transmissions. South Africa, harbouring more than 20% of the global HIV burden (7.7 / 37.9 million people), requires international attention in order to globally pursue UNAIDS’ (Joint United Nations Programme on HIV/AIDS) 90-90-90 goals and the road to ending the HIV/AIDS (Acquired immunodeficiency syndrome) pandemic by 2030. Methods: In this study, the prevalence of INSTI-resistance associated mutations (RAM) was investigated in a cohort of 169 archived drug-naïve blood samples from multiple collection sites around Cape Town, South Africa. Viral RNA was isolated from plasma samples, the integrase fragment amplified by RT-PCR and subsequently sequenced by Sanger-sequencing. Additionally, all publicly available drug-naïve, South African IN sequences, isolated before the availability of the first INSTIs in 2007, were retrieved from the Los Alamos HIV sequence database (n=284). All sequences were analysed for RAMs using the Stanford HIV Drug resistance database. The identification of polymorphism in the South African subtype C IN consensus sequence allowed for comparative analyses with global subtype B, as well as subtype C sequences, from countries other than South Africa. Results: The IN gene could be amplified and sequenced in 95/169 samples (56%). Phylogenetic inference revealed close homology between three sequence-pairs, warranting the exclusion of 3/95 sequences from further analyses. Of the 92 samples used for mutational analyses, 86/92 (93.5%) belonged to subtype C, 5/92 (5.4%) to subtype B and 1/92 (1.1%) to subtype A. The prevalence of major and accessory INSTI RAMs was 0/92 (0%) and 1/91 (1.1%), respectively, similar to the observed rates of 8/284 (2.8%) and 8/284 (2.8%) in the database sequences (p = 0.2076 and p = 0.6944, Fisher’s exact test). Compared to subtype B IN sequences, 15 polymorphisms were significantly enriched in South African subtype C sequences (corrected p<0.0015. Fisher’s exact test, Bonferroni post-hoc procedure). Compared to subtype C IN sequences isolated outside South Africa, four polymorphisms were significantly enriched in this study cohort (corrected p<0.0014, Fisher’s exact test, Bonferroni post-hoc procedure). The highest prevalence margin was observed for the polymorphism Met50Ile being present in 60.1% of South African subtype C sequences, compared to 37% in non-South African subtype C sequences. Conclusions: The low prevalence of major and minor RAMs in all South African Integrase sequences predicts a high susceptibility to INSTIs, however, the presence of natural polymorphisms, in particular Met50Ile, in the majority of sequences warrants further monitoring under therapeutic pressure, as their role in mutational pathways leading to INSTI- resistance is yet to be determined. Additionally, this study revealed the presence of substantial inter- and intra-subtype diversity within the HIV-1 Subtype C IN-gene. These results implicate the need for more research on a regional, potentially patient-specific level, as mutational insights from other diverse backgrounds may not accurately represent the South African context. The implementation of a national pre-treatment INSTI-resistance screening program may provide necessary insights into the development of mutational pathways leading to INSTI-resistance under therapeutic pressure for the South African context and thereby bring South Africa one step closer to achieving UNAIDS 90-90-90 goals and ending the AIDS epidemic by 2030. N2 - Hintergrund: Integrase Strang-Transfer Inhibitoren (INSTIs) sind die neuste medikamentöse Ergänzung in der Therapie einer HIV-Infektion. Auf Grund ihrer starken Wirksamkeit und eines guten Nebenwirkungsprofils sind INSTIs in den letzten Jahren ein integraler Bestandteil von Erstlinien-Therapieregimen in den meisten wirtschaftlich starken Ländern geworden. Allerdings ist wenig bekannt über die genetische Variabilität des IN-gens und über ihren Einfluss auf die Entwicklung von INSTI-Resistenzen. Mit einem Anteil von über 20% der globalen HIV-Last (7,7 / 37,9 Millionen Menschen) benötigt Südafrika einen internationalen Fokus, um die von UNAIDS formulierten 90-90-90 Ziele und das mögliche Ende der HIV/AIDS Pandemie bis 2030 auf globaler Ebene zu verfolgen. Methoden: In dieser Arbeit wurde die Prävalenz von INSTI RAMs in einer Kohorte von 169 archivierten, therapie-naiven Blutproben von mehreren Sammelstellen um Kapstadt, Südafrika, untersucht. Virale RNA wurde aus Plasmaproben isoliert, das Integrase-Fragment mittels RT-PCR amplifiziert und anschließend Sanger-sequenziert. Zusätzlich wurden alle in der Los Alamos HIV Sequenz Datenbank verfügbaren, therapie-naive, südafrikanische IN Sequenzen, die vor der Verfügbarkeit von INSTIs im Jahr 2007 isoliert wurden, der Analyse dieser Arbeit hinzugefügt (n=284). Die Interpretation der gefundenen Mutationen erfolgte mittels der HIV Therapie-Resistenz Datenbank der Stanford Universität. Durch Generierung eines südafrikanischen IN Subtyp C Consensus-Stranges und nachfolgendem Vergleich mit öffentlich verfügbaren Subtyp B und Subtyp C Sequenzen, die außerhalb Südafrikas isoliert wurden, erfolgte die Analyse von natürlich vorkommenden Polymorphismen. Ergebnisse: Das IN-Fragment konnte in 95/169 Plasmaproben (56%) erfolgreich amplifiziert und sequenziert werden. Phylogenetische Analysen zeigten eine enge Homologie zwischen drei Sequenz-Paaren, woraufhin 3/95 Sequenzen von weiteren Analysen ausgeschlossen wurden. Von den übrigen 92 Sequenzen gehörten 86/92 (93,5%) zu dem Subtyp C, 5/92 (5,4%) zu dem Subtyp B und 1/91 (1,1%) zu dem Subtyp A. Die Prävalenz von Haupt- und Nebenresistenz-Mutationen lag bei jeweils 0/92 (0%) und 1/92 (1,1%). Ähnliche Raten hierfür von 8/284 (2,8%) und 8/284 (2,8%) konnten in den Datenbank-Sequenzen beobachtet werden (p = 0,2076 und p = 0,6944, Fisher’s exact test). Im Vergleich zu Subtyp B IN Sequenzen waren 15 Polymorphismen signifikant erhöht in südafrikanischen Subtype C IN Sequenzen (korrigiertes p<0,0015, Fisher’s exact test, Bonferroni post-hoc Korrektur). Im Vergleich zu nicht-südafrikanischen Subtyp C Sequenzen zeigten sich vier Polymorphismen signifikant erhöht (korrigiertes p<0,0014, Fisher’s exact test, Bonferroni post-hoc Korrektur). Der größte Prävalenzunterschied konnte für den Polymorphismus Met50Ile beobachtet werden. Dieser war vorhanden in 217/361 (60,1%) der südafrikanischen Subtyp C Sequenzen, verglichen zu 203/548 (37.0%) der nicht-südafrikanischen Subtyp C Sequenzen. Schlussfolgerung: Die niedrige Prävalenz von Haupt- und Neben-RAMs in südafrikanischen IN-Sequenzen verspricht ein gutes Ansprechen von INSTIs in diesem Kontext. Allerdings bedingt das Vorhandensein von natürlichen Polymorphismen, insbesondere der Polymorphismus Met50Ile das weitere Beobachten dieser Mutationen unter dem Einfluss von therapeutischem Druck, da deren Bedeutung in der Entwicklung von INSTI-Resistenzen noch nicht abschließend geklärt werden konnte. Zudem impliziert die in dieser Arbeit gezeigte inter- und intra-subtyp Diversität auf dem IN-Gen, die Notwendigkeit von weiterer Forschung auf regionaler Ebene, da Beobachtungen, die auf verschiedenen polymorphistischen Kontexten beruhen, nicht notwendigerweise auf den südafrikanischen Kontext übertragen werden können. Mit der Einführung eines nationalen, prä-therapeutischen Screening- Programms für das Vorhandensein von INSTI-Resistenzen könnte Südafrika wichtige Einblicke in die Entwicklung von INSTI-Resistenzen gewinnen und somit den 90-90-90 Zielen und der Möglichkeit die AIDS-Pandemie bis zum Jahr 2030 zu beenden, einen Schritt näher sein. KW - HIV KW - Sequenzanalyse KW - HIV Drug resistance KW - HIV South Africa KW - Integrase inhibitor KW - Dolutegravir Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-216562 ER - TY - THES A1 - Dostal, Stefan T1 - Molekulare Differenzierung von Mykobakterien T1 - Molecular differentiation of Mycobacteria N2 - Die Differenzierung von Mykobakterien auf Speziesebene mithilfe von herkömmlichen biochemischen Testverfahren ist langwierig, was zu signifikanten Verzögerungen in der Diagnostik führt. Molekulare Identifizierung hingegen weist, verglichen mit der phänotypischen Identifizierung, zwei entscheidende Vorteile auf: es kommt dabei zu einem Geschwindigkeitszuwachs und zu einer höheren Genauigkeit des Diagnoseerfahrens. Der Informationsgehalt des 5’-Endes des 16S-rRNA-Gens ist ausreichend für die Identifizierung der meisten bakteriellen Spezies. Wegen der vielen fehlerhaften Datenbestände können öffentliche Sequenzdatenbanken die benötigten Referenzsequenzen jedoch nicht zur Verfügung stellen. Es wurde deshalb eigens eine Datenbank mit qualitativ hochwertigen Sequenzen geschaffen. Die Sequenzen beinhalten beide Stränge der 5’-16S-rDNA (E. coli-Position 54-510) von 125 Stammsammlungisolaten. Dabei wurden alle bis zum 31.03.2000 valide beschriebenen Arten (n=89) und einige weitere, bereits veröffentlichte Sequevare-Varianten eingeschlossen. Konnten Stämme anhand der 16S-Sequenzen nicht unterschieden werden, wurde zusätzlich die Sequenz der „Internal Transcribed Spacer Region“ bestimmt (n=45). Insgesamt existierten von den Stämmen, die anhand ihrer 16S-rDNA-Sequenz nicht eindeutig zu identifizieren waren, 77 Isolate in der öffentlichen Datenbank Genbank. Den neu analysierten Sequenzen gegenübergestellt weisen diese im paarweisen Vergleich eine durchschnittliche Diskrepanz von 4,31 Basen auf. Durch die vergleichende 5‘-16S-rDNA-Sequenzanalyse war es möglich 64 der 89 validen Spezies zu identifizieren (71.9%). Nach Hinzunahme der ITS-Sequenz war es möglich, weitere 15 Spezies zu differenzieren. Nur die Arten des M. tuberculosis complex, M. marinum und M. ulcerans und die M. avium Subspezies konnten weder durch 5‘16S-rDNA-Sequenzanalyse noch anhand der ITS-Sequenz differenziert werden. Die Sequenzen aller Stämme sind abrufbar in der Datenbank des RIDOM-Projekts (“Ribosomal Differentiation of Medical Microorganisms”). Weiterführende Informationen (z.B. taxonomischer oder medizinischer Art) vervollständigen zusammen mit einem Algorithmus zur genotypischen Identifizierung aller valide beschriebenen Mykobakterien dieses Angebot. Nach ausführlicher Analyse verschiedener Mykobakterien Spezies ist es nun in der Tat möglich, die meisten Mykobakterien Arten anhand der vergleichenden Seqenzanalyse der 16S-rDNA und ITS zu unterscheiden. Voraussetzung hierfür ist eine Datenbank mit qualitativ hochwertigen Referenzsequenzen. Bereits in naher Zukunft ist die Anwendung dieses Verfahrens im Routinebetrieb, v.a. in Referenzlaboratorien, denkbar. N2 - Differentiation of mycobacteria to the species level by conventional biochemical tests is laborious, leading to significant delays in diagnosis. Molecular identification on the other hand provides two primary advantages to phenotypic identification: rapid turn-around time and improved accuracy. The information content of the 5'-end of the 16S-rRNA gene is sufficient for identification of most bacterial species. However, sequence based identification is hampered by many faulty sequence entries in publicly accessible databases. In order to establish an improved 16S-rDNA sequence database for identification of clinical isolates both strands of the 5'-16S-rDNA (E. coli position 54-510) from 125 mycobacterial culture collection isolates were sequenced. All until 31.03.2000 valid described species (n=89) and some published sequevar variants were included. If the 16S rDNA sequences were not discriminatory enough, the internal transcribed spacer (ITS) region sequences (n=45) were also determined. In total 77 identical 16S-rDNA-strains had been sequenced by others before. Comparing these GenBank entries with our sequences, there were on average 4.31 differences. By 5'-16S-rDNA sequencing it was possible to identify 64 of 89 different mycobacterial species (71.9%). With the additional input of the ITS sequence, further 15 species could be differentiated. Only M. tuberculosis complex species, M. marinum and M. ulcerans and the M. avium subspecies could neither be differentiated by 5'-16S rDNA- nor by ITS-sequencing. The sequences are available for public similarity searches in the database of the RIDOM project (“Ribosomal Differentiation of Medical Microorganisms”). Further information (e.g. taxonomic, medical) together with an algorithm for genotypic identification of all mycobacteria complements this service. In conclusion, it could be shown in this exhaustive analysis of different mycobacterial species, that it is indeed possible to differentiate most mycobacterial species by sequence analysis of 16S-rDNA or ITS, if a high quality sequence reference database is available. This technique should be, therefore, considered for routine application especially in reference laboratories in the future. KW - Mykobakterien KW - molekulare Differenzierung KW - molekulare Identifizierung KW - Phylogenie KW - 16S-rDNA KW - Sequenzanalyse KW - Mycobacteria KW - molecular differentiation KW - molecular identification KW - phylogeny KW - 16S-rDNA KW - sequence analysis Y1 - 2001 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-3348 ER - TY - THES A1 - Friedrich, Torben T1 - New statistical Methods of Genome-Scale Data Analysis in Life Science - Applications to enterobacterial Diagnostics, Meta-Analysis of Arabidopsis thaliana Gene Expression and functional Sequence Annotation T1 - Neue statistische Methoden für genomweite Datenanalysen in den Biowissenschaften - Anwendungen in der Enterobakteriendiagnostik, Meta-Analyse von Arabidopsis thaliana Genexpression und funktionsbezogenen Sequenzannotation N2 - Recent progresses and developments in molecular biology provide a wealth of new but insufficiently characterised data. This fund comprises amongst others biological data of genomic DNA, protein sequences, 3-dimensional protein structures as well as profiles of gene expression. In the present work, this information is used to develop new methods for the characterisation and classification of organisms and whole groups of organisms as well as to enhance the automated gain and transfer of information. The first two presented approaches (chapters 4 und 5) focus on the medically and scientifically important enterobacteria. Its impact in medicine and molecular biology is founded in versatile mechanisms of infection, their fundamental function as a commensal inhabitant of the intestinal tract and their use as model organisms as they are easy to cultivate. Despite many studies on single pathogroups with clinical distinguishable pathologies, the genotypic factors that contribute to their diversity are still partially unknown. The comprehensive genome comparison described in Chapter 4 was conducted with numerous enterobacterial strains, which cover nearly the whole range of clinically relevant diversity. The genome comparison constitutes the basis of a characterisation of the enterobacterial gene pool, of a reconstruction of evolutionary processes and of comprehensive analysis of specific protein families in enterobacterial subgroups. Correspondence analysis, which is applied for the first time in this context, yields qualitative statements to bacterial subgroups and the respective, exclusively present protein families. Specific protein families were identified for the three major subgroups of enterobacteria namely the genera Yersinia and Salmonella as well as to the group of Shigella and E. coli by applying statistical tests. In conclusion, the genome comparison-based methods provide new starting points to infer specific genotypic traits of bacterial groups from the transfer of functional annotation. Due to the high medical importance of enterobacterial isolates their classification according to pathogenicity has been in focus of many studies. The microarray technology offers a fast, reproducible and standardisable means of bacterial typing and has been proved in bacterial diagnostics, risk assessment and surveillance. The design of the diagnostic microarray of enterobacteria described in chapter 5 is based on the availability of numerous enterobacterial genome sequences. A novel probe selection strategy based on the highly efficient algorithm of string search, which considers both coding and non-coding regions of genomic DNA, enhances pathogroup detection. This principle reduces the risk of incorrect typing due to restrictions to virulence-associated capture probes. Additional capture probes extend the spectrum of applications of the microarray to simultaneous diagnostic or surveillance of antimicrobial resistance. Comprehensive test hybridisations largely confirm the reliability of the selected capture probes and its ability to robustly classify enterobacterial strains according to pathogenicity. Moreover, the tests constitute the basis of the training of a regression model for the classification of pathogroups and hybridised amounts of DNA. The regression model features a continuous learning capacity leading to an enhancement of the prediction accuracy in the process of its application. A fraction of the capture probes represents intergenic DNA and hence confirms the relevance of the underlying strategy. Interestingly, a large part of the capture probes represents poorly annotated genes suggesting the existence of yet unconsidered factors with importance to the formation of respective virulence phenotypes. Another major field of microarray applications is gene expression analysis. The size of gene expression databases rapidly increased in recent years. Although they provide a wealth of expression data, it remains challenging to integrate results from different studies. In chapter 6 the methodology of an unsupervised meta-analysis of genome-wide A. thaliana gene expression data sets is presented, which yields novel insights in function and regulation of genes. The application of kernel-based principal component analysis in combination with hierarchical clustering identified three major groups of contrasts each sharing overlapping expression profiles. Genes associated with two groups are known to play important roles in Indol-3 acetic acid (IAA) mediated plant growth and development as well as in pathogen defence. Yet uncharacterised serine-threonine kinases could be assigned to novel functions in pathogen defence by meta-analysis. In general, hidden interrelation between genes regulated under different conditions could be unravelled by the described approach. HMMs are applied to the functional characterisation of proteins or the detection of genes in genome sequences. Although HMMs are technically mature and widely applied in computational biology, I demonstrate the methodical optimisation with respect to the modelling accuracy on biological data with various distributions of sequence lengths. The subunits of these models, the states, are associated with a certain holding time being the link to length distributions of represented sequences. An adaptation of simple HMM topologies to bell-shaped length distributions described in chapter 7 was achieved by serial chain-linking of single states, while residing in the class of conventional HMMs. The impact of an optimisation of HMM topologies was underlined by performance evaluations with differently adjusted HMM topologies. In summary, a general methodology was introduced to improve the modelling behaviour of HMMs by topological optimisation with maximum likelihood and a fast and easily implementable moment estimator. Chapter 8 describes the application of HMMs to the prediction of interaction sites in protein domains. As previously demonstrated, these sites are not trivial to predict because of varying degree in conservation of their location and type within the domain family. The prediction of interaction sites in protein domains is achieved by a newly defined HMM topology, which incorporates both sequence and structure information. Posterior decoding is applied to the prediction of interaction sites providing additional information of the probability of an interaction for all sequence positions. The implementation of interaction profile HMMs (ipHMMs) is based on the well established profile HMMs and inherits its known efficiency and sensitivity. The large-scale prediction of interaction sites by ipHMMs explained protein dysfunctions caused by mutations that are associated to inheritable diseases like different types of cancer or muscular dystrophy. As already demonstrated by profile HMMs, the ipHMMs are suitable for large-scale applications. Overall, the HMM-based method enhances the prediction quality of interaction sites and improves the understanding of the molecular background of inheritable diseases. With respect to current and future requirements I provide large-scale solutions for the characterisation of biological data in this work. All described methods feature a highly portable character, which allows for the transfer to related topics or organisms, respectively. Special emphasis was put on the knowledge transfer facilitated by a steadily increasing wealth of biological information. The applied and developed statistical methods largely provide learning capacities and hence benefit from the gain of knowledge resulting in increased prediction accuracies and reliability. N2 - Die aktuellen Fortschritte und Entwicklungen in der Molekularbiologie stellen eine Fülle neuer, bisher kaum analysierter Daten bereit. Dieser Fundus umfasst unter Anderem biologische Daten zu genomischer DNA, zu Proteinsequenzen, zu dreidimensionalen Proteinstrukturen sowie zu Genexpressionsprofilen. In der vorliegenden Arbeit werden diese Informationen genutzt, um neue Methoden der Charakterisierung und Klassifizierung von Organismen bzw. Organismengruppen zu entwickeln und einen automatisierten Informationsgewinn sowie eine Informationsübertragung zu ermöglichen. Die ersten beiden vorgestellten Ansätze (Kapitel 4 und 5) konzentrieren sich auf die medizinisch und wissenschaftlich bedeutsame Gruppe der Enterobakterien. Deren Bedeutung für Medizin und Mikrobiologie geht auf ihre Funktion als kommensale Bewohner des Darmtraktes, ihre Nutzung als leicht kultivierbare Modellorganismen und auf die vielseitigen Infektionsmechanismen zurück. Obwohl bereits viele Studien über einzelne Pathogruppen mit klinisch unterscheidbaren Symptomen existieren, sind die genotypischen Faktoren, die für diese Unterschiedlichkeit verantwortlich zeichnen, teilweise noch nicht bekannt. Der in Kapitel 4 beschriebene umfassende Genomvergleich wurde anhand einer Vielzahl von Enterobakterien durchgeführt, die nahezu die gesamte Bandbreite klinisch relevanter Diversität darstellen. Dieser Genomvergleich bildet die Basis für eine Charakterisierung des enterobakteriellen Genpools, für eine Rekonstruktion evolutionärer Prozesse und Einflüsse und für eine umfassende Untersuchung spezifischer Proteinfamilien in enterobakteriellen Untergruppen. Die in diesem Kontext vorher noch nicht angewandte Korrespondenzanalyse liefert qualitative Aussagen zu bakteriellen Untergruppen und den ausschließlich in ihnen vorkommenden Proteinfamilien. In drei Hauptuntergruppen der Enterobakterien, die den Gattungen Yersinia und Salmonella sowie der Gruppe aus Shigella und E. coli entsprechen, wurden die jeweils spezifischen Proteinfamilien mit Hilfe statistischer Tests identifiziert. Zusammenfassend bilden die auf Genomvergleichen aufbauenden Methoden neue Ansatzpunkte, um aus der Übertragung der bekannten Funktionalität einzelner Proteine auf spezifische, genotypische Besonderheiten bakterieller Gruppen zu schließen. Aufgrund ihrer hohen medizinischen Relevanz war die Typisierung enterobakterieller Isolate entsprechend ihrer Pathogenität Ziel zahlreicher Studien. Die Microarray-Technologie bietet ein schnelles, reproduzierbares und standardisierbares Hilfsmittel für bakterielle Typisierung und hat sich in der Bakteriendiagnostik, Risikobewertung und Überwachung bewährt. Das in Kapitel 5 beschriebene Design eines diagnostischen Microarray beruht auf einer großen Anzahl verfügbarer Genomsequenzen von Enterobakterien. Ein hocheffizienter String-Matching-Algorithmus ist die Grundlage einer neuartigen Strategie der Sondenauswahl, die sowohl kodierende als auch nicht-kodierende Bereiche genomischer DNA berücksichtigt. Im Vergleich zu Diagnostika, die ausschließlich auf Virulenz-assoziierten Sonden beruhen, verringert dieses Prinzip das Risiko einer inkorrekten Typisierung. Zusätzliche Sonden erweitern das Anwendungsspektrum auf eine simultane Diagnostik der Antibiotikaresistenz bzw. eine Überwachung der Resistenzausbreitung. Umfangreiche Testhybridisierungen belegen eine überwiegende Zuverlässigkeit der Sonden und vor allem eine robuste Klassifizierung enterobakterieller Stämme entsprechend der Pathogruppen. Die Tests bilden zudem die Grundlage für das Training eines Regressionsmodells zur Klassifizierung der Pathogruppe und zur Vorhersage der Menge hybridisierter DNA. Das Regressionsmodell zeichnet sich durch kontinuierliche Lernfähigkeit und damit durch eine Verbesserung der Vorhersagequalität im Prozess der Anwendung aus. Ein Teil der Sonden repräsentiert intergenische DNA und bestätigt infolgedessen die Relevanz der zugrunde liegenden Strategie. Die Tatsache, dass ein großer Teil der von den Sonden repräsentierten Gene noch nicht annotiert ist, legt die Existenz bisher unentdeckter Faktoren mit Bedeutung für die Ausbildung entsprechender Virulenz-Phänotypen nahe. Ein weiteres Haupteinsatzgebiet von Microarrays ist die Genexpressionsanalyse. Die Größe von Genexpressionsdatenbanken ist in den vergangenen Jahren stark gewachsen. Obwohl sie eine Fülle von Expressionsdaten bieten, sind Ergebnisse aus unterschiedlichen Studien weiterhin schwer in einen übergreifenden Zusammenhang zu bringen. In Kapitel 6 wird die Methodik einer ausschließlich datenbasierten Meta-Analyse für genomweite A. thaliana Genexpressionsdatensätze dargestellt, die neue Erkenntnisse über Funktion und Regulation von Genen verspricht. Die Anwendung von Kernel-basierter Hauptkomponentenanalyse in Kombination mit hierarchischem Clustering identifizierte drei Hauptgruppen von Kontrastexperimenten mit jeweils überlappenden Expressionsmustern. In zwei Gruppen konnten deregulierte Gene wichtigen Funktionen bei Indol-3-Essigsäure (IAA) vermitteltem Pflanzenwachstum und -entwicklung sowie pflanzlicher Pathogenabwehr zugeordnet werden. Bisher funktionell nicht näher charakterisierte Serin-Threonin-Kinasen wurden über die Meta-Analyse mit der Pathogenabwehr assoziiert. Grundsätzlich kann dieser Ansatz versteckte Wechselbeziehungen zwischen Genen aufdecken, die unter verschiedenen Bedingungen reguliert werden. Bei der funktionellen Charakterisierung von Proteinen oder der Vorhersage von Genen in Genomsequenzen werden Hidden-Markov-Modelle (HMMs) eingesetzt. HMMs sind technisch ausgereift und in der computergestützten Biologie vielfach eingesetzt worden. Trotzdem birgt die Methodik das Potential zur Optimierung bezüglich der Modellierung biologischer Daten, die hinsichtlich der Längenverteilung ihrer Sequenzen variieren. Untereinheiten dieser Modelle, die Zustände, repräsentieren über ihre individuelle Verweildauer zugrunde liegende Verteilungen von Sequenzlängen. Kapitel 7 stellt eine Methode zur Anpassung einfacher HMM-Topologien an biologische Daten, die glockenkurvenartige Längenverteilungen zeigen, vor. Die Modellierung solcher Verteilungen wird dabei durch eine serielle Verkettung vervielfältigter Zustände gewährleistet, ohne dass die Klasse herkömmlicher HMMs verlassen wird. Auswertungen der Modellierungsleistung bei unterschiedlich stark optimierten HMM-Topologien unterstreichen die Bedeutung der entwickelten Topologieoptimierung. Zusammenfassend wird hier eine generelle Methodik beschrieben, die die Modelleigenschaften von HMMs über Topologieoptimierungen verbessert. Die Parameter dieser Optimierung werden mit Hilfe von Maximum-Likelihood und einem leicht einzubindenden Momentschätzer bestimmt. In Kapitel 8 wird die Anwendung von HMMs zur Vorhersage von Interaktionsstellen in Proteindomänen beschrieben. Wie bereits gezeigt wurde, sind solche Stellen aufgrund einer variablen Konserviertheit ihrer Position und ihres Typs schwer zu bestimmen. Eine Vorhersage von Interaktionstellen in Proteindomänen wird über die Definition einer neuen HMM-Topologie erreicht, die sowohl Sequenz- als auch Strukturdaten einbindet. Interaktionsstellen werden mit einem Posterior-Decoding-Algorithmus vorhergesagt, der zusätzliche Informationen über die Wahrscheinlichkeit einer Interaktion für alle Sequenzpositionen bereitstellt. Die Implementierung der Interaktionsprofil-HMMs (ipHMMs) basiert auf den etablierten Profil-HMMs und erbt deren Effizienz und Sensitivität. Eine groß angelegte Vorhersage von Interaktionsstellen mit ipHMMs konnte mutationsbedingte Fehlfunktionen in Proteinen erklären, die mit vererbbaren Krankheiten wie unterschiedlichen Tumortypen oder Muskeldystrophie assoziiert sind. Wie Profile-HMMs sind auch ipHMMs für groß angelegte Anwendungen geeignet. Insgesamt verbessert die HMM-gestützte Methode sowohl die Vorhersagequalität für Interaktionsstellen als auch das Verständnis molekularer Hintergründe bei vererbbaren Krankheiten. Im Hinblick auf aktuelle und zukünftige Anforderungen stelle ich in dieser Arbeit Lösungsansätze für eine umfassende Charakterisierung großer Mengen biologischer Daten vor. Alle beschriebenen Methoden zeichnen sich durch gute Übertragbarkeit auf verwandte Probleme aus. Besonderes Augenmerk wurde dabei auf den Wissenstransfer gelegt, der durch einen stetig wachsenden Fundus biologischer Information ermöglicht wird. Die angewandten und entwickelten statistischen Methoden sind lernfähig und profitieren von diesem Wissenszuwachs, Vorhersagequalität und Zuverlässigkeit der Ergebnisse verbessern sich. KW - Genomik KW - Hidden-Markov-Modell KW - Enterobacteriaceae KW - Genexpression KW - Microarray KW - Sequenzanalyse KW - diagnostischer Microarray KW - Sequence Analysis KW - diagnostic Microarray Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-39858 ER - TY - THES A1 - Singer, Christian J. T1 - Molekulare Identifizierung von Neisseriaceae und Moraxellaceae mittels ribosomaler DNA-Sequenzierung T1 - Molecular Diagnostics of Neisseriaceae and Moraxellaceae by ribosomal DNA sequencing N2 - Die schnelle und verlässliche Identifizierung mikrobiologischer Isolate ist ein fundamentales Ziel der klinischen Mikrobiologie. Bei einigen gram–negativen Spezies ist die klassische phänotypische Identifizierung, basierend auf metabolischen, enzymatischen oder serologischen Methoden erschwert, zeitraubend oder nicht suffizient. Durch die Sequenzierung partieller Abschnitte der 16S- oder 23S-rDNA können Bakterien meist exakt spezifiziert werden. Hauptziel der vorliegenden Arbeit war es, hypervariable rDNA Abschnitte zu finden, die von stark konservierten Regionen flankiert werden, um auf molekularer Ebene Mitglieder der Familie Neisseriaceae und Moraxellaceae zu diskriminieren. Die inter- und intragenetischen Beziehungen von insgesamt 94 Stämmen wurden untersucht. Im Vergleich zu den Referenzstämmen der Genera waren bei der partiellen 16S-rDNA (E. coli Position 54 – 510) je Spezies durchschnittlich 30 polymorphe Positionen vorhanden. Die partiellen 23S-rDNA Abschnitte (E. coli Position 1400 – 1600) zeigten durchschnittlich 11 polymorphe Positionen. Neisseria macacae und N. mucosa subsp. mucosa (ATCC 19696) zeigten identische 16S- und 23S-rDNA Sequenzen. Die Gruppierung verschiedener Isolate war bei Acinetobacter lwoffii, Moraxella lacunata und Neisseria mucosa an beiden untersuchten Genabschnitten heterogen. Im Fall von N. meningitidis konnte mit Hilfe der 23S-rDNA Daten nicht suffizient gruppiert werden. Die Ergebnisse zeigen eine Überlegenheit der untersuchten partiellen 16S-rDNA zur Diagnostik der Neisseriaceae und Moraxellaceae. Eine Referenzdatenbank zur Diagnostik von Mikroorganismen sollte mehr als ein Isolat einer Spezies enthalten und zudem einen polyphasischen Ansatz verfolgen. Die Sequenz–Chromatogramme und weitere diagnostisch relevante Informationen wurden mit der „offline“-Datenbank RIDOM_Tool gesammelt und sind ein Teil des Internet-basierenden Service von RIDOM (www.ridom-rdna.de). Eine eingegebene Sequenzfolge kann online eingefügt und damit ein direkter Vergleich mit den in der RIDOM Referenzdatenbank existierenden Datensätzen initiiert werden. N2 - Fast and reliable identification of microbial isolates is a fundamental goal of clinical microbiology. However, in the case of some fastidious gram-negative bacterial species, classical phenotype identification based on either metabolic, enzymatic, or serological methods is difficult, time-consuming, and inadequate. 16S- or 23S-rDNA bacterial sequencing will most often result in accurate speciation of isolates. The objective of this study was to find a hypervariable rDNA stretch, flanked by strongly conserved regions, which is suitable for molecular species identification of members of the Neisseriaceae and Moraxellaceae. The inter- and intrageneric relationships were investigated using comparative sequence analysis of PCR-amplified partial 16S- and 23S-rDNA from a total of 94 strains. When compared to the type species of the investigated genera an average of 30 polymorphic positions was observed within the partial 16S-rDNA (corresponding to E. coli position 54 – 510) for each species and an average of 11 polymorphic positions was observed within the 202 nucleotides of the 23S-rDNA gene (E. coli position 1400 – 1600). N. macacae and N. mucosa ssp. mucosa (ATCC 19696) had identical 16S- and 23S-rDNA sequences. Species clusters were heterogeneous in both genes in the case of A. lwoffii, M. lacunata, and N. mucosa. N. meningitidis isolates failed to cluster only in the 23S-rDNA subset. The data showed that the 16S-rDNA region is more suitable than the partial 23S-rDNA for the molecular diagnosis of Neisseriaceae and Moraxellaceae and that a reference database should include more than one strain of each species. Not all microorganisms can be identified by solely partial rDNA sequences. Therefore a database should pursue a polyphasic approach e. g. including phenotypic criteria or different molecular targets. All sequence chromatograms and species-specific information were administered offline with RIDOM_Tool. The dataset is available online as part of the web-based service RIDOM (www.ridom-rdna.de). Users can submit a sequence and conduct a similarity search against the RIDOM reference database for microbial identification purposes. KW - DNA KW - Sequenzanalyse KW - 16S KW - Neisseriaceae KW - Moraxellaceae KW - DNA KW - Sequence analysis KW - 16S KW - Neisseriaceae KW - Moraxellaceae Y1 - 2005 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-16823 ER - TY - THES A1 - Wohlleben, Michael T1 - Sequenzanalyse des humanen 5´-Deiodase (Typ I) -Gens bei Patienten mit Schilddrüsenfunktionsstörungen T1 - Sequence analysis of the human 5' deiodinase (type I) - gene in patients with thyroid malfunction N2 - Durch ihre Aufgaben im Metabolismus der Schilddrüsenhormone kommt der Enzymfamilie der Deiodasen im feinregulierten Zusammenspiel der Aktivierung und Inaktivierung dieser signalgebenden Stoffe eine zentrale Rolle zu. Störungen in diesem System ziehen weitreichende Folgen auf der Ebene der Entwicklung und Steuerung des gesamten Organismus nach sich. Verminderte Aktivität der 5´DI, sei sie durch unzureichende Expression des Gens oder posttranskriptionelle Fehlsteuerung bedingt, geht dabei mit einer sogenannten „Konversionshemmung“ einher, die sich in erhöhten T4- und rT3-Spiegeln bei vermindertem Plasma-T3-Gehalt äußert. Diese Konstellation wird in Tiermodellen, bei denen ein 5´DI-Defekt auf molekularer Ebene bekannt ist, beobachtet. Ein derartiger Defekt ist jedoch beim Menschen bislang nicht festgestellt worden. Eine routinemäßige Untersuchung des 5´DI-Gens von Patienten, bei denen ein Enzymdefekt die Ursache ihrer Symptomatik sein könnte, ist mit Hilfe des hier aufgeführten Verfahrens unter einfachen Bedingungen möglich. In dieser Arbeit wird neben der Beschreibung eines stummen Polymorphismus im Exon 1 erstmals eine potentiell relevante Veränderung im translatierten Bereich des 5´DI-Gens beschrieben. Ausgewählte Patienten, deren Symptome den Verdacht auf eine Konversionshemmung aufkommen lassen, sind (bei sonst unveränderter Exonstruktur) heterozygot für eine Punktmutation im Codon 108 im Exon 1. Durch den Austausch von G durch A ergibt sich bei ihnen aus dem Codon UGG für die Aminosäure Tryptophan das Stop- beziehungsweise SeCys-Codon UGA. Im ersten Fall entsteht dadurch ein etwa um die Hälfte verkürztes und damit wohl funktionsunfähiges Protein, im zweiten ein in Konformation und Aktivität sicherlich beeinträchtigtes Enzym, vorausgesetzt, das im 3’-untranslatierten Bereich der mRNA befindliche SECIS-Element ist für dieses UGA-Codon wirksam. Bei beiden Varianten ist jedoch zu klären, ob der Defekt durch das zweite wildtypische Allel teilweise oder völlig kompensiert werden kann, wozu Untersuchungen von Gewebeproben aus Leber und Niere beziehungsweise die Expression des veränderten Gens in Zellkultur erforderlich wären. N2 - By its functions in the metabolismus of the thyroid hormones a central role comes to the enzyme family of the deiodinases by activation and inactivating these signal-giving hormones. Changes in this system result in consequences in development and controlling of the entire organism. Decreased activity of the 5'DI, due to insufficient expression of the gene or posttranscriptional changes, causes increased T4 and rT3-levels with decreased plasma T3 content. This is observed in animals, in which a 5'DI-defect on molecular level is known. Such a defect was so far not known however with humans. A routine investigation of the 5'DI-gene in patients, where an enzyme defect could be the cause of their symptomatology, is possible by the procedure specified here under simple conditions. In this work, apart from the description of a polymorphism in the Exon 1, a potentially relevant change in the translated part of the 5'DI gene is described for the first time in human. Selected patients, whose symptoms let to the suspicion on a conversion defect for thyroid hormones, are heterozygot for a mutation in the Codon 108 in the Exon 1. The exchange of G by A results in the stop and/or SeCys Codon UGA. In the first case an approximately half shortened and thus probably nonfunctioning protein would result, in the second an enzyme most probably changed in activity, if the SECIS element in the 3' untranslated region is effective for this UGA Codon. With both variants it is to be clarified whether the defect can be partly or completely compensated by the second wild-typ allele, what makes in necessary to investigat samples from liver and kidney tissue and/or the expression of the changed gene in cell culture. KW - Deiodase Typ I KW - human KW - Gen KW - Sequenzanalyse KW - Schilddrüsenfunktionsstörung KW - deiodinase type I KW - human KW - gene KW - sequence analysis KW - thyroid malfunction Y1 - 2004 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-7621 ER -