TY - THES A1 - Hartmann, Thomas T1 - Nitrogen metabolism in Aspergillus fumigatus with emphasis on the oligopeptide transporter (OPT) gene family T1 - Stickstoffmetabolismus in Aspergillus fumigatus mit Schwerpunkt auf der Oligopeptidtransporter (OPT) Genfamilie N2 - The saprophytic filamentous fungus Aspergillus fumigatus has been gaining importance as an opportunistic human pathogen over the past decades. Advances in modern medicine have created a growing group of patients susceptible to infection with A. fumigatus, often contracting potentially deadly invasive aspergillosis. The virulence of this pathogen appears to be a multifactorial trait, a combination of physiological characteristics that enables the fungus to infect immunocompromised humans. This work concentrates on the nitrogen metabolism of A. fumigatus, which is essential for meeting the nutritional needs inside the human host. Using DNA microarrays, the transcriptional response during growth on three different secondary nitrogen sources was examined, which revealed the metabolic versatility of A. fumigatus, especially when challenged with proteins as the sole source of nitrogen. In-depth transcriptional profiling of the eight-member oligopeptide transporter (OPT) gene family underlined the importance of oligopeptide transport for growth on complex nitrogen sources like BSA or collagen. Heterologous expression of the opt genes in Saccharomyces cerevisiae showed their functionality as oligopeptide transporters, and characterized their substrate specificity. Using a Cre/loxP based genetic tool, a complete deletion of all opt genes in A. fumigatus was achieved. The resultant strain exhibited diminished growth on medium where the oligopeptide GPGG was the sole nitrogen source, but did not show any other in vitro phenotype. The opt deletion strain was not attenuated in virulence in a murine model of pulmonary aspergillosis, suggesting that the OPT gene family is not necessary for successful infection. The connection of oligopeptide transport and extracellular proteolytic activity was investigated by deleting the genes encoding Dpp4 and Dpp5, two dipeptidyl peptidases, or PrtT, the transcriptional regulator of major secreted proteases, in the complete opt deletion background. In contrast to the deletion of dpp4 and dpp5, which did not result in any additional phenotype, the absence of prtT led to a drastic growth defect on porcine lung agar. This suggests a synergistic action of extracellular proteolytic digest of proteins and transport of oligopeptide degradation products into the cell. Finally, this work established the bacterial β-Rec/six site-specific recombination system as a novel genetic tool for targeted gene deletion in A. fumigatus. N2 - Bedingt durch die medizinischen Fortschritte der vergangenen Jahrzehnte, hat sich die Zahl der Infektionen mit dem saprophytischen Schimmelpilz Aspergillus fumigatus drastisch erhöht. Die Virulenz von A. fumigatus für immungeschwächte Personen scheint hierbei auf einer Kombination an physiologischen Merkmalen und Fähigkeiten des Pilzes zu beruhen, weniger auf spezifischen Virulenzfaktoren. Diese Arbeit widmet sich dem Stickstoffmetabolismus von A. fumigatus, welcher essentiell für die Ernährung des Pilzes innerhalb des menschlichen Wirtes ist. Mittels DNA Microarrays gelang es die Reaktion des Pilzes auf das Vorhandensein dreier sekundärer Stickstoffquellen auf transkriptioneller Ebene zu erforschen, wobei sich besonders in Gegenwart von Protein die metabolische Vielseitigkeit von A. fumigatus zeigte. Tiefergehende transkriptionelle Studien der Oligopeptidtransporter (OPT) Genfamilie unterstrichen die Relevanz des Oligopeptidtransportes, während des Wachstums auf komplexen Stickstoffquellen wie BSA oder Collagen. Expression der opt Gene in Saccharomyces cerevisiae half deren Funktionalität als Oligopeptidtransporter und deren Substratspezifität zu untersuchen. Mittels eines Cre/loxP basierten Systems gelang es, sämtliche 8 opt Gene in A. fumigatus zu deletieren. Der daraus resultierende Stamm zeigte vermindertes Wachstum auf Medium mit dem Oligopeptid GPGG als einziger Stickstoffquelle, wuchs sonst allerdings wie der Wildtyp. Der Stamm zeigte keine verminderte Virulenz in einem Mausmodell für pulmonale Aspergillose, was darauf hindeutet, dass die OPT Genfamilie für einen erfolgreichen Infektionsverlauf nicht von nöten ist. Durch Deletion im OPT defizienten Stammhintergrund, entweder der zwei Dipeptidylpeptidasen Dpp4 und Dpp5, oder des transkriptionellen Regulators einiger zentraler sekretierter Proteasen PrtT, wurde die Verbindung zwischen Oligopeptidtransport und extrazellulärem Proteinabbau untersucht. Während die Deletion der Dipeptidylpeptidasen zu keinem weiteren Wachstumsphänotyp führte, resultierte das Entfernen des prtT Gens in einem drastischen Wachstumsdefekt auf einem Lungenagarmedium. Dies legt den Schluss nahe, dass sekretierte Proteasen und Oligopeptidtransporter synergistisch zusammenwirken, um extrazelluläres Protein als Nährstoffquelle zu erschließen. Schlussendlich gelang es in dieser Arbeit ebenfalls, das bakterielle β-Rec/six basierte Rekombinationssystem als genetisches Werkzeug zur gezielten Genmanipulation von A. fumigatus zu etablieren. KW - Aspergillus fumigatus KW - Stickstoffwechsel KW - Transkription KW - Stickstoffmetabolismus KW - Aspergillus fumigatus KW - oligopeptide transport Y1 - 2010 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-54027 ER - TY - THES A1 - Rupp, Ingrid T1 - Die Gametogenese des humanpathogenen Malariaerregers Plasmodium falciparum - eine Charakterisierung von daran beteiligten Proteasen sowie die Beschreibung und Funktionsanalyse von dabei auftretenden interzellulären Gametenfilamenten T1 - Gametogenesis of the human malaria pathogen Plasmodium falciparum - the characterization of involved proteases and a description and functional analysis of gamete intercellular filaments N2 - Malaria stellt mit einer Mortalität von über einer Million Menschen pro Jahr die bedeutsamste Tropenkrankheit für den Menschen dar. Wachsende Resistenzen der Malariaerreger gegenüber den verfügbaren Medikamenten erhöhen mehr denn je den Druck, neue Therapiemöglichkeiten sowie einen Impfstoff gegen diese Krankheit zu entwickeln. Eine Unterbrechung des sexuellen Fortpflanzungszyklus im Laufe der Transmission von Mensch zu Stechmücke würde zu einem Verbreitungsstopp des Erregers führen. Sowohl die Identifizierung von molekularen Wechselwirkungen als auch die Erforschung von an Fertilisationsereignissen beteiligten Prozessen sind wichtige Schritte, um die Sexualphase des Erregers aufzuklären und neue Angriffspunkte für Medikamente oder Vakzine zu entwickeln. Dem Genom von P. falciparum konnten 92 putative Proteasen zugeordnet werden, von denen nur ein geringer Bruchteil charakterisiert worden ist. Unter Anwendung von Protease-Inhibitoren konnte in dieser Arbeit gezeigt werden, dass die Exflagellation der männlichen Gameten die Beteiligung von Proteasen verschiedener Kategorien benötigt. Die Ergebnisse belegten, dass die Aktivität von zwei oder mehr Serinproteasen, von Falcipain-ähnlichen Cysteinproteasen, von nicht-Thermolysin-ähnlichen Zink-Metalloproteasen und von Aspartatproteasen für den erfolgreichen Abschluss der männlichen Gametogenese eine wichtige Voraussetzung ist. Die Lokalisation des Cysteinproteasen- und Falcipain-hemmenden Inhibitors bADA konnte erstmals im Zytosol von Sexualstadien nachgewiesen werden. In dieser Arbeit wurden zusätzlich die Proteasen Calpain, DPAP2, GPI8, Metacaspase 2, Plasmepsin 6 und PfSub3 näher untersucht. RT-PCR-Analysen konnten die Transkription der sechs ausgesuchten Proteasen in gemischten asexuellen Parasiten sowie zum Großteil in Gametozyten, Gameten und Zygoten belegen. Die Transformation von asexuellen Parasiten mit entsprechenden knockout-Konstrukten deckte für Metacaspase 2 und PfSub3 auf, dass sie im asexuellen Vermehrungszyklus nicht essentiell und die entsprechenden Genloci für Rekombinationsereignisse zugänglich sind. Die Ergebnisse der übrigen Transformationen deuteten darauf hin, dass Calpain essentiell im asexuellen Vermehrungszyklus und dass der Genlocus von Plasmepsin 6 für Rekombinationsereignisse unzugänglich ist. Proteinexpressionsstudien anhand von Western-Blot-Analysen und Immunfluoreszenzstudien für PfSub3 konnten Hinweise darauf liefern, dass diese Serinprotease in asexuellen Parasiten, nicht-aktivierten sowie aktivierten Sexualstadien exprimiert wird. Aufgrund der in dieser Arbeit generierten Ergebnisse konnten im Laufe der Gametogenese auftretende Gametenfilamente morphologisch beschrieben sowie Hinweise auf ihre mögliche Funktion erlangt werden. Durch die Anwendung von Immunfluoreszenzstudien, rasterelektronenmikroskopischen Aufnahmen sowie die Analyse lebender Gameten konnte gezeigt werden, dass die bis zu 180 µm langen Filamente am Ende geschlossen sind und einen Durchmesser von ca. 200 nm aufweisen. Die tubulären Zellausläufer konnten weiterhin als verzweigte sowie nicht-verzweigte Ausläufer der parasitären Plasmamembran dargestellt werden, die mit Zytoplasma gefüllt sind. Es konnte belegt werden, dass die Aktin-assoziierten Filamente in periodischen Abständen von beulenartigen Auswölbungen unterbrochen werden und dass sie in rasterelektronenmikroskopischen Analysen ein perlschnurartiges Erscheinungsbild aufweisen. Weiterhin wurde dokumentiert, dass die Zellausläufer mit typischen sexualstadienspezifischen Proteinen wie Pfs25, Pfs230, Pfs48/45 und PfCCp4 assoziiert vorliegen, wobei das Fehlen einzelner dieser Proteine jedoch nicht das Ausbilden der Gametenfilamente verhinderte. Als typisches Charakteristikum der Filamente konnte ihre Eigenschaft beschrieben werden, mehrere Makrogameten und zum Teil Gametozyten in einem Zellkluster miteinander netzartig zu verbinden, wobei bis zu neun Filamente von einem Makrogameten ausgehend beobachtet werden konnten. Die Gametenfilamente zeigten ebenfalls die Fähigkeit, an umliegende nicht-infizierte Erythrozyten sowie mit asexuellen Parasiten infizierte Erythrozyten zu adhärieren. Die Filamente waren bereits fünf Minuten nach der Aktivierung der Gametozyten und im Laufe der Gametogenese bei 33 bis 73 % der Zellen nachweisbar. Die Gametenfilamente blieben bis zu 12 Stunden nach Aktivierung der Gametozyten mit der Zelloberfläche verbunden. Der aktive Einzug eines Zellfilaments sowie die Bildung der Gametenfilamente im Mitteldarm der Stechmücke konnte ebenfalls demonstriert werden. Die in dieser Arbeit dargestellten Ergebnisse lieferten unter anderem den Grundbaustein einer formulierten Funktionshypothese für diese Gametenfilamente. Es wird angenommen, dass die Filamente aufgrund ihrer adhäsiven Eigenschaften im Laufe der Befruchtung von Plasmodium im Mitteldarm der Stechmücke auftreten. Möglicherweise bedienen sich vitale Gameten dieser Strukturen, um andere Sexualstadien zu finden und sie zu verbinden. N2 - Malaria remains the deadliest among the tropical diseases with a death toll rate of more than one million people annually. Increasing resistance of the causative organism Plasmodium spec. against available drugs heightens the need for the development of new antimalarial drugs and a vaccine. The sexual reproduction phase of this pathogen has garnered increasing attention because of the potential to prevent the transmission of the parasite from human to mosquito by blocking fertilization and following essential processes in the vertebrate host. Therefore, the identification of molecular interactions during fertilization processes is essential to elucidate the sexual replication phase in order to develop new transmission blocking strategies. The genome of P. falciparum encodes for 92 putative proteases among them only few are partly characterized, although they are considered as excellent drug targets. The data herein defines the involvement of proteases belonging to various protease classes in the exflagellation of male gametes in P. falciparum. It was shown that this essential process of male gametogenesis can be blocked by use of different protease inhibitors. The data suggests an involvement of two or more serine proteases, falcipain-like cysteine proteases, non-thermolysin-like zinc metalloproteases and aspartic proteases in microgametocyte exflagellation. Furthermore, the described data defined the localization of the cysteine protease and falcipain-blocking inhibitor bADA. This inhibitor was shown to be localized in the cytosol of trophozoites, schizonts, gametocytes at all stages of maturity and macrogametes. Additionally, the present thesis achieved first evidence about six specifically selected and largely uncharacterized proteases calpain, DPAP2, GPI8, metacaspase 2, plasmepsin 6 and PfSub3. RT-PCR-Analyses were conducted to demonstrate the existence of transcript and consequently genetically active gene loci for mixed asexual parasites and for most of the gametocyte, gamete and zygote stages. The transformation of asexual parasites with metacaspase-2- and PfSub3-knockout-constructs led to the conclusion that these proteases are non-essential during the asexual replication cycle and their gene loci are accessible to homologous recombination. Additional transformation experiments indicated both that calpain is indispensable in the asexual replication cycle and that the gene locus for Plasmepsin 6 might be inaccessible for homologous recombination. The protein expression analysis for PfSub3 was carried out by using western blot and immunofluorescence assays. The analysis suggests that this serine protease is expressed in asexual parasites as well as in non-activated and activated gametocytes. Based on the data described herein, both the morphologic description of newly discovered filaments of gametes emerging during gametogenesis and the assignment of their putative function was possible. Using immunofluorescence analysis, scanning electron microscopy and live imaging analysis of gametes it was shown that these tubular filaments are about 200 nm in diameter and exhibit a length of up to 180 µm. Furthermore, it was demonstrated that they are close-ended, actin-associated and cytoplasm-containing cell extensions of the parasite’s plasma membrane with a branched or straight appearance. The surface of filaments was associated with bulge-like structures and appeared in scanning electron microscopy partly as a beaded structure. Additionally, it was demonstrated that the sexual stage surface proteins Pfs25, Pfs230, Pfs48/45 and PfCCp4 are connected with these cell extensions, whereby the lack of single proteins did not result in a complete blockade of filament formation. The most typical feature of the filaments was described: to connect several macrogametes and even gametocytes within a cell cluster. It was defined that up to nine filaments emerged from the surface of macrogametes, which were able to adhere to non-infected erythrocytes as well as to parasite-infected erythrocytes. Analysis of their formation revealed that the filaments are formed within five minutes after gametocyte activation and are able to persist on the surface of gametes for a time period of up to 12 hours. During gametogenesis, 33 to more than 70 % of macrogametes exhibited the described filaments. It was possible to demonstrate the active retraction of a filament formed by a macrogamete as well as the generation of a filament in the mosquito midgut. Due to these findings a putative function was assigned. Thus, it can be suggested that the filaments likely form during gametogenesis in the mosquito midgut due to their adhesive properties in order to locate and collect other sexual stages. It might be possible that the filaments are used as a tool of vital gametes to enhance fertilization in the vertebrate host. KW - Plasmodium falciparum KW - Gametogenese KW - Proteasen KW - Serinprotease KW - Aspartatprotease KW - Metalloprotease KW - Proteaseinhibitor KW - Nanotubes KW - Zellfilamente KW - Malaria tropica KW - Malaria KW - Cysteinproteasen KW - serine protease KW - aspartic protease KW - metallo protease KW - protease inhibitor KW - nanotubes KW - cell filaments Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-47830 ER - TY - THES A1 - Friedrich, Torben T1 - New statistical Methods of Genome-Scale Data Analysis in Life Science - Applications to enterobacterial Diagnostics, Meta-Analysis of Arabidopsis thaliana Gene Expression and functional Sequence Annotation T1 - Neue statistische Methoden für genomweite Datenanalysen in den Biowissenschaften - Anwendungen in der Enterobakteriendiagnostik, Meta-Analyse von Arabidopsis thaliana Genexpression und funktionsbezogenen Sequenzannotation N2 - Recent progresses and developments in molecular biology provide a wealth of new but insufficiently characterised data. This fund comprises amongst others biological data of genomic DNA, protein sequences, 3-dimensional protein structures as well as profiles of gene expression. In the present work, this information is used to develop new methods for the characterisation and classification of organisms and whole groups of organisms as well as to enhance the automated gain and transfer of information. The first two presented approaches (chapters 4 und 5) focus on the medically and scientifically important enterobacteria. Its impact in medicine and molecular biology is founded in versatile mechanisms of infection, their fundamental function as a commensal inhabitant of the intestinal tract and their use as model organisms as they are easy to cultivate. Despite many studies on single pathogroups with clinical distinguishable pathologies, the genotypic factors that contribute to their diversity are still partially unknown. The comprehensive genome comparison described in Chapter 4 was conducted with numerous enterobacterial strains, which cover nearly the whole range of clinically relevant diversity. The genome comparison constitutes the basis of a characterisation of the enterobacterial gene pool, of a reconstruction of evolutionary processes and of comprehensive analysis of specific protein families in enterobacterial subgroups. Correspondence analysis, which is applied for the first time in this context, yields qualitative statements to bacterial subgroups and the respective, exclusively present protein families. Specific protein families were identified for the three major subgroups of enterobacteria namely the genera Yersinia and Salmonella as well as to the group of Shigella and E. coli by applying statistical tests. In conclusion, the genome comparison-based methods provide new starting points to infer specific genotypic traits of bacterial groups from the transfer of functional annotation. Due to the high medical importance of enterobacterial isolates their classification according to pathogenicity has been in focus of many studies. The microarray technology offers a fast, reproducible and standardisable means of bacterial typing and has been proved in bacterial diagnostics, risk assessment and surveillance. The design of the diagnostic microarray of enterobacteria described in chapter 5 is based on the availability of numerous enterobacterial genome sequences. A novel probe selection strategy based on the highly efficient algorithm of string search, which considers both coding and non-coding regions of genomic DNA, enhances pathogroup detection. This principle reduces the risk of incorrect typing due to restrictions to virulence-associated capture probes. Additional capture probes extend the spectrum of applications of the microarray to simultaneous diagnostic or surveillance of antimicrobial resistance. Comprehensive test hybridisations largely confirm the reliability of the selected capture probes and its ability to robustly classify enterobacterial strains according to pathogenicity. Moreover, the tests constitute the basis of the training of a regression model for the classification of pathogroups and hybridised amounts of DNA. The regression model features a continuous learning capacity leading to an enhancement of the prediction accuracy in the process of its application. A fraction of the capture probes represents intergenic DNA and hence confirms the relevance of the underlying strategy. Interestingly, a large part of the capture probes represents poorly annotated genes suggesting the existence of yet unconsidered factors with importance to the formation of respective virulence phenotypes. Another major field of microarray applications is gene expression analysis. The size of gene expression databases rapidly increased in recent years. Although they provide a wealth of expression data, it remains challenging to integrate results from different studies. In chapter 6 the methodology of an unsupervised meta-analysis of genome-wide A. thaliana gene expression data sets is presented, which yields novel insights in function and regulation of genes. The application of kernel-based principal component analysis in combination with hierarchical clustering identified three major groups of contrasts each sharing overlapping expression profiles. Genes associated with two groups are known to play important roles in Indol-3 acetic acid (IAA) mediated plant growth and development as well as in pathogen defence. Yet uncharacterised serine-threonine kinases could be assigned to novel functions in pathogen defence by meta-analysis. In general, hidden interrelation between genes regulated under different conditions could be unravelled by the described approach. HMMs are applied to the functional characterisation of proteins or the detection of genes in genome sequences. Although HMMs are technically mature and widely applied in computational biology, I demonstrate the methodical optimisation with respect to the modelling accuracy on biological data with various distributions of sequence lengths. The subunits of these models, the states, are associated with a certain holding time being the link to length distributions of represented sequences. An adaptation of simple HMM topologies to bell-shaped length distributions described in chapter 7 was achieved by serial chain-linking of single states, while residing in the class of conventional HMMs. The impact of an optimisation of HMM topologies was underlined by performance evaluations with differently adjusted HMM topologies. In summary, a general methodology was introduced to improve the modelling behaviour of HMMs by topological optimisation with maximum likelihood and a fast and easily implementable moment estimator. Chapter 8 describes the application of HMMs to the prediction of interaction sites in protein domains. As previously demonstrated, these sites are not trivial to predict because of varying degree in conservation of their location and type within the domain family. The prediction of interaction sites in protein domains is achieved by a newly defined HMM topology, which incorporates both sequence and structure information. Posterior decoding is applied to the prediction of interaction sites providing additional information of the probability of an interaction for all sequence positions. The implementation of interaction profile HMMs (ipHMMs) is based on the well established profile HMMs and inherits its known efficiency and sensitivity. The large-scale prediction of interaction sites by ipHMMs explained protein dysfunctions caused by mutations that are associated to inheritable diseases like different types of cancer or muscular dystrophy. As already demonstrated by profile HMMs, the ipHMMs are suitable for large-scale applications. Overall, the HMM-based method enhances the prediction quality of interaction sites and improves the understanding of the molecular background of inheritable diseases. With respect to current and future requirements I provide large-scale solutions for the characterisation of biological data in this work. All described methods feature a highly portable character, which allows for the transfer to related topics or organisms, respectively. Special emphasis was put on the knowledge transfer facilitated by a steadily increasing wealth of biological information. The applied and developed statistical methods largely provide learning capacities and hence benefit from the gain of knowledge resulting in increased prediction accuracies and reliability. N2 - Die aktuellen Fortschritte und Entwicklungen in der Molekularbiologie stellen eine Fülle neuer, bisher kaum analysierter Daten bereit. Dieser Fundus umfasst unter Anderem biologische Daten zu genomischer DNA, zu Proteinsequenzen, zu dreidimensionalen Proteinstrukturen sowie zu Genexpressionsprofilen. In der vorliegenden Arbeit werden diese Informationen genutzt, um neue Methoden der Charakterisierung und Klassifizierung von Organismen bzw. Organismengruppen zu entwickeln und einen automatisierten Informationsgewinn sowie eine Informationsübertragung zu ermöglichen. Die ersten beiden vorgestellten Ansätze (Kapitel 4 und 5) konzentrieren sich auf die medizinisch und wissenschaftlich bedeutsame Gruppe der Enterobakterien. Deren Bedeutung für Medizin und Mikrobiologie geht auf ihre Funktion als kommensale Bewohner des Darmtraktes, ihre Nutzung als leicht kultivierbare Modellorganismen und auf die vielseitigen Infektionsmechanismen zurück. Obwohl bereits viele Studien über einzelne Pathogruppen mit klinisch unterscheidbaren Symptomen existieren, sind die genotypischen Faktoren, die für diese Unterschiedlichkeit verantwortlich zeichnen, teilweise noch nicht bekannt. Der in Kapitel 4 beschriebene umfassende Genomvergleich wurde anhand einer Vielzahl von Enterobakterien durchgeführt, die nahezu die gesamte Bandbreite klinisch relevanter Diversität darstellen. Dieser Genomvergleich bildet die Basis für eine Charakterisierung des enterobakteriellen Genpools, für eine Rekonstruktion evolutionärer Prozesse und Einflüsse und für eine umfassende Untersuchung spezifischer Proteinfamilien in enterobakteriellen Untergruppen. Die in diesem Kontext vorher noch nicht angewandte Korrespondenzanalyse liefert qualitative Aussagen zu bakteriellen Untergruppen und den ausschließlich in ihnen vorkommenden Proteinfamilien. In drei Hauptuntergruppen der Enterobakterien, die den Gattungen Yersinia und Salmonella sowie der Gruppe aus Shigella und E. coli entsprechen, wurden die jeweils spezifischen Proteinfamilien mit Hilfe statistischer Tests identifiziert. Zusammenfassend bilden die auf Genomvergleichen aufbauenden Methoden neue Ansatzpunkte, um aus der Übertragung der bekannten Funktionalität einzelner Proteine auf spezifische, genotypische Besonderheiten bakterieller Gruppen zu schließen. Aufgrund ihrer hohen medizinischen Relevanz war die Typisierung enterobakterieller Isolate entsprechend ihrer Pathogenität Ziel zahlreicher Studien. Die Microarray-Technologie bietet ein schnelles, reproduzierbares und standardisierbares Hilfsmittel für bakterielle Typisierung und hat sich in der Bakteriendiagnostik, Risikobewertung und Überwachung bewährt. Das in Kapitel 5 beschriebene Design eines diagnostischen Microarray beruht auf einer großen Anzahl verfügbarer Genomsequenzen von Enterobakterien. Ein hocheffizienter String-Matching-Algorithmus ist die Grundlage einer neuartigen Strategie der Sondenauswahl, die sowohl kodierende als auch nicht-kodierende Bereiche genomischer DNA berücksichtigt. Im Vergleich zu Diagnostika, die ausschließlich auf Virulenz-assoziierten Sonden beruhen, verringert dieses Prinzip das Risiko einer inkorrekten Typisierung. Zusätzliche Sonden erweitern das Anwendungsspektrum auf eine simultane Diagnostik der Antibiotikaresistenz bzw. eine Überwachung der Resistenzausbreitung. Umfangreiche Testhybridisierungen belegen eine überwiegende Zuverlässigkeit der Sonden und vor allem eine robuste Klassifizierung enterobakterieller Stämme entsprechend der Pathogruppen. Die Tests bilden zudem die Grundlage für das Training eines Regressionsmodells zur Klassifizierung der Pathogruppe und zur Vorhersage der Menge hybridisierter DNA. Das Regressionsmodell zeichnet sich durch kontinuierliche Lernfähigkeit und damit durch eine Verbesserung der Vorhersagequalität im Prozess der Anwendung aus. Ein Teil der Sonden repräsentiert intergenische DNA und bestätigt infolgedessen die Relevanz der zugrunde liegenden Strategie. Die Tatsache, dass ein großer Teil der von den Sonden repräsentierten Gene noch nicht annotiert ist, legt die Existenz bisher unentdeckter Faktoren mit Bedeutung für die Ausbildung entsprechender Virulenz-Phänotypen nahe. Ein weiteres Haupteinsatzgebiet von Microarrays ist die Genexpressionsanalyse. Die Größe von Genexpressionsdatenbanken ist in den vergangenen Jahren stark gewachsen. Obwohl sie eine Fülle von Expressionsdaten bieten, sind Ergebnisse aus unterschiedlichen Studien weiterhin schwer in einen übergreifenden Zusammenhang zu bringen. In Kapitel 6 wird die Methodik einer ausschließlich datenbasierten Meta-Analyse für genomweite A. thaliana Genexpressionsdatensätze dargestellt, die neue Erkenntnisse über Funktion und Regulation von Genen verspricht. Die Anwendung von Kernel-basierter Hauptkomponentenanalyse in Kombination mit hierarchischem Clustering identifizierte drei Hauptgruppen von Kontrastexperimenten mit jeweils überlappenden Expressionsmustern. In zwei Gruppen konnten deregulierte Gene wichtigen Funktionen bei Indol-3-Essigsäure (IAA) vermitteltem Pflanzenwachstum und -entwicklung sowie pflanzlicher Pathogenabwehr zugeordnet werden. Bisher funktionell nicht näher charakterisierte Serin-Threonin-Kinasen wurden über die Meta-Analyse mit der Pathogenabwehr assoziiert. Grundsätzlich kann dieser Ansatz versteckte Wechselbeziehungen zwischen Genen aufdecken, die unter verschiedenen Bedingungen reguliert werden. Bei der funktionellen Charakterisierung von Proteinen oder der Vorhersage von Genen in Genomsequenzen werden Hidden-Markov-Modelle (HMMs) eingesetzt. HMMs sind technisch ausgereift und in der computergestützten Biologie vielfach eingesetzt worden. Trotzdem birgt die Methodik das Potential zur Optimierung bezüglich der Modellierung biologischer Daten, die hinsichtlich der Längenverteilung ihrer Sequenzen variieren. Untereinheiten dieser Modelle, die Zustände, repräsentieren über ihre individuelle Verweildauer zugrunde liegende Verteilungen von Sequenzlängen. Kapitel 7 stellt eine Methode zur Anpassung einfacher HMM-Topologien an biologische Daten, die glockenkurvenartige Längenverteilungen zeigen, vor. Die Modellierung solcher Verteilungen wird dabei durch eine serielle Verkettung vervielfältigter Zustände gewährleistet, ohne dass die Klasse herkömmlicher HMMs verlassen wird. Auswertungen der Modellierungsleistung bei unterschiedlich stark optimierten HMM-Topologien unterstreichen die Bedeutung der entwickelten Topologieoptimierung. Zusammenfassend wird hier eine generelle Methodik beschrieben, die die Modelleigenschaften von HMMs über Topologieoptimierungen verbessert. Die Parameter dieser Optimierung werden mit Hilfe von Maximum-Likelihood und einem leicht einzubindenden Momentschätzer bestimmt. In Kapitel 8 wird die Anwendung von HMMs zur Vorhersage von Interaktionsstellen in Proteindomänen beschrieben. Wie bereits gezeigt wurde, sind solche Stellen aufgrund einer variablen Konserviertheit ihrer Position und ihres Typs schwer zu bestimmen. Eine Vorhersage von Interaktionstellen in Proteindomänen wird über die Definition einer neuen HMM-Topologie erreicht, die sowohl Sequenz- als auch Strukturdaten einbindet. Interaktionsstellen werden mit einem Posterior-Decoding-Algorithmus vorhergesagt, der zusätzliche Informationen über die Wahrscheinlichkeit einer Interaktion für alle Sequenzpositionen bereitstellt. Die Implementierung der Interaktionsprofil-HMMs (ipHMMs) basiert auf den etablierten Profil-HMMs und erbt deren Effizienz und Sensitivität. Eine groß angelegte Vorhersage von Interaktionsstellen mit ipHMMs konnte mutationsbedingte Fehlfunktionen in Proteinen erklären, die mit vererbbaren Krankheiten wie unterschiedlichen Tumortypen oder Muskeldystrophie assoziiert sind. Wie Profile-HMMs sind auch ipHMMs für groß angelegte Anwendungen geeignet. Insgesamt verbessert die HMM-gestützte Methode sowohl die Vorhersagequalität für Interaktionsstellen als auch das Verständnis molekularer Hintergründe bei vererbbaren Krankheiten. Im Hinblick auf aktuelle und zukünftige Anforderungen stelle ich in dieser Arbeit Lösungsansätze für eine umfassende Charakterisierung großer Mengen biologischer Daten vor. Alle beschriebenen Methoden zeichnen sich durch gute Übertragbarkeit auf verwandte Probleme aus. Besonderes Augenmerk wurde dabei auf den Wissenstransfer gelegt, der durch einen stetig wachsenden Fundus biologischer Information ermöglicht wird. Die angewandten und entwickelten statistischen Methoden sind lernfähig und profitieren von diesem Wissenszuwachs, Vorhersagequalität und Zuverlässigkeit der Ergebnisse verbessern sich. KW - Genomik KW - Hidden-Markov-Modell KW - Enterobacteriaceae KW - Genexpression KW - Microarray KW - Sequenzanalyse KW - diagnostischer Microarray KW - Sequence Analysis KW - diagnostic Microarray Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-39858 ER -