Refine
Has Fulltext
- yes (28)
Is part of the Bibliography
- yes (28)
Year of publication
Document Type
- Doctoral Thesis (26)
- Journal article (2)
Keywords
- Microarray (28) (remove)
Institute
- Theodor-Boveri-Institut für Biowissenschaften (13)
- Pathologisches Institut (4)
- Institut für Hygiene und Mikrobiologie (2)
- Institut für Molekulare Infektionsbiologie (2)
- Julius-von-Sachs-Institut für Biowissenschaften (2)
- Lehrstuhl für Orthopädie (2)
- Graduate School of Life Sciences (1)
- Institut für Humangenetik (1)
- Institut für Organische Chemie (1)
- Institut für Pharmazie und Lebensmittelchemie (1)
Sonstige beteiligte Institutionen
Mesenchymale Stammzellen (MSC) stellen die Grundlage der Knochenformation dar, indem sie als multipotente Zellen in viele, für die Knochenhomöostase benötigte Zelltypen differenzieren können, wie z.B. Osteoblasten. Während der Alterung des Menschen kommt es zu einem Ungleichgewicht zwischen Knochenaufbau und Knochenabbau, resultierend in einer verringerten Knochenmasse. Noch ist unklar, ob MSC an dem verminderten Knochenaufbau direkt beteiligt sind, indem sie z.B.im Laufe der Zeit Funktionsstörungen akkumulieren oder in die Seneszenz eintreten, und somit nicht mehr als Stammzellpool für die Osteoblastendifferenzierung zur Verfügung stehen. In der vorliegenden Arbeit wurde das Genexpressionsmuster gealterter Zellen mittels Mikroarray-Analysen untersucht, um die Alters-bedingten Veränderungen detektieren zu können. Hierfür wurde ein in-vitro-Alterungsmodell von humanen MSC (hMSC) etabliert, um die seneszenten Zellen mit hMSC früher Kultivierungspassagen zu vergleichen. Auch Zellen aus Spendern hohen Alters wurden untersucht, um einen Vergleich zwischen ex-vivo- und in-vitro-gealterten hMSC anstellen zu können. Da Osteoporose eine polygenetische Erkrankung des gealterten Knochens darstellt, wurden auch mit hMSC aus Osteoporose-Patienten Genexpressionsanalysen durchgeführt. Die Mikroarray-Analysen und anschließende systembiologische Auswertung zeigten, dass in-vitro-gealterte, seneszente hMSC starke Veränderungen im Transkriptom aufweisen, die auf Defizite in der Proliferation, Differenzierungskapazität und Migration schließen lassen. Neben bekannten Markern für replikative Seneszenz konnten in hMSC auch neue detektiert werden, wie z.B. HELLS, POU5F1 (OCT4) und FGFR2, deren Expression mit der Seneszenz abnimmt, oder CDH1 und PSG5, deren Expression zunimmt. Gene für Akute-Phase-SAA wurden stark erhöht exprimiert vorgefunden. Bei der funktionellen Charakterisierung konnte jedoch gezeigt werden, dass SAA1 und SAA1 durch Stress induziert werden, der der Seneszenz vorausgeht, und dass sie die Mineralisierung bei der osteogenen Differenzierung von hMSC fördern. Akute-Phase-SAA könnten somit eine Verbindung zwischen Alterung bzw. Inflammation und extra-skelettaler Verkalkung darstellen, die im Alter häufig auftritt, z.B. in Form von Arteriosklerose. In-vivo-gealterte hMSC wiesen ebenfalls Defizite im Expressionsmuster von Proliferations- und Migrations- relevanten Genen auf. Des Weiteren konnten nur wenige Gemeinsamkeiten zwischen in-vivo-gealterten hMSC und in-vitro-gealterten hMSC festgestellt werden. Dies lässt vermuten, dass die in-vivo-Alterung nicht zwangsläufig zu seneszenten Stammzellen führt, da Alterung eines Organismus ein multizellulärer Prozess ist, der durch viele Faktoren beeinflusst wird, wie z.B. Akkumulation von Mutationen und Krebsabwehr. Auch osteoporotische hMSC wiesen Veränderungen im Genexpressionsmuster auf, die mit den Daten zur in-vivo-Alterung verglichen wurden, um die rein Alters-assoziierten Änderungen herausfiltern zu können. Die übrig gebliebenen Gene repräsentierten Veränderungen allein aufgrund der Krankheit. Osteoporose bewirkte somit distinkte Genexpressions-änderungen in hMSC, die auf Förderung der Osteoklastogenese und Defizite in Proliferation, Migration und Differenzierungskapazität schließen lassen. Es konnten vielversprechende Kandidaten-gene für osteoporotische hMSC gefunden werden. Die prämature Expression des WNT-Inhibitors SOST (Sclerostin) und die Überexpression des BMP-Signalweg-Inhibitors MAB21L2 deuten auf eine Autoinhibition der Stammzellen hin, die letztlich die gestörte Knochenformation bei Alters-assoziierter Osteoporose begründen könnte. Zusammenfassend zeigt die vorliegende Arbeit, dass intrinsische Defizite von Stammzellen an der Pathophysiologie von Alterung und Osteoporose beteiligt sind. Sie eröffnet tiefgreifende Einblicke in die systembiologischen Veränderungen in Stammzellen aufgrund von Alterung oder Osteoporose, und setzt somit einen soliden Grundstein für weiterführende Analysen.
DNA microarrays have become a standard technique to assess the mRNA levels for complete genomes. To identify significantly regulated genes from these large amounts of data a wealth of methods has been developed. Despite this, the functional interpretation (i.e. deducing biological hypothesis from the data) still remains a major bottleneck in microarray data analysis. Most available methods display the set of significant genes in long lists, from which common functional properties have to be extracted. This is not only a tedious and time-consuming task, which becomes less and less feasible with increasing numbers of experimental conditions, but is also prone to errors, since it is commonly done by eye. In the course of this work methods have been developed and tested, that allow for a computerbased analysis of functional properties being relevant in the given experimental setting. To this end the Gene Ontology was chosen as an appropriate source of annotation data, because it combines human-readability with computer-accessibility of the annotations term and thus allows for a statistical analysis of functional properties. Here the gene-annotations are integrated in a Correspondence Analysis which allows to visualize genes, hybridizations and functional categories in a single plot. Due to the increasing amounts of available annotations and the fact that in most settings only few functional processes are differentially regulated, several filter criteria have been developed to reduce the number of displayed annotations to a set being relevant in the given experimental setting. The applicability of the presented visualization and filtering have both been validated on datasets of varying complexity. Starting from the well studied glucose-pathway in S. cerevisiae up to the comparison of different tumor types in human. In both settings the method generated well interpretable plots, which allowed for an immediate identification of the major functional differences between the experimental conditions [90]. While the integration of annotation data like GO facilitates functional interpretation, it lacks the capability to identify key regulatory elements. To facilitate such an analysis, the occurrence of transcription factor binding sites in upstream regions of genes has been integrated to the analysis as well. Again this methodology was biologically validated on S. cerevisiae as well human cancer data sets. In both settings TFs known to exhibit central roles for the observed transcriptional changes were plotted in marked positions and thus could be immediately identified [206]. In essence, integration of supplementary information in Correspondence Analysis visualizes genes, hybridizations and annotation data in a single, well interpretable plot. This allows for an intuitive identification of relevant annotations even in complex experimental settings. The presented approach is not limited to the shown types of data, but is generalizable to account for the majority of the available annotation data.
Recent studies have shown aberrant expression of SOX11 in various types of aggressive B-cell neoplasms. To elucidate the molecular mechanisms leading to such deregulation, we performed a comprehensive SOX11 gene expression and epigenetic study in stem cells, normal hematopoietic cells and different lymphoid neoplasms. We observed that SOX11 expression is associated with unmethylated DNA and presence of activating histone marks (H3K9/14Ac and H3K4me3) in embryonic stem cells and some aggressive B-cell neoplasms. In contrast, adult stem cells, normal hematopoietic cells and other lymphoid neoplasms do not express SOX11. Such repression was associated with silencing histone marks H3K9me2 and H3K27me3. The SOX11 promoter of non-malignant cells was consistently unmethylated whereas lymphoid neoplasms with silenced SOX11 tended to acquire DNA hypermethylation. SOX11 silencing in cell lines was reversed by the histone deacetylase inhibitor SAHA but not by the DNA methyltransferase inhibitor AZA. These data indicate that, although DNA hypermethylation of SOX11 is frequent in lymphoid neoplasms, it seems to be functionally inert, as SOX11 is already silenced in the hematopoietic system. In contrast, the pathogenic role of SOX11 is associated with its de novo expression in some aggressive lymphoid malignancies, which is mediated by a shift from inactivating to activating histone modifications.
Das Hauptziel der medizinischen Genetik ist es, die Ursachen für genetisch hervorgerufene Krankheiten zu finden, um eine bessere Behandlung der Patienten zu gewährleisten, sei es um die Medikamente auf den Metabolismus des Individuums anzupassen oder natürlich dazu, um die Krankheit selbst zu behandeln und in Zukunft auch heilen zu können. Um dieses Ziel zu erreichen werden immer neue Technologien entwickelt, die mit Hilfe von bereits etablierten Methoden auf ihre Eignung hin überprüft werden müssen. Eine der neuesten Entwicklungen stellt die Array-Technologie dar. In dieser Studie wurde versucht zu überprüfen, inwieweit diese neue Methode zur Analyse von einzelnen bis wenigen Patienten mit bestimmten Syndromen geeignet ist. Dafür wurden mehrere Patienten mir sehr unterschiedlichen Phänotypen ausgesucht, die verschiedene Ursachen und Entstehungsmechanismen der genetischen und phänotypischen Veränderung vermuten ließen. Die erste hier dargestellte Publikation beschreibt einen Fall mit einer einseitigen Schalleitungsschwerhörigkeit, der mit einer Translokation der(18)t(18;22) mit der involvierten Deletion 22pter→q11.21, sowie den darin enthaltenden Genen der CES-Region, erklärt wurde. Der in der zweiten Publikation beschriebene Fall mit MR und Verhaltensauffälligkeiten wurde mit einer intragenischen Mikrodeletion im Gen IL1RAPL1 korreliert. Zwei Fälle autoimmunbedingten Leberversagens bei einem Phelan-McDermid Syndrom wurden in der dritten Publikation primär auf eine Deletion des Gens PIM3 zurückgeführt. Ein autistischer Junge mit einer Entwicklungsverzögerung und gewalttätigen Ausbrüchen zeigte in der vierten Publikation ein sehr komplexes Rearrangement mit mehreren Brüchen im Gen CNTNAP2 und Deletionen anderer Gene, die zusammen für den Phänotyp verantwortlich sein können. Keine Mikrodeletion, sondern eine Epimutation in Chromosom 14q32.2 war die Ursache für die Adipositas mit einer Sprachentwicklungsverzögerung bei einem Jungen, der in der fünften Publikation beschrieben ist. Um die o. g. genetischen Veränderungen zu finden, wurden verschiedene Methoden wie die GTG-Bänderung, FISH, MLPA und verschiedene Array-Systeme verwendet. Mit jeder von diesen Methoden konnten neue und einander ergänzende Daten zu den genetischen Veränderungen eines Individuums gewonnen werden. Keine der Methoden konnte für sich allein ein vollständiges Bild liefern. Die GTG-Bänderung zeigt zwar das ganze Genom, hat aber die Limitierung der niedrigen Auflösung. Sie konnte dennoch Anhaltspunkte für höherauflösende Untersuchungsmethoden geben. Dazu gehörte die FISH, die entweder zur feineren Auflösung der Bänderungsdaten oder zur Bestätigung von Array-Befunden verwendet wurde. Die MLPA wurde unterstützend auf der Suche nach sehr kleinen Veränderungen in eingegrenzten Regionen eingesetzt. In einigen der beschriebenen Fälle wurden trotz eines negativen Bänderungsbefundes aufgrund des auffälligen Phänotyps genetische Ursachen vermutet, und daher feiner auflösende Methoden eingesetzt. Die am höchsten auflösenden Array-basierten Methoden wurden eingesetzt, wenn ansonsten keine Ergebnisse zu erzielen waren, oder eine feinere Auflösung der vorhandenen Daten erreicht werden sollte. Anschließend konnten die Erkenntnisse über die Veränderungen mit dem Phänotyp korreliert werden, um ein Kandidatengen oder eine Kandidatengenregion zu ermitteln. Aufgrund der großen Datenmenge aus den Array-Experimenten, waren zur Entscheidung über die Relevanz der Daten bezüglich der Entstehung des Phänotyps umfassende Datenbank- und Literatur-Recherchen notwendig. Zusammenfassend kann gesagt werden, dass die Array-Technologie einen großen Fortschritt darstellt, in der Suche nach Ursachen für genetische Erkrankungen. Sie hat aber technische Limitierungen und um das Problem der Phänotyp-Genotyp-Korrelation zu vereinfachen, werden weltweit noch viele Daten gesammelt werden müssen. Das ist eine Frage der Zeit und der Weiterentwicklung geeigneter Technologien.
In this thesis, the development of a phylogenetic DNA microarray, the analysis of several gene expression microarray datasets and new approaches for improved data analysis and interpretation are described. In the first publication, the development and analysis of a phylogenetic microarray is presented. I could show that species detection with phylogenetic DNA microarrays can be significantly improved when the microarray data is analyzed with a linear regression modeling approach. Standard methods have so far relied on pure signal intensities of the array spots and a simple cutoff criterion was applied to call a species present or absent. This procedure is not applicable to very closely related species with high sequence similarity because cross-hybridization of non-target DNA renders species detection impossible based on signal intensities alone. By modeling hybridization and cross-hybridization with linear regression, as I have presented in this thesis, even species with a sequence similarity of 97% in the marker gene can be detected and distinguished from related species. Another advantage of the modeling approach over existing methods is that the model also performs well on mixtures of different species. In principle, also quantitative predictions can be made. To make better use of the large amounts of microarray data stored in public databases, meta-analysis approaches need to be developed. In the second publication, an explorative meta-analysis exemplified on Arabidopsis thaliana gene expression datasets is presented. Integrating datasets studying effects such as the influence of plant hormones, pathogens and different mutations on gene expression levels, clusters of similarly treated datasets could be found. From the clusters of pathogen-treated and indole-3-acetic acid (IAA) treated datasets, representative genes were selected which pointed to functions which had been associated with pathogen attack or IAA effects previously. Additionally, hypotheses about the functions of so far uncharacterized genes could be set up. Thus, this kind of meta-analysis could be used to propose gene functions and their regulation under different conditions. In this work, also primary data analysis of Arabidopsis thaliana datasets is presented. In the third publication, an experiment which was conducted to find out if microwave irradiation has an effect on the gene expression of a plant cell culture is described. During the first steps, the data analysis was carried out blinded and exploratory analysis methods were applied to find out if the irradiation had an effect on gene expression of plant cells. Small but statistically significant changes in a few genes were found and could be experimentally confirmed. From the functions of the regulated genes and a meta-analysis with publicly available microarray data, it could be suspected that the plant cell culture somehow perceived the irradiation as energy, similar to perceiving light rays. The fourth publication describes the functional analysis of another Arabidopsis thaliana gene expression dataset. The gene expression data of the plant tumor dataset pointed to a switch from a mainly aerobic, auxotrophic to an anaerobic and heterotrophic metabolism in the plant tumor. Genes involved in photosynthesis were found to be repressed in tumors; genes of amino acid and lipid metabolism, cell wall and solute transporters were regulated in a way that sustains tumor growth and development. Furthermore, in the fifth publication, GEPAT (Genome Expression Pathway Analysis Tool), a tool for the analysis and integration of microarray data with other data types, is described. It consists of a web application and database which allows comfortable data upload and data analysis. In later chapters of this thesis (publication 6 and publication 7), GEPAT is used to analyze human microarray datasets and to integrate results from gene expression analysis with other datatypes. Gene expression and comparative genomic hybridization data from 71 Mantle Cell Lymphoma (MCL) patients was analyzed and allowed proposing a seven gene predictor which facilitates survival predictions for patients compared to existing predictors. In this study, it was shown that CGH data can be used for survival predictions. For the dataset of Diffuse Large B-cell lymphoma (DLBCL) patients, an improved survival predictor could be found based on the gene expression data. From the genes differentially expressed between long and short surviving MCL patients as well as for regulated genes of DLBCL patients, interaction networks could be set up. They point to differences in regulation for cell cycle and proliferation genes between patients with good and bad prognosis.
Ziel der Arbeit war die Erstellung eines „Kaliumkanal-Chips“, die Entwicklung einer geeigneten Messmethode und Auswertungsstrategie, die Durchführung von Testmessungen und die Untersuchung eines Knockout-Mausstammes auf den Genexpressionsstatus und die auftretenden Kompensationsmechanismen. Am Beginn der Arbeit stand vor allem die Auswahl der zu untersuchenden Kaliumkanal-Gene und die Sammlung von Sequenz-Informationen. Ausgehend davon konnte die cDNAMicroarray-Technologie als Methode der Wahl bestimmt werden und die entsprechenden Vorbereitungen für die Umsetzung getroffen werden. Die ersten Messungen im Zuge der Methodenentwicklungen zeigten vor allem, dass jeder Microarray seine individuellen Probleme mit sich bringt, ließen jedoch auch schon erahnen, welche umfangreichen Möglichkeiten diese Technologie bietet. Dann folgten Versuchsmessreihen, wie die Untersuchung der lterspezifischen Expression und der Vergleich von bestimmten Gehirnabschnitten mit dem Gesamtgehirn. Den Abschluss bildete die Messung der TRESK-Knockout-Mauslinie im Vergleich zu ihrem Wildtyp. Hier stand die Frage nach möglichen Kompensationsmechanismen im Vordergrund. Mit kcnk16 haben die Messungen einen interessanten Kandidaten aus der gleichen Genfamilie geliefert, dessen Funktion und Kompensationsvermögen nun in weiteren Tests zu untersuchen ist. Die Arbeit hat gezeigt, dass der Einsatz der Microarray-Technologie zur Untersuchung von Genexpressionsdaten bei Ionenkanalfamilien geeignet ist. Das Fundament der Microarrayanalyse von Kaliumkanälen mit einem individuell entwickelten Microarray ist zum einen das Wissen um Genetik und Funktion der Kaliumkanäle und zum anderen die Technologie, die eine solche Analyse möglich macht. Die Tatsache, dass Säugerorganismen wie Maus und Mensch eine solch hohe Zahl an Kaliumkanälen entwickelt haben und im ständigen Zellstoffwechsel in umfassender Form einsetzen, zeigt die Bedeutung dieser Ionenkanalfamilie und macht die Forschung an diesen Kanälen so interessant und wichtig für die medizinische Grundlagenforschung. Eine Vielzahl von Krankheiten kann schon jetzt direkt oder indirekt auf Gendefekte bei Kaliumkanal-Genen zurückgeführt werden. Mit der Microarray-Analyse steht nun eine Technologie zu Verfügung, die es ermöglicht, die Expression dieser Gene direkt zu untersuchen und mögliche Kompensationsvorgänge aufzudecken. Damit können Zusammenhänge ermittelt werden, die die Grundlage für weitere Forschungen sein können, mit deren Hilfe wir Krankheiten wie Depression eines Tages wirklich verstehen und behandeln können.
Untersuchungen zur Autophagieinduktion in Leishmania major-infizierten Knochenmarksmakrophagen
(2015)
Die von der WHO zu den 17 wichtigsten NTDs gezählte Leishmaniose wird durch intrazelluläre Parasiten der Gattung Leishmania hervorgerufen. Der Lebenszyklus der Parasiten besteht aus zwei Phasen. Die länglichen und beweglichen Promastigoten kennzeichnen die Phase in der Sandmücke – der Vektor der Leishmaniose. Hingegen ist die Phase im Säugerwirt durch runde unbewegliche Amastigoten charakterisiert. Aufgrund des Mangels an potenten antileishmanialen Therapien wurde in der vorliegenden Arbeit die Interaktion zwischen L. m. Parasiten und der Hauptwirtszelle, der Makrophage, v. a. in Hinblick auf autophage Prozesse in den infizierten Makrophagen näher untersucht, um demgemäß neue Erkenntnisse zu gewinnen, welche bei der Herstellung zukünftiger anti-leishmanialer Medikamente helfen könnten.
Bei der Autophagie handelt es sich um einen katabolen Prozess, wodurch Zellen bei Nahrungsmangel oder zellulärem Stress ihre Homöostase erhalten können. Durch diesen Prozess können überflüssige oder beschädigte Organellen recycelt werden, um die Funktionen der Zelle aufrechtzuerhalten. Daneben übernimmt Autophagie auch eine essenzielle Rolle bei der Abwehr von ins Zytosol eindringenden Pathogenen.
Mittels des neu etablierten totalen Autophagiescore konnte festgestellt werden, dass Autophagie in L. m.-infizierten BMDM induziert wird. Die intrazellulären Amastigoten werden durch Autophagie in den BMDM verdaut. Die erhöhte autophage Aktivität konnte zudem durch Western-Blot-Analysen der autophagierelevanten Proteine ATG5, LC3B und UB bestätigt werden. Die molekulargenetischen Untersuchungen von L. m.-infizier-ten BMDM mithilfe von Affymetrix Microarrays führten zu einem Netzwerk aus autophagierelevanten und infektionsspezifischen Genen, welches als LISA bezeichnet worden ist. Hier hat sich ebenfalls eine starke Verknüpfung von autophagierelevanten Genen und den Genen der Glykolyse, einem zweiten katabolen Prozess, gezeigt. Zudem konnten zwei weitere autophagierelevante und infektionsspezifische Gene außerhalb von LISA identifiziert werden, nämlich Bnip3 und Ctse, welche im Anschluss genauer untersucht worden sind. Bei beiden Genen konnte auf Proteinebene gezeigt werden, dass sie in L. m.-infizierten BMDM signifikant erhöht sind. Durch siRNA-Analysen konnte überdies beobachtet werden, dass beide für die erfolgreiche Elimination der Amastigoten essenziell sind.
Somit konnte mit den Proteinen BNIP3 und CTSE zwei potenzielle neue Ansatzpunkte für mögliche zukünftige antileishmaniale Therapien gefunden werden. Auch die in LISA enthaltenen Gene stellen prinzipiell vielversprechende Ziele für künftige Medikamente gegen Leishmaniose dar. Durch all diese Untersuchungen kommt man dem Ziel einer neuen, gezielten und nebenwirkungsärmeren Behandlung der Leishmaniose einen Schritt näher.
Recent progresses and developments in molecular biology provide a wealth of new but insufficiently characterised data. This fund comprises amongst others biological data of genomic DNA, protein sequences, 3-dimensional protein structures as well as profiles of gene expression. In the present work, this information is used to develop new methods for the characterisation and classification of organisms and whole groups of organisms as well as to enhance the automated gain and transfer of information. The first two presented approaches (chapters 4 und 5) focus on the medically and scientifically important enterobacteria. Its impact in medicine and molecular biology is founded in versatile mechanisms of infection, their fundamental function as a commensal inhabitant of the intestinal tract and their use as model organisms as they are easy to cultivate. Despite many studies on single pathogroups with clinical distinguishable pathologies, the genotypic factors that contribute to their diversity are still partially unknown. The comprehensive genome comparison described in Chapter 4 was conducted with numerous enterobacterial strains, which cover nearly the whole range of clinically relevant diversity. The genome comparison constitutes the basis of a characterisation of the enterobacterial gene pool, of a reconstruction of evolutionary processes and of comprehensive analysis of specific protein families in enterobacterial subgroups. Correspondence analysis, which is applied for the first time in this context, yields qualitative statements to bacterial subgroups and the respective, exclusively present protein families. Specific protein families were identified for the three major subgroups of enterobacteria namely the genera Yersinia and Salmonella as well as to the group of Shigella and E. coli by applying statistical tests. In conclusion, the genome comparison-based methods provide new starting points to infer specific genotypic traits of bacterial groups from the transfer of functional annotation. Due to the high medical importance of enterobacterial isolates their classification according to pathogenicity has been in focus of many studies. The microarray technology offers a fast, reproducible and standardisable means of bacterial typing and has been proved in bacterial diagnostics, risk assessment and surveillance. The design of the diagnostic microarray of enterobacteria described in chapter 5 is based on the availability of numerous enterobacterial genome sequences. A novel probe selection strategy based on the highly efficient algorithm of string search, which considers both coding and non-coding regions of genomic DNA, enhances pathogroup detection. This principle reduces the risk of incorrect typing due to restrictions to virulence-associated capture probes. Additional capture probes extend the spectrum of applications of the microarray to simultaneous diagnostic or surveillance of antimicrobial resistance. Comprehensive test hybridisations largely confirm the reliability of the selected capture probes and its ability to robustly classify enterobacterial strains according to pathogenicity. Moreover, the tests constitute the basis of the training of a regression model for the classification of pathogroups and hybridised amounts of DNA. The regression model features a continuous learning capacity leading to an enhancement of the prediction accuracy in the process of its application. A fraction of the capture probes represents intergenic DNA and hence confirms the relevance of the underlying strategy. Interestingly, a large part of the capture probes represents poorly annotated genes suggesting the existence of yet unconsidered factors with importance to the formation of respective virulence phenotypes. Another major field of microarray applications is gene expression analysis. The size of gene expression databases rapidly increased in recent years. Although they provide a wealth of expression data, it remains challenging to integrate results from different studies. In chapter 6 the methodology of an unsupervised meta-analysis of genome-wide A. thaliana gene expression data sets is presented, which yields novel insights in function and regulation of genes. The application of kernel-based principal component analysis in combination with hierarchical clustering identified three major groups of contrasts each sharing overlapping expression profiles. Genes associated with two groups are known to play important roles in Indol-3 acetic acid (IAA) mediated plant growth and development as well as in pathogen defence. Yet uncharacterised serine-threonine kinases could be assigned to novel functions in pathogen defence by meta-analysis. In general, hidden interrelation between genes regulated under different conditions could be unravelled by the described approach. HMMs are applied to the functional characterisation of proteins or the detection of genes in genome sequences. Although HMMs are technically mature and widely applied in computational biology, I demonstrate the methodical optimisation with respect to the modelling accuracy on biological data with various distributions of sequence lengths. The subunits of these models, the states, are associated with a certain holding time being the link to length distributions of represented sequences. An adaptation of simple HMM topologies to bell-shaped length distributions described in chapter 7 was achieved by serial chain-linking of single states, while residing in the class of conventional HMMs. The impact of an optimisation of HMM topologies was underlined by performance evaluations with differently adjusted HMM topologies. In summary, a general methodology was introduced to improve the modelling behaviour of HMMs by topological optimisation with maximum likelihood and a fast and easily implementable moment estimator. Chapter 8 describes the application of HMMs to the prediction of interaction sites in protein domains. As previously demonstrated, these sites are not trivial to predict because of varying degree in conservation of their location and type within the domain family. The prediction of interaction sites in protein domains is achieved by a newly defined HMM topology, which incorporates both sequence and structure information. Posterior decoding is applied to the prediction of interaction sites providing additional information of the probability of an interaction for all sequence positions. The implementation of interaction profile HMMs (ipHMMs) is based on the well established profile HMMs and inherits its known efficiency and sensitivity. The large-scale prediction of interaction sites by ipHMMs explained protein dysfunctions caused by mutations that are associated to inheritable diseases like different types of cancer or muscular dystrophy. As already demonstrated by profile HMMs, the ipHMMs are suitable for large-scale applications. Overall, the HMM-based method enhances the prediction quality of interaction sites and improves the understanding of the molecular background of inheritable diseases. With respect to current and future requirements I provide large-scale solutions for the characterisation of biological data in this work. All described methods feature a highly portable character, which allows for the transfer to related topics or organisms, respectively. Special emphasis was put on the knowledge transfer facilitated by a steadily increasing wealth of biological information. The applied and developed statistical methods largely provide learning capacities and hence benefit from the gain of knowledge resulting in increased prediction accuracies and reliability.
Das Gram negative Bakterium Neisseria meningitidis ist weltweit ein bedeutender Erreger der bakteriellen Meningitis. Obwohl das ausschließlich humanpathogene Bakterium in bis zu 25% der Europäischen Bevölkerung die oberen Atemwege als harmloser Kommensale besiedelt, kommt es unter bestimmten, noch nicht ganz verstandenen Bedingungen zu einer klinisch manifesten Infektion. In dieser Arbeit wurde die neue Technologie der DNA Mikroarray Technologie für die Untersuchung des Transkriptoms bei Neisseria meningitidis etabliert. Untersucht wurde die Reaktion von N. meningitidis auf einen Hitzeschock, eine plötzliche Steigerung der Temperatur. Während einer Infektion wird das Bakterium durch induziertes Fieber sehr ähnlichen Bedingungen ausgesetzt. Im Ergebnis erlaubten die RNA Expressionsanalysen nicht nur eine sichere Unterscheidung deregulierter Gene von Genen mit konstanter Expression, sondern es konnte auch das Ausmaß der Deregulation exakt bestimmt werden. Die Daten der DNA Mikroarray Experimente wurden mit der etablierten Technik der RT-PCR exakt bestätigt. Bei den Hitzeschock-Versuchen mit Neisseria meningitidis konnten zahlreiche ORFs als Hitzeschock-Gene identifiziert werden. Die Funktion dieser Gene, darunter groEL/groES und dnaJ/dnaK, war bereits bei anderen Organismen beschrieben worden, was die Qualität und Reproduzierbarkeit der Ergebnisse unterstreicht. Es konnte gezeigt werden, dass die Intensität des Hitzeschocks und damit die Deregulation der Hitzeschock-Gene mit steigender Temperatur zunimmt. Eine Erklärung für dieses interessante Ergebnis wäre, dass mit Steigerung der Temperatur der Schaden im Bakterium zunimmt und dadurch auch mehr Hitzeschock Proteine zur Reparatur benötigt werden. Daneben wurde erstmals die transkriptionelle Beeinflussung von Genen aus dem Bereich der Transformation durch einen Hitzeschock gefunden. Diese Daten konnten durch einen phänotypischen Nachweis der Verminderung der Transformationsaktivität von Meningokokken nach einem Hitzeschock bestätigt werden. Diese neue Technik wird eine der Schlüsseltechnologien für die Forschung in der postgenomischen Ära sein. Viele Fragen in dem noch lückenhaften Wissen über die Pathologie von Neisseria meningitidis sollen sich in Zukunft mit Hilfe der DNA Mikroarrays beantworten lassen.
Der Notch Signalweg spielt während der Embryonalentwicklung eine zentrale Rolle in der Spezifizierung des Zellschicksales, der Proliferation und der Kommunikation benachbarter Zellen. Die Hey bHLH Transkriptionsfaktoren sind Zielgene des Notch-Signalweges und besitzen wichtige Funktionen in der kardiovaskulären Entwicklung. Hey2 Knockout (KO) Mäuse und Hey1/HeyL Doppelknockout-Mäuse (DKO) sind gekennzeichnet durch eine fehlerhafte Ausbildung der Herzscheidewand und der Herzklappen und durch eine unzureichende Differenzierung während der Blutgefäßentwicklung. Ziel dieser Arbeit war es, neue Zielgene der Hey Proteine zu finden, um ihre Funktion in der Organentwicklung und die Ausprägung der Hey KO Maus-Phänotypen besser verstehen zu können. Dazu wurde als Methode eine Kombination aus Microarray-Analyse und Chromatinimmunpräzipitation (ChIP) gewählt, um gleichzeitig einen Überblick über die regulierten Zielgene und der direkt gebundenen Promotoren zu gewinnen. Als Zellkulturmodell wurden HEK293-Zellen genutzt, die doxyzyklin-induzierbar Flag-markiertes Hey1, bzw. Hey2 Protein überexprimieren. Eine Microarray-Analyse nach Überexpression von Hey1, bzw. Hey2 ergab insgesamt ca. 100 bis zu 5-fach herunterregulierte Zielgene und nur für Hey2 15 Gene, die stärker als 2-fach hochreguliert waren. Eine ChIP mit αFlag-Antikörper zeigte eine direkte DNA-Bindung von Hey1, bzw. Hey2, im proximalen Promotorbereich von 4 herunterregulierten Zielgenen (HEY1, BMP2, KLF10 und FOXC1). Ist jedoch die DNA-bindende basische Domäne des Hey1-Proteins deletiert, bzw. durch Aminosäureaustausche (3 Arginine zu 3 Lysine) vermutlich nicht mehr DNA-bindend, kann eine Herunterregulation der Zielgene nach Überexpression der Hey1-Mutanten nicht mehr festgestellt werden. Ebenso kann eine Bindung der Hey1-Mutanten an die ausgewählten Promotoren von HEY1, BMP2, KLF10 oder FOXC1 mit ChIP nicht mehr nachgewiesen werden. Dies deutet darauf hin, dass die basische Domäne essentiell für die DNA-Bindung und für die Funktion der Hey Proteine ist. Mit ChIP-PET und anschließender Hochdurchsatz-Sequenzierung wurde ein genomweiter Screen der Hey1- und der Hey2-Bindungsstellen in HEK293-Zellen durchgeführt. Für Hey1 wurden 1453 Zielgene, für Hey2 4288 Zielgene bestimmt, wobei 1147 Gene gemeinsame Zielgene von Hey1 und Hey2 waren. Obwohl die Bindungsstellen in 5'- und 3'-Richtung von kodierenden Sequenzen und auch in Exons und Introns lokalisiert waren, waren 55 %, bzw. 49 % aller Bindungsstellen für Hey1, bzw. Hey2 im proximalen Promotorbereich von -0,5 kb und im ersten Exon lokalisiert. Eine in silico Analyse des Bindemotivs deutete auf eine repetitive GC-haltige Sequenz hin, die vermutlich in CpG Inseln lokalisiert ist. Diese Ergebnisse weisen auf eine direkte Regulation der Transkriptionsmaschinerie durch die Hey Proteine hin. Ein Vergleich der Zielgene aus den Microarray-Analysen mit den ChIP-PET Daten zeigte einen hohen Anteil an herunterregulierten Genen mit Bindestellen, die direkt von Hey gebunden waren. Während 60 % der herunterregulierten Hey2 Zielgene in der ChIP-PET Analyse eine direkte DNA-Bindung zeigen, weisen nur 20 % der hochregulierten Gene Bindestellen für Hey2 auf. Dies spricht für eine überwiegende Repressorfunktion der Hey Proteine. Um zu überprüfen, inwieweit die Hey Proteine zelltypspezifisch verschiedene Zielgene regulieren, wurden embryonale Stammzellen (ES-Zellen) generiert, die ebenfalls doxyzyklin-induzierbar Hey1, bzw. Hey2 überexprimieren. Diese ES-Zellen konnten effektiv zu Kardiomyozyten differenziert werden, so dass auch in diesen Zellen eine Hey Überexpression induziert und somit eine Genexpressionsanalyse durchgeführt werden konnte. Microarray Analysen der ES-Zellen und Kardiomyozyten ergaben mehr hoch- als herunterregulierte Gene im Vergleich zu HEK293-Zellen. Die Überlappung an gemeinsam regulierten Zielgenen in HEK293, ES-Zellen und Kardiomyozyten war sehr gering. Nur zwei Hey2-Zielgene wurden gleichzeitig in HEK293 und ES-Zellen stärker als 2-fach reguliert (Hes1, Zic2). Diese geringe Überlappung deutet auf ein enges zelltypspezifische Regulationspotential hin. Eine Genontologie-Analyse aller Zielgene zeigte Interaktionen der Hey Proteine mit verschiedenen Signalwegen (z.B. TGFβ-, Id- oder Wnt-Signalweg), die alle unersetzlich in frühen Entwicklungsprozessen sind. Diese Ergebnisse deuten darauf hin, dass die Hey Proteine zelltypspezifisch die Expression von Genen aus verschiedenen Signalwegen beeinflussen und modulieren können. Weiterhin eröffnen diese Daten neue Möglichkeiten für zukünftige Forschung, um die Rolle der Hey Proteine in der frühen Organentwicklung genauer ergründen.