Refine
Has Fulltext
- yes (13)
Is part of the Bibliography
- yes (13)
Document Type
- Doctoral Thesis (12)
- Journal article (1)
Keywords
- Microarray (13) (remove)
Institute
- Theodor-Boveri-Institut für Biowissenschaften (13) (remove)
In initial experiments, the well characterized VACV strain GLV-1h68 and three wild-type LIVP isolates were utilized to analyze gene expression in a pair of autologous human melanoma cell lines (888-MEL and 1936 MEL) after infection. Microarray analyses, followed by sequential statistical approaches, characterized human genes whose transcription is affected specifically by VACV infection. In accordance with the literature, those genes were involved in broad cellular functions, such as cell death, protein synthesis and folding, as well as DNA replication, recombination, and repair. In parallel to host gene expression, viral gene expression was evaluated with help of customized VACV array platforms to get better insight over the interplay between VACV and its host. Our main focus was to compare host and viral early events, since virus genome replication occurs early after infection. We observed that viral transcripts segregated in a characteristic time-specific pattern, consistent with the three temporal expression classes of VACV genes, including a group of genes which could be classified as early-stage genes. In this work, comparison of VACV early replication and respective early gene transcription led to the identification of seven viral genes whose expression correlated strictly with replication. We considered the early expression of those seven genes to be representative for VACV replication and we therefore referred to them as viral replication indicators (VRIs). To explore the relationship between host cell transcription and viral replication, we correlated viral (VRI) and human early gene expression. Correlation analysis revealed a subset of 114 human transcripts whose early expression tightly correlated with early VRI expression and thus early viral replication. These 114 human molecules represented an involvement in broad cellular functions. We found at least six out of 114 correlates to be involved in protein ubiquitination or proteasomal function. Another molecule of interest was the serine-threonine protein kinase WNK lysine-deficient protein kinase 1 (WNK1). We discovered that WNK1 features differences on several molecular biological levels associated with permissiveness to VACV infection. In addition to that, a set of human genes was identified with possible predictive value for viral replication in an independent dataset. A further objective of this work was to explore baseline molecular biological variances associated with permissiveness which could help identifying cellular components that contribute to the formation of a permissive phenotype. Therefore, in a subsequent approach, we screened a set of 15 melanoma cell lines (15-MEL) regarding their permissiveness to GLV-1h68, evaluated by GFP expression levels, and classified the top four and lowest four cell lines into high and low permissive group, respectively. Baseline gene transcriptional data, comparing low and highly permissive group, suggest that differences between the two groups are at least in part due to variances in global cellular functions, such as cell cycle, cell growth and proliferation, as well as cell death and survival. We also observed differences in the ubiquitination pathway, which is consistent with our previous results and underlines the importance of this pathway in VACV replication and permissiveness. Moreover, baseline microRNA (miRNA) expression between low and highly permissive group was considered to provide valuable information regarding virus-host co-existence. In our data set, we identified six miRNAs that featured varying baseline expression between low and highly permissive group. Finally, copy number variations (CNVs) between low and highly permissive group were evaluated. In this study, when investigating differences in the chromosomal aberration patterns between low and highly permissive group, we observed frequent segmental amplifications within the low permissive group, whereas the same regions were mostly unchanged in the high group. Taken together, our results highlight a probable correlation between viral replication, early gene expression, and the respective host response and thus a possible involvement of human host factors in viral early replication. Furthermore, we revealed the importance of cellular baseline composition for permissiveness to VACV infection on different molecular biological levels, including mRNA expression, miRNA expression, as well as copy number variations. The characterization of human target genes that influence viral replication could help answering the question of host cell response to oncolytic virotherapy and provide important information for the development of novel recombinant vaccinia viruses with improved features to enhance replication rate and hence trigger therapeutic outcome.
The IronChip evaluation package: a package of perl modules for robust analysis of custom microarrays
(2010)
Background: Gene expression studies greatly contribute to our understanding of complex relationships in gene regulatory networks. However, the complexity of array design, production and manipulations are limiting factors, affecting data quality. The use of customized DNA microarrays improves overall data quality in many situations, however, only if for these specifically designed microarrays analysis tools are available. Results: The IronChip Evaluation Package (ICEP) is a collection of Perl utilities and an easy to use data evaluation pipeline for the analysis of microarray data with a focus on data quality of custom-designed microarrays. The package has been developed for the statistical and bioinformatical analysis of the custom cDNA microarray IronChip but can be easily adapted for other cDNA or oligonucleotide-based designed microarray platforms. ICEP uses decision tree-based algorithms to assign quality flags and performs robust analysis based on chip design properties regarding multiple repetitions, ratio cut-off, background and negative controls. Conclusions: ICEP is a stand-alone Windows application to obtain optimal data quality from custom-designed microarrays and is freely available here (see “Additional Files” section) and at: http://www.alice-dsl.net/evgeniy. vainshtein/ICEP/
Der Notch Signalweg spielt während der Embryonalentwicklung eine zentrale Rolle in der Spezifizierung des Zellschicksales, der Proliferation und der Kommunikation benachbarter Zellen. Die Hey bHLH Transkriptionsfaktoren sind Zielgene des Notch-Signalweges und besitzen wichtige Funktionen in der kardiovaskulären Entwicklung. Hey2 Knockout (KO) Mäuse und Hey1/HeyL Doppelknockout-Mäuse (DKO) sind gekennzeichnet durch eine fehlerhafte Ausbildung der Herzscheidewand und der Herzklappen und durch eine unzureichende Differenzierung während der Blutgefäßentwicklung. Ziel dieser Arbeit war es, neue Zielgene der Hey Proteine zu finden, um ihre Funktion in der Organentwicklung und die Ausprägung der Hey KO Maus-Phänotypen besser verstehen zu können. Dazu wurde als Methode eine Kombination aus Microarray-Analyse und Chromatinimmunpräzipitation (ChIP) gewählt, um gleichzeitig einen Überblick über die regulierten Zielgene und der direkt gebundenen Promotoren zu gewinnen. Als Zellkulturmodell wurden HEK293-Zellen genutzt, die doxyzyklin-induzierbar Flag-markiertes Hey1, bzw. Hey2 Protein überexprimieren. Eine Microarray-Analyse nach Überexpression von Hey1, bzw. Hey2 ergab insgesamt ca. 100 bis zu 5-fach herunterregulierte Zielgene und nur für Hey2 15 Gene, die stärker als 2-fach hochreguliert waren. Eine ChIP mit αFlag-Antikörper zeigte eine direkte DNA-Bindung von Hey1, bzw. Hey2, im proximalen Promotorbereich von 4 herunterregulierten Zielgenen (HEY1, BMP2, KLF10 und FOXC1). Ist jedoch die DNA-bindende basische Domäne des Hey1-Proteins deletiert, bzw. durch Aminosäureaustausche (3 Arginine zu 3 Lysine) vermutlich nicht mehr DNA-bindend, kann eine Herunterregulation der Zielgene nach Überexpression der Hey1-Mutanten nicht mehr festgestellt werden. Ebenso kann eine Bindung der Hey1-Mutanten an die ausgewählten Promotoren von HEY1, BMP2, KLF10 oder FOXC1 mit ChIP nicht mehr nachgewiesen werden. Dies deutet darauf hin, dass die basische Domäne essentiell für die DNA-Bindung und für die Funktion der Hey Proteine ist. Mit ChIP-PET und anschließender Hochdurchsatz-Sequenzierung wurde ein genomweiter Screen der Hey1- und der Hey2-Bindungsstellen in HEK293-Zellen durchgeführt. Für Hey1 wurden 1453 Zielgene, für Hey2 4288 Zielgene bestimmt, wobei 1147 Gene gemeinsame Zielgene von Hey1 und Hey2 waren. Obwohl die Bindungsstellen in 5'- und 3'-Richtung von kodierenden Sequenzen und auch in Exons und Introns lokalisiert waren, waren 55 %, bzw. 49 % aller Bindungsstellen für Hey1, bzw. Hey2 im proximalen Promotorbereich von -0,5 kb und im ersten Exon lokalisiert. Eine in silico Analyse des Bindemotivs deutete auf eine repetitive GC-haltige Sequenz hin, die vermutlich in CpG Inseln lokalisiert ist. Diese Ergebnisse weisen auf eine direkte Regulation der Transkriptionsmaschinerie durch die Hey Proteine hin. Ein Vergleich der Zielgene aus den Microarray-Analysen mit den ChIP-PET Daten zeigte einen hohen Anteil an herunterregulierten Genen mit Bindestellen, die direkt von Hey gebunden waren. Während 60 % der herunterregulierten Hey2 Zielgene in der ChIP-PET Analyse eine direkte DNA-Bindung zeigen, weisen nur 20 % der hochregulierten Gene Bindestellen für Hey2 auf. Dies spricht für eine überwiegende Repressorfunktion der Hey Proteine. Um zu überprüfen, inwieweit die Hey Proteine zelltypspezifisch verschiedene Zielgene regulieren, wurden embryonale Stammzellen (ES-Zellen) generiert, die ebenfalls doxyzyklin-induzierbar Hey1, bzw. Hey2 überexprimieren. Diese ES-Zellen konnten effektiv zu Kardiomyozyten differenziert werden, so dass auch in diesen Zellen eine Hey Überexpression induziert und somit eine Genexpressionsanalyse durchgeführt werden konnte. Microarray Analysen der ES-Zellen und Kardiomyozyten ergaben mehr hoch- als herunterregulierte Gene im Vergleich zu HEK293-Zellen. Die Überlappung an gemeinsam regulierten Zielgenen in HEK293, ES-Zellen und Kardiomyozyten war sehr gering. Nur zwei Hey2-Zielgene wurden gleichzeitig in HEK293 und ES-Zellen stärker als 2-fach reguliert (Hes1, Zic2). Diese geringe Überlappung deutet auf ein enges zelltypspezifische Regulationspotential hin. Eine Genontologie-Analyse aller Zielgene zeigte Interaktionen der Hey Proteine mit verschiedenen Signalwegen (z.B. TGFβ-, Id- oder Wnt-Signalweg), die alle unersetzlich in frühen Entwicklungsprozessen sind. Diese Ergebnisse deuten darauf hin, dass die Hey Proteine zelltypspezifisch die Expression von Genen aus verschiedenen Signalwegen beeinflussen und modulieren können. Weiterhin eröffnen diese Daten neue Möglichkeiten für zukünftige Forschung, um die Rolle der Hey Proteine in der frühen Organentwicklung genauer ergründen.
Die Gattung Bordetella, die phylogenetisch in die Gruppe der β-Proteobakterien eingeordnet und zur Familie der Alcaligenaceae gezählt wird, umfasst nach heutigem Wissenstand neun Gram-negative Arten. Die klassischen Bordetella-Arten B. pertussis, B. parapertussis und B. bronchiseptica werden im sogenannten B. bronchiseptica-Cluster zusammengefasst. Der strikt humanpathogene Erreger B. pertussis stellt als Verursacher des Keuchhustens das wohl bedeutendste Mitglied der Gattung dar. B. parapertussis ist der Verursacher von respiratorischen Erkrankungen in Menschen und Schafen, während B. bronchiseptica für Atemwegserkrankungen in verschiedenen Säugetieren verantwortlich gemacht wird. Zudem kann B. bronchiseptica für einen längeren Zeitraum in der Umwelt überleben. Die in den letzte Jahren identifizierten „neuen“ Bordetella-Arten, B. avium, B. hinzii, B. holmesii, B. trematum und B. ansorpii, wurden alle human- oder tierassoziiert isoliert und besitzen unterschiedliches pathogenes Potential, das zum Teil noch näher untersucht werden muss. Eine Ausnahme stellt der aus einer anaeroben dechlorinierten Flusssediment-Anreicherungskultur isolierte Keim B. petrii dar. Dieser ist bis zum heutigen Zeitpunkt der einzige Umweltkeim der Gattung Bordetella (von Wintzingerode, Schattke et al. 2001). In evolutionärer Hinsicht ist B. petrii besonders interessant, da er sowohl für orthologe Gene einiger Virulenzfaktoren der pathogenen Bordetellen kodiert, als auch die typischen Eigenschaften eines Umweltkeims aufweist und somit als Bindeglied zu fungieren scheint. Ein solcher Virulenzfaktor ist das BvgAS-System, das in den pathogenen Bordetellen den Hauptregulator der Virulenzgenexpression darstellt, aber in B. petrii strukturell komplexer aufgebaut ist. Neben dem auf Aminosäureebene hoch konservierten Response Regulator bvgA, finden sich in B. petrii Gene für zwei Histidinkinasen, bvgS1 und bvgS2, sowie eine unabhängige hpt-Domäne. Eine periplasmatische Sensordomäne fehlt in beiden Kinasen, und nur in BvgS1 konnte eine PAS-Domäne identifiziert werden. In den letzten Jahren wurden zunehmend B. petrii-Isolate aus den verschiedensten Habitaten isoliert, wie z.B. das Schwammisolate R521 (Sfanos, Harmody et al. 2005) und das klinisches Isolat aus einem Patienten mit mandibulärer Osteomyelitis (Fry, Duncan et al. 2005). Im Rahmen dieser Arbeit wurde über einen PCR-Ansatz versucht, mit aus der Wildtypsequenz abgeleiteten Oligonukleotiden das BvgAS1,2-System der Isolate zu sequenzieren, aber nur im klinischen Isolat konnte ein orthologes Genfragment zum Response Regulator bvgA identifiziert werden. Ein Nachweis der Histidinkinasen sowie der hpt-Domäne schlug in allen untersuchten Isolaten fehl. Die vergleichenden Genomanalysen mittels DNA-Microarrays konnten aufgrund fehlender Hybridisierungen keine weiteren Gemeinsamkeiten und Unterschiede auf DNA-Ebene zwischen den Isolaten und B. petrii DSM 12804 aufzeigen. B. petrii ist ein hoch variabler Umweltkeim, der sich an verschiedene Lebensbedingungen anpassen kann. Dies konnte auch durch die Isolation dreier phänotypisch unterscheidbare Varianten während eines Langzeitwachstumsversuches gezeigt werden (Lechner 2008). Durch die Genomsequenzierung von B. petrii DSM 12804 konnten wenigsten sieben genomischen Inseln beschrieben werden (Gross, Guzman et al. 2008), die durch unterschiedliche Exzision für die Entstehung der Varianten und daraus resultierend für die Variabilität in B. petrii verantwortlich sind. Im Rahmen dieser Arbeit konnte die Größe der einzelnen genomischen Inseln im Genom von B. petrii durch vergleichende Genomanalysen mittels DNA-Microarrays, mit Ausnahme von GI1, GI5 und GI6, im Vergleich zu den bioinformatischen Vorhersagen bestätigt werden. Diese Inseln zeigten in den Microarray-Analysen eine Vergrößerung bzw. Verkleinerung im Vergleich zu den zuvor beschrieben putativen Grenzen. Die große Instabilität des Genoms von B. petrii DSM 12804 konnte in dieser Arbeit auch durch Microarray-Analysen einzelner Klone aufgezeigt werden, die unterschiedliche Variationen im Bereich der genomischen Inseln aufwiesen. In den Analysen von B. petrii 12804 ΔbvgA bzw. ΔbvgAS konnten zusätzlich zu den gezielten Manipulation im BvgAS1,2-Lokus weitere Deletionen im Bereich von bpet0196-0200, bpet4219-4235 und bpet4176 detektiert werden. Die Re-Integration dieser Genbereiche nach Klonierung einer BvgA-Komplementationsmutante deutet auf eine extrachromosomale plasmid-ähnliche Struktur dieser Bereiche hin. Dies konnte im Rahmen dieser Arbeit nicht abschließend bestätigt werden und bleibt weiter zu untersuchen. Im Verlauf der evolutionären Entwicklung der Bordetellen wurde das BvgAS-System, das ursprünglich für die Adaption an Umweltbedingungen mit verschiedenen Sauerstoff-konzentrationen und/oder Temperaturen zuständig war, mit der Regulation der Expression der Virulenzgene verknüpft (von Wintzingerode, Gerlach et al. 2002). In den Transkriptomanalysen zur Untersuchung der Funktionalität des BvgAS1,2-Systems in B. petrii konnte aufgezeigt werden, dass die Temperatur ein wichtiger Signalgeber für die Expression des Flagellen- und Chemotaxisoperons ist. In B. bronchiseptica wird die Motilität, bei Temperaturen unter 25°C, negativ durch das BvgAS-System reguliert. Auch in B. petrii konnte in den Untersuchungen eine negative Regulation der Flagellen- und Chemotaxisgene durch das BvgAS1,2-System unter diesen Bedingungen detektiert werden. Ob aber in B. petrii die gleiche hierarchische Struktur zur Regulation der Motilität besteht wie in B. bronchiseptica, bleibt zu untersuchen. Im Verlauf der Untersuchungen konnte dem BvgAS-Zwei-Komponentensystem in B. petrii auch eine Funktion im Energiestoffwechsel eingeräumt werden, um auf wechselnde Sauerstoffbedingungen reagieren zu können. Die Messung des Sauerstoffgehaltes der Umgebung und damit eine Regulation der aeroben bzw. anaeroben Atmung erfolgt in B. petrii wahrscheinlich ebenfalls über das BvgAS1,2-System. Die in der Histidinkinase BvgS1 vorhergesagte PAS-Domäne scheint laut den Analysen für diesen Vorgang von großer Bedeutung zu sein. Desweiteren scheint das System auch die Zusammensetzung der Cytochromoxidase zur optimalen Anpassung an aerobe, mikroaerophile und anaerobe Bedingungen zu regulieren.
Applying microarray‐based techniques to study gene expression patterns: a bio‐computational approach
(2010)
The regulation and maintenance of iron homeostasis is critical to human health. As a constituent of hemoglobin, iron is essential for oxygen transport and significant iron deficiency leads to anemia. Eukaryotic cells require iron for survival and proliferation. Iron is part of hemoproteins, iron-sulfur (Fe-S) proteins, and other proteins with functional groups that require iron as a cofactor. At the cellular level, iron uptake, utilization, storage, and export are regulated at different molecular levels (transcriptional, mRNA stability, translational, and posttranslational). Iron regulatory proteins (IRPs) 1 and 2 post-transcriptionally control mammalian iron homeostasis by binding to iron-responsive elements (IREs), conserved RNA stem-loop structures located in the 5’- or 3‘- untranslated regions of genes involved in iron metabolism (e.g. FTH1, FTL, and TFRC). To identify novel IRE-containing mRNAs, we integrated biochemical, biocomputational, and microarray-based experimental approaches. Gene expression studies greatly contribute to our understanding of complex relationships in gene regulatory networks. However, the complexity of array design, production and manipulations are limiting factors, affecting data quality. The use of customized DNA microarrays improves overall data quality in many situations, however, only if for these specifically designed microarrays analysis tools are available. Methods In this project response to the iron treatment was examined under different conditions using bioinformatical methods. This would improve our understanding of an iron regulatory network. For these purposes we used microarray gene expression data. To identify novel IRE-containing mRNAs biochemical, biocomputational, and microarray-based experimental approaches were integrated. IRP/IRE messenger ribonucleoproteins were immunoselected and their mRNA composition was analysed using an IronChip microarray enriched for genes predicted computationally to contain IRE-like motifs. Analysis of IronChip microarray data requires specialized tool which can use all advantages of a customized microarray platform. Novel decision-tree based algorithm was implemented using Perl in IronChip Evaluation Package (ICEP). Results IRE-like motifs were identified from genomic nucleic acid databases by an algorithm combining primary nucleic acid sequence and RNA structural criteria. Depending on the choice of constraining criteria, such computational screens tend to generate a large number of false positives. To refine the search and reduce the number of false positive hits, additional constraints were introduced. The refined screen yielded 15 IRE-like motifs. A second approach made use of a reported list of 230 IRE-like sequences obtained from screening UTR databases. We selected 6 out of these 230 entries based on the ability of the lower IRE stem to form at least 6 out of 7 bp. Corresponding ESTs were spotted onto the human or mouse versions of the IronChip and the results were analysed using ICEP. Our data show that the immunoselection/microarray strategy is a feasible approach for screening bioinformatically predicted IRE genes and the detection of novel IRE-containing mRNAs. In addition, we identified a novel IRE-containing gene CDC14A (Sanchez M, et al. 2006). The IronChip Evaluation Package (ICEP) is a collection of Perl utilities and an easy to use data evaluation pipeline for the analysis of microarray data with a focus on data quality of custom-designed microarrays. The package has been developed for the statistical and bioinformatical analysis of the custom cDNA microarray IronChip, but can be easily adapted for other cDNA or oligonucleotide-based designed microarray platforms. ICEP uses decision tree-based algorithms to assign quality flags and performs robust analysis based on chip design properties regarding multiple repetitions, ratio cut-off, background and negative controls (Vainshtein Y, et al., 2010).
Recent progresses and developments in molecular biology provide a wealth of new but insufficiently characterised data. This fund comprises amongst others biological data of genomic DNA, protein sequences, 3-dimensional protein structures as well as profiles of gene expression. In the present work, this information is used to develop new methods for the characterisation and classification of organisms and whole groups of organisms as well as to enhance the automated gain and transfer of information. The first two presented approaches (chapters 4 und 5) focus on the medically and scientifically important enterobacteria. Its impact in medicine and molecular biology is founded in versatile mechanisms of infection, their fundamental function as a commensal inhabitant of the intestinal tract and their use as model organisms as they are easy to cultivate. Despite many studies on single pathogroups with clinical distinguishable pathologies, the genotypic factors that contribute to their diversity are still partially unknown. The comprehensive genome comparison described in Chapter 4 was conducted with numerous enterobacterial strains, which cover nearly the whole range of clinically relevant diversity. The genome comparison constitutes the basis of a characterisation of the enterobacterial gene pool, of a reconstruction of evolutionary processes and of comprehensive analysis of specific protein families in enterobacterial subgroups. Correspondence analysis, which is applied for the first time in this context, yields qualitative statements to bacterial subgroups and the respective, exclusively present protein families. Specific protein families were identified for the three major subgroups of enterobacteria namely the genera Yersinia and Salmonella as well as to the group of Shigella and E. coli by applying statistical tests. In conclusion, the genome comparison-based methods provide new starting points to infer specific genotypic traits of bacterial groups from the transfer of functional annotation. Due to the high medical importance of enterobacterial isolates their classification according to pathogenicity has been in focus of many studies. The microarray technology offers a fast, reproducible and standardisable means of bacterial typing and has been proved in bacterial diagnostics, risk assessment and surveillance. The design of the diagnostic microarray of enterobacteria described in chapter 5 is based on the availability of numerous enterobacterial genome sequences. A novel probe selection strategy based on the highly efficient algorithm of string search, which considers both coding and non-coding regions of genomic DNA, enhances pathogroup detection. This principle reduces the risk of incorrect typing due to restrictions to virulence-associated capture probes. Additional capture probes extend the spectrum of applications of the microarray to simultaneous diagnostic or surveillance of antimicrobial resistance. Comprehensive test hybridisations largely confirm the reliability of the selected capture probes and its ability to robustly classify enterobacterial strains according to pathogenicity. Moreover, the tests constitute the basis of the training of a regression model for the classification of pathogroups and hybridised amounts of DNA. The regression model features a continuous learning capacity leading to an enhancement of the prediction accuracy in the process of its application. A fraction of the capture probes represents intergenic DNA and hence confirms the relevance of the underlying strategy. Interestingly, a large part of the capture probes represents poorly annotated genes suggesting the existence of yet unconsidered factors with importance to the formation of respective virulence phenotypes. Another major field of microarray applications is gene expression analysis. The size of gene expression databases rapidly increased in recent years. Although they provide a wealth of expression data, it remains challenging to integrate results from different studies. In chapter 6 the methodology of an unsupervised meta-analysis of genome-wide A. thaliana gene expression data sets is presented, which yields novel insights in function and regulation of genes. The application of kernel-based principal component analysis in combination with hierarchical clustering identified three major groups of contrasts each sharing overlapping expression profiles. Genes associated with two groups are known to play important roles in Indol-3 acetic acid (IAA) mediated plant growth and development as well as in pathogen defence. Yet uncharacterised serine-threonine kinases could be assigned to novel functions in pathogen defence by meta-analysis. In general, hidden interrelation between genes regulated under different conditions could be unravelled by the described approach. HMMs are applied to the functional characterisation of proteins or the detection of genes in genome sequences. Although HMMs are technically mature and widely applied in computational biology, I demonstrate the methodical optimisation with respect to the modelling accuracy on biological data with various distributions of sequence lengths. The subunits of these models, the states, are associated with a certain holding time being the link to length distributions of represented sequences. An adaptation of simple HMM topologies to bell-shaped length distributions described in chapter 7 was achieved by serial chain-linking of single states, while residing in the class of conventional HMMs. The impact of an optimisation of HMM topologies was underlined by performance evaluations with differently adjusted HMM topologies. In summary, a general methodology was introduced to improve the modelling behaviour of HMMs by topological optimisation with maximum likelihood and a fast and easily implementable moment estimator. Chapter 8 describes the application of HMMs to the prediction of interaction sites in protein domains. As previously demonstrated, these sites are not trivial to predict because of varying degree in conservation of their location and type within the domain family. The prediction of interaction sites in protein domains is achieved by a newly defined HMM topology, which incorporates both sequence and structure information. Posterior decoding is applied to the prediction of interaction sites providing additional information of the probability of an interaction for all sequence positions. The implementation of interaction profile HMMs (ipHMMs) is based on the well established profile HMMs and inherits its known efficiency and sensitivity. The large-scale prediction of interaction sites by ipHMMs explained protein dysfunctions caused by mutations that are associated to inheritable diseases like different types of cancer or muscular dystrophy. As already demonstrated by profile HMMs, the ipHMMs are suitable for large-scale applications. Overall, the HMM-based method enhances the prediction quality of interaction sites and improves the understanding of the molecular background of inheritable diseases. With respect to current and future requirements I provide large-scale solutions for the characterisation of biological data in this work. All described methods feature a highly portable character, which allows for the transfer to related topics or organisms, respectively. Special emphasis was put on the knowledge transfer facilitated by a steadily increasing wealth of biological information. The applied and developed statistical methods largely provide learning capacities and hence benefit from the gain of knowledge resulting in increased prediction accuracies and reliability.
In this thesis, the development of a phylogenetic DNA microarray, the analysis of several gene expression microarray datasets and new approaches for improved data analysis and interpretation are described. In the first publication, the development and analysis of a phylogenetic microarray is presented. I could show that species detection with phylogenetic DNA microarrays can be significantly improved when the microarray data is analyzed with a linear regression modeling approach. Standard methods have so far relied on pure signal intensities of the array spots and a simple cutoff criterion was applied to call a species present or absent. This procedure is not applicable to very closely related species with high sequence similarity because cross-hybridization of non-target DNA renders species detection impossible based on signal intensities alone. By modeling hybridization and cross-hybridization with linear regression, as I have presented in this thesis, even species with a sequence similarity of 97% in the marker gene can be detected and distinguished from related species. Another advantage of the modeling approach over existing methods is that the model also performs well on mixtures of different species. In principle, also quantitative predictions can be made. To make better use of the large amounts of microarray data stored in public databases, meta-analysis approaches need to be developed. In the second publication, an explorative meta-analysis exemplified on Arabidopsis thaliana gene expression datasets is presented. Integrating datasets studying effects such as the influence of plant hormones, pathogens and different mutations on gene expression levels, clusters of similarly treated datasets could be found. From the clusters of pathogen-treated and indole-3-acetic acid (IAA) treated datasets, representative genes were selected which pointed to functions which had been associated with pathogen attack or IAA effects previously. Additionally, hypotheses about the functions of so far uncharacterized genes could be set up. Thus, this kind of meta-analysis could be used to propose gene functions and their regulation under different conditions. In this work, also primary data analysis of Arabidopsis thaliana datasets is presented. In the third publication, an experiment which was conducted to find out if microwave irradiation has an effect on the gene expression of a plant cell culture is described. During the first steps, the data analysis was carried out blinded and exploratory analysis methods were applied to find out if the irradiation had an effect on gene expression of plant cells. Small but statistically significant changes in a few genes were found and could be experimentally confirmed. From the functions of the regulated genes and a meta-analysis with publicly available microarray data, it could be suspected that the plant cell culture somehow perceived the irradiation as energy, similar to perceiving light rays. The fourth publication describes the functional analysis of another Arabidopsis thaliana gene expression dataset. The gene expression data of the plant tumor dataset pointed to a switch from a mainly aerobic, auxotrophic to an anaerobic and heterotrophic metabolism in the plant tumor. Genes involved in photosynthesis were found to be repressed in tumors; genes of amino acid and lipid metabolism, cell wall and solute transporters were regulated in a way that sustains tumor growth and development. Furthermore, in the fifth publication, GEPAT (Genome Expression Pathway Analysis Tool), a tool for the analysis and integration of microarray data with other data types, is described. It consists of a web application and database which allows comfortable data upload and data analysis. In later chapters of this thesis (publication 6 and publication 7), GEPAT is used to analyze human microarray datasets and to integrate results from gene expression analysis with other datatypes. Gene expression and comparative genomic hybridization data from 71 Mantle Cell Lymphoma (MCL) patients was analyzed and allowed proposing a seven gene predictor which facilitates survival predictions for patients compared to existing predictors. In this study, it was shown that CGH data can be used for survival predictions. For the dataset of Diffuse Large B-cell lymphoma (DLBCL) patients, an improved survival predictor could be found based on the gene expression data. From the genes differentially expressed between long and short surviving MCL patients as well as for regulated genes of DLBCL patients, interaction networks could be set up. They point to differences in regulation for cell cycle and proliferation genes between patients with good and bad prognosis.
Melanome stellen die gefährlichste Form von Hautkrebs mit der höchsten Mortalitätsrate dar. Der Transformation normaler Melanozyten zu malignen Melanomen liegen komplexe molekulare und biochemische Veränderungen zu Grunde. Im Xiphophorus-Melanom-Modell ist die onkogene Rezeptortyrosinkinase "Xiphophorus melanoma receptor kinase" (Xmrk) der alleinige Auslöser der Melanominitiation und -progression. Die Aufklärung der Xmrk-vermittelten Signaltransduktion kann zum besseren Verständnis von Ereignissen, die auch bei der humanen Melanomentwicklung eine Rolle spielen, beitragen. In der vorliegenden Arbeit wurde mit Hilfe der Microarray-Technologie die Regulation der Genexpression durch Xmrk analysiert. Zu den nach Rezeptoraktivierung am stärksten herabregulierten Genen gehörten "son of sevenless homolog 1" (Sos1) und "ubiquitin-conjugating enzyme E2I" (Ube2i); stark hochreguliert waren "early growth response 1" (Egr1), "cysteine-rich protein 61" (Cyr61), "dual-specificity phosphatase 4" (Dusp4), "fos-like antigen 1" (Fosl1), "epithelial membrane protein" (Emp1), Osteopontin (Opn), "insulin-like growth factor binding protein 3" (Igfbp3) und "tumor-associated antigen L6" (Taal6). Die für die Regulation dieser Gene verantwortlichen Signalwege wurden durch die Anwendung von niedermolekularen Inhibitoren und siRNA identifiziert, wobei für die SRC-Kinase FYN eine zentrale Bedeutung bei der Xmrk-abhängigen Regulation der Genexpression festgestellt wurde. Darüber hinaus wurde die Expression der Gene in humanen Melanomzelllinien im Vergleich zu normalen humanen Melanozyten untersucht. Als besonders vielversprechende Kandidaten stellten sich dabei DUSP4 und TAAL6 heraus, deren Rolle in der humanen Melanominduktion und -progression Gegenstand zukünftiger Studien sein wird. In einem anderen Ansatz zur Aufklärung des Signalnetzwerkes sollten Zielproteine von Xmrk durch Protein-Protein-Interaktionsstudien mit Hilfe des Split-Ubiquitin-Systems ermittelt werden. Aufgrund ungünstiger Expressions- oder Faltungseigenschaften von Xmrk in diesem System war es aber nicht möglich, den Rezeptor als Köderprotein einzusetzen. Das für die Xmrk-vermittelte Melanomentstehung zentrale Protein FYN konnte jedoch als Köder etabliert und seine Wechselwirkung mit der Tyrosinkinase FAK analysiert werden. Es wurde gezeigt, dass der phosphorylierte Tyrosinrest an Position 397 von FAK für die Interaktion einer N-terminal trunkierten FAK-Variante mit FYN notwendig ist und dass diese Phosphorylierung in Hefe gewährleistet zu sein scheint. Die Suche nach neuen Interaktionspartnern von FYN mittels der Split-Ubiquitin-Technologie könnte Einblicke in weitere FYN-abhängige Ereignisse bieten, die zur Aufklärung seiner zentralen Rolle bei der Tumorentstehung dienen könnte.
Immunsupprimierte Patienten besitzen ein erhöhtes Risiko für opportunistische Infektionen, die hauptsächlich durch das humane Cytomegalievirus (HCMV) und den Schimmelpilz Aspergillus fumigatus verursacht werden. Aufgrund ihrer Lokalisation in den Geweben unterhalb von Lungenepithelien und des Gastrointestinaltraktes werden dendritische Zellen (DCs) als diejenigen Zellen betrachtet, die während der frühen Phase einer Infektion in Kontakt mit HCMV und A. fumigatus kommen und eine Aktivierung von angeborenen und adaptiven Abwehrmechanismen vermitteln. Im Rahmen der vorliegenden Dissertation wurde die Bedeutung von humanen DCs bei der Bekämpfung von HCMV und A. fumigatus näher untersucht. Um mit dem klinisch relevanten HCMV Stamm TB40E arbeiten zu können, musste zuerst ein geeignetes Zellkultursystem zur Anzucht von HCMV etabliert werden. Die aus Fibroblasten aufgereinigten Viren eigneten sich zur erfolgreichen Infektion von DCs, was durch verschiedene Färbemethoden nachgewiesen werden konnte. Aus diesem Grund war es möglich, in Abhängigkeit der Zeit ein Expressionsprofil von Klasse I Interferonen (IFN-alpha, IFN-beta), ausgesuchten Cytokinen (CXCL10, CXCL11, Rantes) und den wichtigen Immunrezeptoren Toll-like Rezeptor 3 (TLR3) und dendritic cell-specific ICAM3-grabbing nonintegrin (DC-SIGN) zu erstellen. Nachdem ein RNA Interferenz (RNAi) System zur erfolgreichen Transfektion von DCs mit small interfering RNA (siRNA) etabliert werden konnte, gelang es die Expression von TLR3 signifikant herunterzuregulieren. Stimulationsexperimente mit dem synthetisch hergestellten Polymer poly I:C identifizierten TLR3 als den Rezeptor, der die Expression von IFN-beta vermittelt. Ferner konnte nachgewiesen werden, dass TLR9 bei ex vivo generierten DCs keine Funktion besitzt. Eine direkte Aktivierung von TLR3 durch HCMV konnte mittels siRNA nicht nachgewiesen werden. Durch den Einsatz von genomweiten Microarray-Analysen konnten eine Vielzahl an Genen gefunden werden, die nach Co-Kultivierung von DCs und lebenden A. fumigatus Keimschläuchen (KS) differentiell exprimiert waren. Dabei wurde ein breites Spektrum an Cytokinen (TNF-alpha, IL-6, IL-10, IL-12), Chemokinen (IL-8, CCL20, CXCL10), Co-stimulatorischen Molekülen (CD40, CD80, CD83, CD86), Prostaglandin Synthese Genen (PTGS2) und Immunrezeptoren (PTX-3, TLR2, TLR4) gefunden, deren zeitabhängiges Expressionsprofil mittels qRT-PCR eindeutig bestätigt wurde. Als Wachen des Immunsystems müssen DCs Krankheitserreger zu einem frühen Zeitpunkt der Infektion erkennen. Die Erkennung von Pilzen wird durch die unterschiedlichen Rezeptoren vermittelt, die TLRs, C-Typ Lektine und Pentraxine umfassen, wobei ihre Bedeutung für humane DCs bisher nur unzureichend geklärt ist. Durch den Einsatz von siRNA konnte die Expression von TLR2, TLR4, myeloid differentiation primary response gene 88 (MyD88), DC-SIGN, Pentraxin-3 (PTX-3) und caspase recruitment domain family member 9 (Card-9) signifikant verringert werden. Für TLR2, TLR4, PTX-3 und DC-SIGN konnte durch den Einsatz der RNAi aufgezeigt werden, dass diese Rezeptoren nicht an der Induktion einer pro-inflammatorischen Immunantwort von DCs nach Infektion mit A. fumigatus beteiligt sind. Sowohl die Stimulierung mit den TLR Liganden Zymosan und LPS, als auch mit A. fumigatus, führte zu einer erhöhten Expression von TNF-alpha und IL-12 (Light Cycler), die sich in einer vermehrten Cytokinfreisetzung (ELISA) bemerkbar machte. Im Gegensatz zur TLR4 siRNA Transfektion und LPS-Stimulation war keine Reduktion der Expression von TNF-alpha und IL-12 nach TLR2 und TLR4 siRNA Transfektion und anschließender Pilzinfektion zu beobachten. Auch der Einsatz von gegen TLRs gerichteten Antikörpern konnte eine mögliche Signaltransduktion bei DCs nicht unterbinden. Anstelle von TLR2 und TLR4 wurde Dectin-1 als DC-Immunrezeptor für A. fumigatus KS identifiziert. Mit Hilfe eines spezifischen Antikörpers gegen Dectin-1 war es möglich, die Freisetzung von TNF-alpha und IL-12 nach Pilzinfektion zu blockieren. In einem unabhängigen Experiment mit siRNA wurde Dectin-1 als Rezeptor für A. fumigatus bestätigt. Wie fortführende Experimente mit Candida albicans KS und Zymosan gezeigt haben, handelt es sich bei Dectin-1 auf humanen DCs um einen generellen Rezeptor für Pilze. Die durchgeführten SNP-Analysen (single nucleotide polymorphism) zur Ermittlung eines Zusammenhanges mit einem erhöhten Virus- und Pilzinfektionsrisiko für Patienten nach Stammzelltransplantation erbrachten die Erkenntnis darüber, dass zwei Marker (rs735240, rs2287886) in DC-SIGN mit einer erhöhten Empfänglichkeit für HCMV, und drei Marker (rs1554013, rs3921, rs4257674) in CXCL10 mit einem vergrößerten Riskio für eine invasive Aspergillose assoziiert waren. Ein Screening von Patienten auf das Vorhandensein dieser definierten SNPs könnte helfen, die individuelle Gefahr für HCMV und A. fumigatus nach nach allogener Stammzelltransplantation abzuschätzen.
Die Messung der Genexpression ist für viele Bereiche der Biologie und Medizin wichtig geworden und unterstützt Studien über Behandlung, Krankheiten und Entwicklungsstadien. Microarrays können verwendet werden, um die Expression von tausenden mRNA-Molekülen gleichzeitig zu messen und ermöglichen so einen Einblick und einen Vergleich der verschiedenen zellulären Bedingungen. Die Daten, die durch Microarray-Experimente gewonnen werden, sind hochdimensional und verrauscht, eine Interpretation der Daten ist deswegen nicht einfach. Obwohl Programme für die statistische Auswertung von Microarraydaten existieren, fehlt vielen eine Integration der Analyseergebnisse mit einer automatischen Interpretationsmöglichkeit. In dieser Arbeit wurde GEPAT, Genome Expression Pathway Analysis Tool, entwickelt, das eine Analyse der Genexpression unter dem Gesichtspunkten der Genomik, Proteomik und Metabolik ermöglicht. GEPAT integriert statistische Methoden zum Datenimport und -analyse mit biologischer Interpretation für Genmengen oder einzelne Gene, die auf dem Microarray gemessen werden. Verschiedene Typen von Oligonukleotid- und cDNAMicroarrays können importiert werden, unterschiedliche Normalisierungsmethoden können auf diese Daten angewandt werden, anschließend wird eine Datenannotation durchgeführt. Nach dem Import können mit GEPAT verschiedene statische Datenanalysemethoden wie hierarchisches, k-means und PCA-Clustern, ein auf einem linearen Modell basierender t-Test, oder ein Vergleich chromosomaler Profile durchgeführt werden. Die Ergebnisse der Analysen können auf Häufungen biologischer Begriffe und Vorkommen in Stoffwechselwegen oder Interaktionsnetzwerken untersucht werden. Verschiedene biologische Datenbanken wurden integriert, um zu jeder Gensonde auf dem Array Informationen zur Verfügung stellen zu können. GEPAT bietet keinen linearen Arbeitsablauf, sondern erlaubt die Benutzung von beliebigen Teilmengen von Genen oder biologischen Proben als Startpunkt einer neuen Analyse oder Interpretation. Dabei verlässt es sich auf bewährte Datenanalyse-Pakete, bietet einen modularen Ansatz zur einfachen Erweiterung und kann auf einem verteilten Computernetzwerk installiert werden, um eine große Zahl an Benutzern zu unterstützen. Es ist unter der LGPL Open-Source Lizenz frei verfügbar und kann unter http://gepat.sourceforge.net heruntergeladen werden.