TY - THES A1 - Blenk, Steffen T1 - Bioinformatical analysis of B-cell lymphomas T1 - Bioinformatische Analyse von B-Zell Lymphomen N2 - Background: The frequency of the most observed cancer, Non Hodgkin Lymphoma (NHL), is further rising. Diffuse large B-cell lymphoma (DLBCL) is the most common of the NHLs. There are two subgroups of DLBCL with different gene expression patterns: ABC (“Activated B-like DLBCL”) and GCB (“Germinal Center B-like DLBCL”). Without therapy the patients often die within a few months, the ABC type exhibits the more aggressive behaviour. A further B-cell lymphoma is the Mantle cell lymphoma (MCL). It is rare and shows very poor prognosis. There is no cure yet. Methods: In this project these B-cell lymphomas were examined with methods from bioinformatics, to find new characteristics or undiscovered events on the molecular level. This would improve understanding and therapy of lymphomas. For this purpose we used survival, gene expression and comparative genomic hybridization (CGH) data. In some clinical studies, you get large data sets, from which one can reveal yet unknown trends. Results (MCL): The published proliferation signature correlates directly with survival. Exploratory analyses of gene expression and CGH data of MCL samples (n=71) revealed a valid grouping according to the median of the proliferation signature values. The second axis of correspondence analysis distinguishes between good and bad prognosis. Statistical testing (moderate t-test, Wilcoxon rank-sum test) showed differences in the cell cycle and delivered a network of kinases, which are responsible for the difference between good and bad prognosis. A set of seven genes (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) predicted, similarly well, survival patterns as proliferation signature with 20 genes. Furthermore, some bands could be associated with prognosis in the explorative analysis (chromosome 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Results (DLBCL): New normalization of gene expression data of DLBCL patients revealed better separation of risk groups by the 2002 published signature based predictor. We could achieve, similarly well, a separation with six genes. Exploratory analysis of gene expression data could confirm the subgroups ABC and GCB. We recognized a clear difference in early and late cell cycle stages of cell cycle genes, which can separate ABC and GCB. Classical lymphoma and best separating genes form a network, which can classify and explain the ABC and GCB groups. Together with gene sets which identify ABC and GCB we get a network, which can classify and explain the ABC and GCB groups (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5; Altogether these findings are useful for diagnosis, prognosis and therapy (cytostatic drugs). N2 - Hintergrund: Die Häufigkeit von Non-Hodgkin-Lymphomen (NHL), den am meisten beobachteten Krebserkrankungen, steigt weiter an. Von den aggressiven Non-Hodgkin-Lymphomen (NHL) macht das “großzellige, diffuse B-Zell-Lymphom” (DLBCL) den größten Anteil aus. Durch Genexpressionsmuster wurden zwei Subtypen definiert: ACB (“Activated B-like DLBCL”) und GCB (“Germinal Center B-like DLBCL”). Die Patienten der Gruppe ABC sterben ohne Therapie oft innerhalb weniger Monate, weil der ABC Typ einen aggressiveren Krankheitsverlauf aufweist. Ein weiteres, von einer malignen Entartung der B-Lymphozyten ausgehendes Lymphom, ist das “Mantelzell Lymphom” (MCL). Es tritt selten auf und ist ebenfalls mit einer schlechten Prognose verbunden. Eine vollständige Heilung nach der Therapie ist sehr selten. Methoden: In diesem Projekt wurden diese B-zell Lymphome mit bioinformatischen Methoden untersucht, um auf molekularer Ebene neue Eigenschaften oder bisher unentdeckte Zusammenhänge zu finden. Das würde das Verständnis und damit auch die Therapie voranbringen. Dafür standen uns Überlebens-, Genexpressions- und chromosomale Aberrationsdaten zur Verfügung. Sie sind die bevorzugte Wahl der Mittel, um genetische Veränderungen in Tumorzellen zu bestimmen. Hierbei fallen oft große Datenmengen an, aus welchen man mit bioinformatischen Methoden vorher unerkannte Trends und Hinweise identifizieren kann. Ergebnisse (MCL): Explorative Analysen sowohl der Genexpressions- (zweite Hauptachse der Korrespondenz Analyse) als auch der chromosomalen Aberrationsdaten des Mantelzell-Lymphom zeigten uns hierbei, daß es trotz der linearen Korrelation zwischen der veröffentlichten Proliferationssignatur und der Überlebenszeit sinnvoll ist, in den Patienten (n=71) zwei Ausprägungen zu betrachten: Patienten mit schlechter und mit guter Prognose. Statistische Tests (moderate t-test, Wilcoxon rank-sum test) dieser beiden Typen zeigten Unterschiede im Zellzyklus und ein Netzwerk von Kinasen auf, welche für den Unterschied zwischen guter und schlechter Prognose verantwortlich sind. Sieben Gene (CENPE, CDC20, HPRT1, CDC2, BIRC5, ASPM, IGF2BP3) konnten gefunden werden, die eine ähnliche gute Prognose für Überlebenszeiten ermöglichen, wie eine früher veröffentlichte Proliferationssignatur mit 20 Genen. Außerdem konnten chromosomale Banden durch eine explorative Analyse mit der Prognose assoziiert werden (Chromosom 9: 9p24, 9p23, 9p22, 9p21, 9q33 and 9q34). Ergebnisse (DLBCL): Durch geeignete Normalisierung der Genexpressionsdaten von 248 DLBCL-Patienten trennte der Signatur basierte Predictor die Risikogruppen nun besser auf. Eine ähnlich gute Auftrennung konnte von uns sogar mit sechs Genen erreicht werden. Die explorative Analyse der Genexpressionsdaten konnte die Subtypen ABC und GCB als valide Gruppen bestätigen. In den Genen, die ABC und GCB unterscheiden, ergab sich eine Häufung in späten und frühen Zellzyklusstadien. Klassische Lymphommarker, neu aufgefundene spezielle Gene und Zellzyklusgene bilden ein Netzwerk, das die ABC und GCB Gruppen klassifizieren und Unterschiede in deren Regulation erklären kann (ASB13, BCL2, BCL6, BCL7A, CCND2, COL3A1, CTGF, FN1, FOXP1, IGHM, IRF4, LMO2, LRMP, MAPK10, MME, MYBL1, NEIL1 and SH3BP5. Dies ist auch für die Diagnose, Prognose und Therapie (Zytostatika) interessant. KW - Bioinformatik KW - Genexpression KW - Auswertung KW - B-Zell-Lymphom KW - Diffuses großzelliges B-Zell-Lymphom KW - Mantelzell-Lymphom KW - Bioinformatics KW - gene expression KW - B-cell lymphoma KW - Diffuse large B-cell lymphoma (DLBCL) KW - Mantle cell lymphoma (MCL) Y1 - 2007 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-27421 ER - TY - THES A1 - Busold, Christian T1 - Facilitating functional interpretation of microarray data by integration of gene annotations in Correspondence Analysis T1 - Verbesserte funktionelle Analyse von Microarraydaten mittels Integration von Gen-Annotationen in Korrespondenzanalyse N2 - DNS-Chips (’Microarrays’) haben sich zu einer der Standardmethoden zur Erstellung von genomweiten Expressionsstudien entwickelt. Mittlerweile wurden dazu eine Vielzahl von Methoden zur Identifizierung von differentiell regulierten Genen veröffentlicht. Ungeachtet dessen stellt die abschliessende funktionelle Interpretation der Ergebnisse einen der Engpässe in der Analyse von Chip-Daten dar. Die Mehrzahl der Analysemethoden stellt die signifikant regulierten Gene in Listen dar, aus denen in einem weiteren Schritt gemeinsame funktionelle Eigenschaften abgeleitet werden müssen. Dies stellt nicht nur eine arbeitsintensive Arbeit dar, die mit steigender Anzahl an experimentellen Konditionen immer weniger praktikabel wird, sondern ist auch fehleranfällig, da diese Auswertung im allgemeinen auf dem visuellen Vergleich von Listen beruht. In der vorliegenden Arbeit wurden Methoden für eine rechnergestützte Auswertung von funktionellen Geneigenschaften entwickelt und validiert. Hierzu wurde die ’Gene Ontology’ als Quelle für die Annotationsdaten ausgewählt, da hier die Daten in einem Format gespeichert sind, das sowohl eine leichte menschliche Interaktion sowie die statistische Analyse der Annotationen ermöglicht. Diese Genannotation wurden als Zusatzinformationen in die Korrespondenzanalyse integriert, welches eine simultane Darstellung von Genen, Hybridisierungen und funktionellen Kategorien in einer Grafik ermöglicht. Aufgrund der ständig wachsenden Anzahl an verfügbaren Annotationen und der Tatsache, daß zwischen den meisten experimentellen Bedingungen nur wenige funktionelle Prozesse differentiell reguliert sind, wurden Filter entwickelt, die die Anzahl der dargestellten Annotationen auf eine im gegebenen experimentellen Kontext relevante Gruppe reduzieren. Die Anwendbarkeit der Visualisierung und der Filter wurde auf Datensätzen unterschiedlicher Komplexität getestet: beginnend mit dem gut verstandenen Glukosestoffwechsel im Modellorganismus S. cerevisiae, bis hin zum Vergleich unterschiedlicher Tumortypen im Menschen. In beiden Fällen generierte die Methode gut zu interpretierende Grafiken, in denen die funktionellen Hauptunterschiede durch die dargestellten Annotationen gut beschrieben werden [90]. Während die Integration von Annotationsdaten wie GO die funktionelle Interpretation vereinfacht, fehlt die Möglichkeit zur Identifikation einzelner relevanter Schlüsselgene. Um eine solche Analyse zu ermöglichen, wurden Daten zum Vorkommen von Transskriptionsfaktorbindestellen in den 5’-Bereichen von Genen integriert. Auch diese Methode wurde an Datensätzen von S. cerevisiae und vergleichenden Studien von humanen Krebszelllinien validiert.In beiden Fällen konnten Transkriptionsfaktoren identifiziert werden, die für die beobachteten transkriptionellen Unterschiede von entscheidender Bedeutung sind [206]. Zusammenfassend, ermöglicht die Integration von Zusatzinformationen in die Korrespondenzanalyse eine simultane Visualisierung von Genen, Hybridisierungen und Annotationsdaten in einer einzigen, gut zu interpretierenden Grafik. Dies erlaubt auch in komplexen experimentellen Bedingungen eine intuitive Identifizierung von relevanten Annotationen. Der hier vorgestellte Ansatz, ist nicht auf die gezeigten Datenstrukturen beschränkt, sondern kann auf die Mehrzahl der verfügbaren Annotationsdaten angewendet werden. N2 - DNA microarrays have become a standard technique to assess the mRNA levels for complete genomes. To identify significantly regulated genes from these large amounts of data a wealth of methods has been developed. Despite this, the functional interpretation (i.e. deducing biological hypothesis from the data) still remains a major bottleneck in microarray data analysis. Most available methods display the set of significant genes in long lists, from which common functional properties have to be extracted. This is not only a tedious and time-consuming task, which becomes less and less feasible with increasing numbers of experimental conditions, but is also prone to errors, since it is commonly done by eye. In the course of this work methods have been developed and tested, that allow for a computerbased analysis of functional properties being relevant in the given experimental setting. To this end the Gene Ontology was chosen as an appropriate source of annotation data, because it combines human-readability with computer-accessibility of the annotations term and thus allows for a statistical analysis of functional properties. Here the gene-annotations are integrated in a Correspondence Analysis which allows to visualize genes, hybridizations and functional categories in a single plot. Due to the increasing amounts of available annotations and the fact that in most settings only few functional processes are differentially regulated, several filter criteria have been developed to reduce the number of displayed annotations to a set being relevant in the given experimental setting. The applicability of the presented visualization and filtering have both been validated on datasets of varying complexity. Starting from the well studied glucose-pathway in S. cerevisiae up to the comparison of different tumor types in human. In both settings the method generated well interpretable plots, which allowed for an immediate identification of the major functional differences between the experimental conditions [90]. While the integration of annotation data like GO facilitates functional interpretation, it lacks the capability to identify key regulatory elements. To facilitate such an analysis, the occurrence of transcription factor binding sites in upstream regions of genes has been integrated to the analysis as well. Again this methodology was biologically validated on S. cerevisiae as well human cancer data sets. In both settings TFs known to exhibit central roles for the observed transcriptional changes were plotted in marked positions and thus could be immediately identified [206]. In essence, integration of supplementary information in Correspondence Analysis visualizes genes, hybridizations and annotation data in a single, well interpretable plot. This allows for an intuitive identification of relevant annotations even in complex experimental settings. The presented approach is not limited to the shown types of data, but is generalizable to account for the majority of the available annotation data. KW - Microarray KW - DNS KW - Genexpression KW - Auswertung KW - Microarray Analyse KW - GO-Annotationen KW - funktionelle Analyse KW - Korrespondenzanalyse KW - microarray data analysis KW - GO-annotations KW - functional interpretation KW - correspondence analysis Y1 - 2006 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-21150 ER -