Facilitating functional interpretation of microarray data by integration of gene annotations in Correspondence Analysis

Verbesserte funktionelle Analyse von Microarraydaten mittels Integration von Gen-Annotationen in Korrespondenzanalyse

Please always quote using this URN: urn:nbn:de:bvb:20-opus-21150
  • DNA microarrays have become a standard technique to assess the mRNA levels for complete genomes. To identify significantly regulated genes from these large amounts of data a wealth of methods has been developed. Despite this, the functional interpretation (i.e. deducing biological hypothesis from the data) still remains a major bottleneck in microarray data analysis. Most available methods display the set of significant genes in long lists, from which common functional properties have to be extracted. This is not only a tedious andDNA microarrays have become a standard technique to assess the mRNA levels for complete genomes. To identify significantly regulated genes from these large amounts of data a wealth of methods has been developed. Despite this, the functional interpretation (i.e. deducing biological hypothesis from the data) still remains a major bottleneck in microarray data analysis. Most available methods display the set of significant genes in long lists, from which common functional properties have to be extracted. This is not only a tedious and time-consuming task, which becomes less and less feasible with increasing numbers of experimental conditions, but is also prone to errors, since it is commonly done by eye. In the course of this work methods have been developed and tested, that allow for a computerbased analysis of functional properties being relevant in the given experimental setting. To this end the Gene Ontology was chosen as an appropriate source of annotation data, because it combines human-readability with computer-accessibility of the annotations term and thus allows for a statistical analysis of functional properties. Here the gene-annotations are integrated in a Correspondence Analysis which allows to visualize genes, hybridizations and functional categories in a single plot. Due to the increasing amounts of available annotations and the fact that in most settings only few functional processes are differentially regulated, several filter criteria have been developed to reduce the number of displayed annotations to a set being relevant in the given experimental setting. The applicability of the presented visualization and filtering have both been validated on datasets of varying complexity. Starting from the well studied glucose-pathway in S. cerevisiae up to the comparison of different tumor types in human. In both settings the method generated well interpretable plots, which allowed for an immediate identification of the major functional differences between the experimental conditions [90]. While the integration of annotation data like GO facilitates functional interpretation, it lacks the capability to identify key regulatory elements. To facilitate such an analysis, the occurrence of transcription factor binding sites in upstream regions of genes has been integrated to the analysis as well. Again this methodology was biologically validated on S. cerevisiae as well human cancer data sets. In both settings TFs known to exhibit central roles for the observed transcriptional changes were plotted in marked positions and thus could be immediately identified [206]. In essence, integration of supplementary information in Correspondence Analysis visualizes genes, hybridizations and annotation data in a single, well interpretable plot. This allows for an intuitive identification of relevant annotations even in complex experimental settings. The presented approach is not limited to the shown types of data, but is generalizable to account for the majority of the available annotation data.show moreshow less
  • DNS-Chips (’Microarrays’) haben sich zu einer der Standardmethoden zur Erstellung von genomweiten Expressionsstudien entwickelt. Mittlerweile wurden dazu eine Vielzahl von Methoden zur Identifizierung von differentiell regulierten Genen veröffentlicht. Ungeachtet dessen stellt die abschliessende funktionelle Interpretation der Ergebnisse einen der Engpässe in der Analyse von Chip-Daten dar. Die Mehrzahl der Analysemethoden stellt die signifikant regulierten Gene in Listen dar, aus denen in einem weiteren Schritt gemeinsame funktionelleDNS-Chips (’Microarrays’) haben sich zu einer der Standardmethoden zur Erstellung von genomweiten Expressionsstudien entwickelt. Mittlerweile wurden dazu eine Vielzahl von Methoden zur Identifizierung von differentiell regulierten Genen veröffentlicht. Ungeachtet dessen stellt die abschliessende funktionelle Interpretation der Ergebnisse einen der Engpässe in der Analyse von Chip-Daten dar. Die Mehrzahl der Analysemethoden stellt die signifikant regulierten Gene in Listen dar, aus denen in einem weiteren Schritt gemeinsame funktionelle Eigenschaften abgeleitet werden müssen. Dies stellt nicht nur eine arbeitsintensive Arbeit dar, die mit steigender Anzahl an experimentellen Konditionen immer weniger praktikabel wird, sondern ist auch fehleranfällig, da diese Auswertung im allgemeinen auf dem visuellen Vergleich von Listen beruht. In der vorliegenden Arbeit wurden Methoden für eine rechnergestützte Auswertung von funktionellen Geneigenschaften entwickelt und validiert. Hierzu wurde die ’Gene Ontology’ als Quelle für die Annotationsdaten ausgewählt, da hier die Daten in einem Format gespeichert sind, das sowohl eine leichte menschliche Interaktion sowie die statistische Analyse der Annotationen ermöglicht. Diese Genannotation wurden als Zusatzinformationen in die Korrespondenzanalyse integriert, welches eine simultane Darstellung von Genen, Hybridisierungen und funktionellen Kategorien in einer Grafik ermöglicht. Aufgrund der ständig wachsenden Anzahl an verfügbaren Annotationen und der Tatsache, daß zwischen den meisten experimentellen Bedingungen nur wenige funktionelle Prozesse differentiell reguliert sind, wurden Filter entwickelt, die die Anzahl der dargestellten Annotationen auf eine im gegebenen experimentellen Kontext relevante Gruppe reduzieren. Die Anwendbarkeit der Visualisierung und der Filter wurde auf Datensätzen unterschiedlicher Komplexität getestet: beginnend mit dem gut verstandenen Glukosestoffwechsel im Modellorganismus S. cerevisiae, bis hin zum Vergleich unterschiedlicher Tumortypen im Menschen. In beiden Fällen generierte die Methode gut zu interpretierende Grafiken, in denen die funktionellen Hauptunterschiede durch die dargestellten Annotationen gut beschrieben werden [90]. Während die Integration von Annotationsdaten wie GO die funktionelle Interpretation vereinfacht, fehlt die Möglichkeit zur Identifikation einzelner relevanter Schlüsselgene. Um eine solche Analyse zu ermöglichen, wurden Daten zum Vorkommen von Transskriptionsfaktorbindestellen in den 5’-Bereichen von Genen integriert. Auch diese Methode wurde an Datensätzen von S. cerevisiae und vergleichenden Studien von humanen Krebszelllinien validiert.In beiden Fällen konnten Transkriptionsfaktoren identifiziert werden, die für die beobachteten transkriptionellen Unterschiede von entscheidender Bedeutung sind [206]. Zusammenfassend, ermöglicht die Integration von Zusatzinformationen in die Korrespondenzanalyse eine simultane Visualisierung von Genen, Hybridisierungen und Annotationsdaten in einer einzigen, gut zu interpretierenden Grafik. Dies erlaubt auch in komplexen experimentellen Bedingungen eine intuitive Identifizierung von relevanten Annotationen. Der hier vorgestellte Ansatz, ist nicht auf die gezeigten Datenstrukturen beschränkt, sondern kann auf die Mehrzahl der verfügbaren Annotationsdaten angewendet werden.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar Statistics
Metadaten
Author: Christian Busold
URN:urn:nbn:de:bvb:20-opus-21150
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Biologie
Faculties:Fakultät für Biologie / Theodor-Boveri-Institut für Biowissenschaften
Date of final exam:2006/12/13
Language:English
Year of Completion:2006
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
GND Keyword:Microarray; DNS; Genexpression; Auswertung
Tag:GO-Annotationen; Korrespondenzanalyse; Microarray Analyse; funktionelle Analyse
GO-annotations; correspondence analysis; functional interpretation; microarray data analysis
Release Date:2007/01/10
Advisor:Prof. Dr. Thomas Dandekar