TY - JOUR A1 - Schneider, Wolfgang A1 - Scheibler, D. T1 - Probleme und Möglichkeiten bei der Bewertung von Clusteranalysen: I. Ein Überblick über einschlägige Evaluationsstudien T1 - On the evaluation of dustering algorithms: An integrative review T1 - Procédés de Cluster-analyse N2 - Es wird ein Oberblick über Evaluationsstudien gegeben, die sich mit der Validität von Clusteranalyse-Algorithmen befassen. Im Anschluß an die Diskussion möglicher Bewertungskriterien werden Vergleichsuntersuchungen näher analysiert und danach geordnet, ob sie empirische Datensätze, Plasmaden oder Monte-Carlo-Datensätze als Evaluationsgrundlage benutzen. Die Obersicht über komplexer angelegte Monte-Carlo-Studien zeigt die unterschiedliche Qualität der verfügbaren Clusteranalyse-Algorithmen auf, macht andererseits aber auch deutlich, daß bestimmte hierarchisch-agglomerative Verfahren wie etwa die Methoden nachWARD oder LANCE-WILLIAMS bzw. iterativpartitionierende Prozeduren wie etwa die KMEANS-Algorithmen als relativ robuste Klassifikationsverfahren gelten können. N2 - This paper presents a critical review of research on the evaluation of dustering algorithms. The review includes studies using empirical data sets and studies using so-called "plasmodes" (i. e., empirical data sets with known distributional parameters), but particularly concentrates on investigations using Monte-cario data sets. Although it turns out to be very difficult to come to a valid evaluation of the various clustering algorithms, hierarchical-agglomerative procedures like WARDsand LANCE-WILUAMs methods as well as the KMEANS algorithms appear to be most robust. N2 - L'article suivant pn!sente une revue des etudes d'evaluation qui relevent de validite d'analyse de Cluster-Algorithme. Des experiences de comparaison sont analysees et classees a Ia Suite de la discution de criteres de jugement possible. Ceux-ci suivent un ordre donne par l'utilisation de donnees qui ont ete relevees empiriquement, «Plasmoden>> ou bien de donnees empiriquement accumulees selon Je principe d'evaluation de Monte-Carlo. La revue d'etude complexe Monte-Carlo montre Ia difference qualitative des analyses Cluster algorithme et, d'autre part met clairement en valeur, que des procedes hierarchiques-agglomeratifs, comme la methode de WARD ou LANCE-WILLIAMS, par exemple - c'est-a-dire des procedes «iteratif-partitionierende» {iteratif comme par exemple, les algorithmes KMEANS, qui peuvent etre consideres comme procedes de classification robuste. KW - Cluster-Analyse KW - Methode Y1 - 1983 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-87288 ER - TY - JOUR A1 - Schneider, Wolfgang A1 - Scheibler, D. T1 - Probleme und Möglichkeiten bei der Bewertung von Clusteranalyse-Verfahren: III. Appendix: Kurzbeschreibung der verbreitetsten Clusteranalyse-Algorithmen T1 - On the evaluation of clustering algorithms, III. Appendix: a description of the most popular algorithms T1 - Problemeset cossibilites d'evaluation de procedes des analyses Cluster, III. Appendix: Courte description des Algorithmes analyse Cluster les plus rependues N2 - Es wird eine relativ einfach gehaltene Kurzcharakteristik derjenigen Clusteranalyse-Algorithmen gegeben, die aufgrund eines Literaturüberblicks (SCHNEIDER & SCHEIBLER 1983a) als die in der Fonchung hauptsächlich benutzten Verfahren einzustufen sind. Die Kurzbeschreibung verzichtet im wesentlichen auf statistische Details und verfolgt speziell das Ziel, dem Leser eine Vorstellung von Gemeinsamkeiten und Untenchieden in der Funktionsweise von hierarchischen Clusteranalysen, Optimierungs- bzw. Partitionierungstechniken, Dichteverfahren, "Clumping Techniques" und anderen Prozeduren zu geben. N2 - This paper presents a summary of 18 clustering algorithms most frequently applied in reseuch (cf. SCHNEIDER & SCHEIBLEK 1983a). Only a short description of each procedure is provided which aims at highlighting the basic differences and comrnonalities of hierarchical clustering algorithms, iterative partitioning methods, mode seeking techniques, clumping techniques, and other procedures. N2 - Les Algorithmes analyse Cluster qui sont decritent par (Schneider & Scheibler 1983) comme etant les procedes les plus rependus dans Ia recherche sont relates ici de facon courte. Le description chematique exclue l'ennumeration des details statistiques et a pour but essentiel de transmettre au lecteur, entre autre, une representation des rapports et des differences dans Je mode de fonction des analyses Cluster hierarchiques, des techniques d'optimation, et des procedes de population «Clumping techniques» etc. KW - Cluster-Analyse Y1 - 1983 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-69643 ER - TY - JOUR A1 - Schneider, Wolfgang A1 - Scheibler, D. T1 - Probleme und Möglichkeiten bei der Bewertung von Clusteranalyse-Verfahren: II. Ergebnisse einer Monte-Carlo-Studie T1 - On the evaluation of clustering algorithms: A Monte Carlo approach T1 - Probleme et possibilite pour l'evaluation des procedes l'analyse de cluster N2 - Ziel der vorliegenden Untersuchung war es, Aufschluß über die unterschiedliche Qualität hierarchischer und nicht-hierarchischer (partionierender) Clusteranalyseverfahren zu gewinnen. Die Reproduktionsgüte beider Clusteranalyse-Varianten wurde anhand von 200 Monte-Carlo-Datensätzen (multivariat normalverteilte Mixturen) zu überprüfen versucht, wobei jeweils unterschiedliche Proportionen der Daten-Elemente klassifiZiert werden mußten. Es zeigte sich, daß insgesamt gesehen die hierarchischen Algorithmen nach WARD und LANCE-WILUAMS am besten dazu in der Lage waren, die vorgegebenen Datenstrukturen zu reproduzieren, andererseits aber die herangezogenen partitionierenden KMEANS-Verfahren nicht schlechter abschnitten, wenn die Lösung der WARD-Technik als Start-Partition vorgegeben wurde. N2 - In this study, a number of hierarchical dustering algorithms and nonhierarchical (i.e. iterative-partitioning) methods were compared with regard to accuracy on the basis of 200 monte carlo data sets. As main results, the two hierarchical procedures by WARD and LANCE-WILUAMS as weil as two nonhierarchicallc-means algorithm using WARDs solution as starting seeds proved tobe most robust. Although some of the remaining algorithms showed acceptabel recovery values when only a certain proportion of the elements had to be classified, it is recommended to choose the few methods mentioned above for particular applications. N2 - Le but de cette etude est d'obtenir des renseignements sur les differentes qualitees hierarchiques et non-hierarchiques (partionaires) procedes d'analyse de Clusters. Le qualite de reproduction des deux variantes d'analyse de Cluster a ete relevee et controlee a l'aide de 200 groupes de Monte-Cario (multivariation, melange de distribution normale). Pour chacune des proportions differentes, les elements de donnees ont du etre classes. On observe, dans l'ensemble, que l'algorithme hierarchique selon Ward etLance-Williams, est en mesure de reproduire, le mieux, les structures de donnees impliquees. D'autre part, les procedes appliques de KMEANS-partionaires ne se detachent pas pour le moins de ces resultats lorsque Ia solution de Ia technique de Ward a été, au prealablement, donnée comme situation de depart. KW - Monte-Carlo-Simulation KW - Cluster-Analyse Y1 - 1983 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-69637 ER - TY - THES A1 - Engelmann, Julia Cathérine T1 - DNA microarrays: applications and novel approaches for analysis and interpretation T1 - DNA Mikroarrays: Anwendungen und neue Ansätze für die Analyse und Interpretation N2 - In der vorliegenden Dissertation wird die Entwicklung eines phylogenetischen DNA Microarrays, die Analyse von mehreren Microarray-Genexpressionsdatensätzen und neue Ansätze für die Datenanalyse und Interpretation der Ergebnisse vorgestellt. Die Entwicklung und Analyse der Daten eines phylogenetischen DNA Microarrays wird in der ersten Publikation dargestellt. Ich konnte zeigen, dass die Spezies-Detektion mit phylogenetischen Microarrays durch die Datenanalyse mit einem linearen Regressionsansatz signifikant verbessert werden kann. Standard-Methoden haben bislang nur Signalintensitäten betrachtet und eine Spezies als an- oder abwesend bezeichnet, wenn die Signalintensität ihres Messpunktes oberhalb eines willkürlich gesetzten Schwellenwertes lag. Dieses Verfahren ist allerdings aufgrund von Kreuz-Hybridisierungen nicht auf sehr nah verwandte Spezies mit hoher Sequenzidentität anwendbar. Durch die Modellierung des Hybridisierungs und Kreuz-Hybridisierungsverhaltens mit einem linearen Regressionsmodell konnte ich zeigen, dass Spezies mit einer Sequenzähnlichkeit von 97% im Markergen immer noch unterschieden werden können. Ein weiterer Vorteil der Modellierung ist, dass auch Mischungen verschiedener Spezies zuverlässig vorhergesagt werden können. Theoretisch sind auch quantitative Vorhersagen mit diesem Modell möglich. Um die großen Datenmengen, die in öffentlichen Microarray-Datenbanken abgelegt sind besser nutzen zu können, bieten sich Meta-Analysen an. In der zweiten Publikation wird eine explorative Meta-Analyse auf Arabidopsis thaliana-Datensätzen vorgestellt. Mit der Analyse verschiedener Datensätze, die den Einfluss von Pflanzenhormonen, Pathogenen oder verschiedenen Mutationen auf die Genexpression untersucht haben, konnten die Datensätze anhand ihrer Genexpressionsprofile in drei große Gruppen eingeordnet werden: Experimente mit Indol-3-Essigsäure (IAA), mit Pathogenen und andere Experimente. Gene, die charakteristisch für die Gruppe der IAA-Datensätze beziehungsweise für die Gruppe der Pathogen-Datensätze sind, wurden näher betrachtet. Diese Gene hatten Funktionen, die bereits mit Pathogenbefall bzw. dem Einfluss von IAA in Verbindung gebracht wurden. Außerdem wurden Hypothesen über die Funktionen von bislang nicht annotierten Genen aufgestellt. In dieser Arbeit werden auch Primäranalysen von einzelnen Arabidopsis thaliana Genexpressions-Datensätzen vorgestellt. In der dritten Publikation wird ein Experiment beschrieben, das durchgeführt wurde um herauszufinden ob Mikrowellen-Strahlung einen Einfluss auf die Genexpression einer Zellkultur hat. Dazu wurden explorative Analysemethoden angewendet. Es wurden geringe aber signifikante Veränderungen in einer sehr kleinen Anzahl von Genen beobachtet, die experimentell bestätigt werden konnten. Die Funktionen der regulierten Gene und eine Meta-Analyse mit öffentlich zugänglichen Datensätzen einer Datenbank deuten darauf hin, dass die pflanzliche Zellkultur die Strahlung als eine Art Energiequelle ähnlich dem Licht wahrnimmt. Des weiteren wird in der vierten Publikation die funktionelle Analyse eines Arabidopsis thaliana Genexpressionsdatensatzes beschrieben. Die Analyse der Genexpressions eines pflanzlichen Tumores zeigte, dass er seinen Stoffwechsel von aerob und auxotroph auf anaerob und heterotroph umstellt. Gene der Photosynthese werden im Tumorgewebe reprimiert, Gene des Aminosäure- und Fettstoffwechsels, der Zellwand und Transportkanäle werden so reguliert, dass Wachstum und Entwicklung des Tumors gefördert werden. In der fünften Publikation in dieser Arbeit wird GEPAT (Genome Expression Pathway Analysis Tool) beschrieben. Es besteht aus einer Internet- Anwendung und einer Datenbank, die das einfache Hochladen von Datensätzen in die Datenbank und viele Möglichkeiten der Datenanalyse und die Integration anderer Datentypen erlaubt. In den folgenden zwei Publikationen (Publikation 6 und Publikation 7) wird GEPAT auf humane Microarray-Datensätze angewendet um Genexpressionsdaten mit weiteren Datentypen zu verknüpfen. Genexpressionsdaten und Daten aus vergleichender Genom-Hybridisierung (CGH) von primären Tumoren von 71 Mantel-Zell-Lymphom (MCL) Patienten ermöglichte die Ermittlung eines Prädiktors, der die Vorhersage der Überlebensdauer von Patienten gegenüber herkömmlichen Methoden verbessert. Die Analyse der CGH Daten zeigte, dass auch diese für die Vorhersage der Überlebensdauer geeignet sind. Für den Datensatz von Patienten mit großzellig diffusem B-Zell-Lymphom DLBCL konnte aus den Genexpressionsdaten ebenfalls ein neuer Prädiktor vorgeschlagen werden. Mit den zwischen lang und kurz überlebenden Patienten differentiell exprimierten Genen der MCL Patienten und mit den Genen, die zwischen den beiden Untergruppen von DLBCL reguliert sind, wurden Interaktionsnetzwerke gebildet. Diese zeigen, dass bei beiden Krebstypen Gene des Zellzyklus und der Proliferation zwischen Patienten mit kurzer und langer Überlebensdauer unterschiedlich reguliert sind. N2 - In this thesis, the development of a phylogenetic DNA microarray, the analysis of several gene expression microarray datasets and new approaches for improved data analysis and interpretation are described. In the first publication, the development and analysis of a phylogenetic microarray is presented. I could show that species detection with phylogenetic DNA microarrays can be significantly improved when the microarray data is analyzed with a linear regression modeling approach. Standard methods have so far relied on pure signal intensities of the array spots and a simple cutoff criterion was applied to call a species present or absent. This procedure is not applicable to very closely related species with high sequence similarity because cross-hybridization of non-target DNA renders species detection impossible based on signal intensities alone. By modeling hybridization and cross-hybridization with linear regression, as I have presented in this thesis, even species with a sequence similarity of 97% in the marker gene can be detected and distinguished from related species. Another advantage of the modeling approach over existing methods is that the model also performs well on mixtures of different species. In principle, also quantitative predictions can be made. To make better use of the large amounts of microarray data stored in public databases, meta-analysis approaches need to be developed. In the second publication, an explorative meta-analysis exemplified on Arabidopsis thaliana gene expression datasets is presented. Integrating datasets studying effects such as the influence of plant hormones, pathogens and different mutations on gene expression levels, clusters of similarly treated datasets could be found. From the clusters of pathogen-treated and indole-3-acetic acid (IAA) treated datasets, representative genes were selected which pointed to functions which had been associated with pathogen attack or IAA effects previously. Additionally, hypotheses about the functions of so far uncharacterized genes could be set up. Thus, this kind of meta-analysis could be used to propose gene functions and their regulation under different conditions. In this work, also primary data analysis of Arabidopsis thaliana datasets is presented. In the third publication, an experiment which was conducted to find out if microwave irradiation has an effect on the gene expression of a plant cell culture is described. During the first steps, the data analysis was carried out blinded and exploratory analysis methods were applied to find out if the irradiation had an effect on gene expression of plant cells. Small but statistically significant changes in a few genes were found and could be experimentally confirmed. From the functions of the regulated genes and a meta-analysis with publicly available microarray data, it could be suspected that the plant cell culture somehow perceived the irradiation as energy, similar to perceiving light rays. The fourth publication describes the functional analysis of another Arabidopsis thaliana gene expression dataset. The gene expression data of the plant tumor dataset pointed to a switch from a mainly aerobic, auxotrophic to an anaerobic and heterotrophic metabolism in the plant tumor. Genes involved in photosynthesis were found to be repressed in tumors; genes of amino acid and lipid metabolism, cell wall and solute transporters were regulated in a way that sustains tumor growth and development. Furthermore, in the fifth publication, GEPAT (Genome Expression Pathway Analysis Tool), a tool for the analysis and integration of microarray data with other data types, is described. It consists of a web application and database which allows comfortable data upload and data analysis. In later chapters of this thesis (publication 6 and publication 7), GEPAT is used to analyze human microarray datasets and to integrate results from gene expression analysis with other datatypes. Gene expression and comparative genomic hybridization data from 71 Mantle Cell Lymphoma (MCL) patients was analyzed and allowed proposing a seven gene predictor which facilitates survival predictions for patients compared to existing predictors. In this study, it was shown that CGH data can be used for survival predictions. For the dataset of Diffuse Large B-cell lymphoma (DLBCL) patients, an improved survival predictor could be found based on the gene expression data. From the genes differentially expressed between long and short surviving MCL patients as well as for regulated genes of DLBCL patients, interaction networks could be set up. They point to differences in regulation for cell cycle and proliferation genes between patients with good and bad prognosis. KW - Microarray KW - Differentielle Genexpression KW - Genexpression KW - Statistische Analyse KW - Cluster-Analyse KW - Datenanalyse KW - Explorative Datenanalyse KW - Non-Hodgkin-Lymphom KW - B-Zell-Lymphom KW - Metabolom KW - Tumorklassifikation KW - Tumor KW - Krebs KW - Schmalwa KW - phylogenetische Arrays KW - Interaktionsnetzwerke KW - lineare Regression KW - DNA microarray KW - gene expression KW - statistical analysis KW - clustering KW - classification KW - interaction networks Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-29747 ER -