TY - JOUR A1 - Vey, Johannes A1 - Kapsner, Lorenz A. A1 - Fuchs, Maximilian A1 - Unberath, Philipp A1 - Veronesi, Giulia A1 - Kunz, Meik T1 - A toolbox for functional analysis and the systematic identification of diagnostic and prognostic gene expression signatures combining meta-analysis and machine learning JF - Cancers N2 - The identification of biomarker signatures is important for cancer diagnosis and prognosis. However, the detection of clinical reliable signatures is influenced by limited data availability, which may restrict statistical power. Moreover, methods for integration of large sample cohorts and signature identification are limited. We present a step-by-step computational protocol for functional gene expression analysis and the identification of diagnostic and prognostic signatures by combining meta-analysis with machine learning and survival analysis. The novelty of the toolbox lies in its all-in-one functionality, generic design, and modularity. It is exemplified for lung cancer, including a comprehensive evaluation using different validation strategies. However, the protocol is not restricted to specific disease types and can therefore be used by a broad community. The accompanying R package vignette runs in ~1 h and describes the workflow in detail for use by researchers with limited bioinformatics training. KW - bioinformatics tool KW - R package KW - machine learning KW - meta-analysis KW - biomarker signature KW - gene expression analysis KW - survival analysis KW - functional analysis Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-193240 SN - 2072-6694 VL - 11 IS - 10 ER - TY - THES A1 - Rademaker, Manuel Elias T1 - Composite-based Structural Equation Modeling T1 - Kompositenbasierte Strukturgleichungsmodellierung N2 - Structural equation modeling (SEM) has been used and developed for decades across various domains and research fields such as, among others, psychology, sociology, and business research. Although no unique definition exists, SEM is best understood as the entirety of a set of related theories, mathematical models, methods, algorithms, and terminologies related to analyzing the relationships between theoretical entities -- so-called concepts --, their statistical representations -- referred to as constructs --, and observables -- usually called indicators, items or manifest variables. This thesis is concerned with aspects of a particular strain of research within SEM -- namely, composite-based SEM. Composite-based SEM is defined as SEM involving linear compounds, i.e., linear combinations of observables when estimating parameters of interest. The content of the thesis is based on a working paper (Chapter 2), a published refereed journal article (Chapter 3), a working paper that is, at the time of submission of this thesis, under review for publication (Chapter 4), and a steadily growing documentation that I am writing for the R package cSEM (Chapter 5). The cSEM package -- written by myself and my former colleague at the University of Wuerzburg, Florian Schuberth -- provides functions to estimate, analyze, assess, and test nonlinear, hierarchical and multigroup structural equation models using composite-based approaches and procedures. In Chapter 1, I briefly discuss some of the key SEM terminology. Chapter 2 is based on a working paper to be submitted to the Journal of Business Research titled “Assessing overall model fit of composite models in structural equation modeling”. The article is concerned with the topic of overall model fit assessment of the composite model. Three main contributions to the literature are made. First, we discuss the concept of model fit in SEM in general and composite-based SEM in particular. Second, we review common fit indices and explain if and how they can be applied to assess composite models. Third, we show that, if used for overall model fit assessment, the root mean square outer residual covariance (RMS_theta) is identical to another well-known index called the standardized root mean square residual (SRMR). Chapter 3 is based on a journal article published in Internet Research called “Measurement error correlation within blocks of indicators in consistent partial least squares: Issues and remedies”. The article enhances consistent partial least squares (PLSc) to yield consistent parameter estimates for population models whose indicator blocks contain a subset of correlated measurement errors. This is achieved by modifying the correction for attenuation as originally applied by PLSc to include a priori assumptions on the structure of the measurement error correlations within blocks of indicators. To assess the efficacy of the modification, a Monte Carlo simulation is conducted. The paper is joint work with Florian Schuberth and Theo Dijkstra. Chapter 4 is based on a journal article under review for publication in Industrial Management & Data Systems called “Estimating and testing second-order constructs using PLS-PM: the case of composites of composites”. The purpose of this article is threefold: (i) evaluate and compare common approaches to estimate models containing second-order constructs modeled as composites of composites, (ii) provide and statistically assess a two-step testing procedure to test the overall model fit of such models, and (iii) formulate recommendation for practitioners based on our findings. Moreover, a Monte Carlo simulation to compare the approaches in terms of Fisher consistency, estimated bias, and RMSE is conducted. The paper is joint work with Florian Schuberth and Jörg Henseler. N2 - Strukturgleichungsmodellierung (SEM) wird seit Jahrzehnten in verschiedenen Bereichen und Forschungsgebieten wie zum Beispiel der Psychologie, der Soziologie und den Wirtschaftswissenschaften verwendet und weiterentwickelt. SEM umfasst dabei die Gesamtheit einer Reihe verwandter Theorien, mathematischer Modelle, Methoden, Algorithmen und Terminologien im Zusammenhang mit der Analyse der Beziehungen zwischen theoretischen Entitäten - so genannten Konzepten -, ihrer statistischen Repräsentation - als Konstrukte bezeichnet - und Beobachtungsgrößen - üblicherweise Indikatoren, Items oder manifeste Variablen genannt. Diese Arbeit befasst sich mit Aspekten eines bestimmten Forschungszweigs innerhalb der SEM, den Komposit-basierten SEM Verfahren. Komposit-basiertes SEM ist ein Überbegriff für alle SEM Methoden, die Kompositen - d.h. gewichtete Linearkombinationen aus Beobachtungen - zur Schätzung unbekannter Größen verwenden. Der Inhalt der Arbeit basiert auf einem Arbeitspapier (Kapitel 2), einem veröffentlichten referierten Zeitschriftenartikel (Kapitel 3), einem weiteren Arbeitspapier (Kapitel 4) und einer stetig wachsenden Dokumentation, die ich für das R-Paket cSEM geschrieben habe, bzw. kontinuierlich weiterschreibe (Kapitel 5). Das Paket cSEM - geschrieben von mir und Florian Schuberth, meinem ehemaligen Kollegen an der Universität Würzburg - stellt Funktionen zur Verfügung, um lineare, nichtlineare, hierarchische und Multigruppen-Strukturgleichungsmodelle mit Hilfe von Komposit-basierten Ansätzen und Verfahren zu schätzen, zu analysieren, zu bewerten, zu testen und zu untersuchen. In Kapitel 1 gehe ich zunächst kurz auf einige der wichtigsten SEM Begriffe ein. Kapitel 2 basiert auf einem Arbeitspapier mit dem Titel „Assessing overall model fit of composite models in structural equation modeling“, das im Journal of Business Research eingereicht werden wird. Der Artikel befasst sich mit dem Thema der Bewertung der Gesamtgüte des Modells (eng. overall model fit) im Kontext des Komposit-Modells. Das Papier leistet drei zentrale Beiträge zur Literatur zu diesem Thema. Erstens wird das Konzept der Modellgüte in der SEM im Allgemeinen und der Komposit-basierten SEM im Besonderen eingehend erörtert. Zweitens wird auf gängige Fit-Indizes eingegangen und erläutert, ob und wie sie zur Beurteilung eines Komposit-Modells angewendet werden können. Drittens wird gezeigt, dass der root mean square outer residual covariance (RMS_theta) identisch mit einem anderen bekannten Index, dem standardized root mean square residual (SRMR) ist, falls der RMS_theta als Maß für die Modellanpassungsgüte verwendet werden soll. Kapitel 3 basiert auf einem in Internet Research veröffentlichten Zeitschriftenartikel mit dem Titel „Measurement error correlation within blocks of indicators in consistent partial least squares: Issues and remedies“. Der Artikel entwickelt das consistent partial least squares (PLSc) Verfahren weiter, um konsistente Parameterschätzungen für Populationsmodelle zu erhalten, deren Indikatorblöcke korrelierte Messfehler enthalten. Dies wird erreicht, indem die Korrektur für die Dämpfung (eng. attenuation), wie sie ursprünglich von PLSc angewandt wird, so modifiziert wird, dass sie a priori Annahmen über die Struktur der Messfehlerkorrelationen innerhalb der Indikatorblöcke enthält. Um die statistische Gültigkeit der Modifikation zu beurteilen, wird eine Monte Carlo Simulation durchgeführt. Das Papier wurde gemeinsam mit Florian Schuberth und Theo Dijkstra verfasst. Kapitel 4 basiert auf einem zur Veröffentlichung in Industrial Management & Data Systems anstehenden Zeitschriftenartikel mit dem Titel „Estimating and testing second order constructs using PLS-PM: the case of composites of composites“. Der Zweck dieses Artikels ist ein dreifacher: (i) Bewertung und Vergleich gängiger Ansätze zur Schätzung von Modellen, die Konstrukte zweiter Ordnung enthalten, die als Komposite von Kompositen modelliert wurden; (ii) ein zweistufiges Testverfahren vorzustellen und statistisch zu bewerten, um die allgemeine Modellanpassung solcher Modelle zu testen und (iii) auf der Grundlage unserer Ergebnisse Empfehlungen für Praktiker zu formulieren. Darüber hinaus wurde eine Monte Carlo Simulation durchgeführt, um die Ansätze in Bezug auf Fisher-Konsistenz, geschätzte Verzerrung und RMSE zu vergleichen. Das Papier wurde gemeinsam mit Florian Schuberth und Jörg Henseler verfasst. Kapitel 5 stellt das R-Paket cSEM vor. Zum Zeitpunkt der Einreichung dieser Dissertation zur Begutachtung ist cSEM im Comprehensive R Archive Network (CRAN) als Version 0.2.0 verfügbar. KW - trukturgleichungsmodell KW - Komponentenanalyse KW - Composite-based SEM KW - Structural Equation Modeling (SEM) KW - Composite-based SEM KW - Partial Least Squares Path Modeling KW - Model Fit Assessment KW - R package Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:bvb:20-opus-215935 ER -