Charakterisierung von Punkt- und Intervallschätzern des gemittelt sequenziellen Populations-assoziierten Risikoanteils in der Epidemiologie kardiovaskulärer Erkrankungen

Characterization of Point and Interval Estimators for Average Sequential Population Attributable Fraction in Cardiovascular Disease Epidemiology

Please always quote using this URN: urn:nbn:de:bvb:20-opus-238161
  • Zielsetzung Die Entwicklung von Präventionsstrategien zur Senkung der Morbidität und Mortalität aufgrund von kardiovaskulären Erkrankungen (KVE) in der Bevölkerung stellt eine Hauptaufgabe der Epidemiologie und Public Health Forschung dar. In den vergangenen 20 Jahren rückte die Hochrisikoprävention im Zuge der Weiterentwicklung der Scoringsysteme für das KVE Hochrisiko-Screening in den Fokus der Leitlinien zur KVE Prävention. Jedoch sind die größten Erfolge aus einer komplementären Strategie aus Hochrisiko- und Populationsprävention mitZielsetzung Die Entwicklung von Präventionsstrategien zur Senkung der Morbidität und Mortalität aufgrund von kardiovaskulären Erkrankungen (KVE) in der Bevölkerung stellt eine Hauptaufgabe der Epidemiologie und Public Health Forschung dar. In den vergangenen 20 Jahren rückte die Hochrisikoprävention im Zuge der Weiterentwicklung der Scoringsysteme für das KVE Hochrisiko-Screening in den Fokus der Leitlinien zur KVE Prävention. Jedoch sind die größten Erfolge aus einer komplementären Strategie aus Hochrisiko- und Populationsprävention mit Priorität auf der Reduktion der Exposition von Risikofaktoren für KVE in der gesamten Population zu erwarten. Die Grundvoraussetzung für die Entwicklung effizienter, populationsweiter Präventionsprogramme ist das Verständnis einerseits der Rolle von Risikofaktoren bei der Krankheitsentstehung und andererseits der Bedeutung der Risikofaktoren auf Populationsebene. Der Populations-assoziierte Risikoanteil (PAF) ist das bevorzugte statistische Maß zur Quantifizierung des Effekts von Risikofaktoren auf Populationsebene, da er neben der Effektstärke eines Risikofaktors auch dessen Prävalenz berücksichtigt. In der Praxis erfolgt die Berechnung des PAF in multifaktoriellen Situationen mithilfe von Adjustierungsansätzen oder Partialisierungsansätzen. Partialisierungsansätze, zu denen auch der gemittelt sequenzielle PAF (gsPAF) gehört, erfüllen die Additivitätseigenschaft. Insbesondere der gsPAF kommt daher in der praktischen Anwendung zunehmend häufiger zum Einsatz. Das Ziel der vorliegenden Arbeit ist die Charakterisierung des gsPAF am Beispiel der Epidemiologie von KVE. Methoden In Projekt 1 erfolgt die theoretische Abgrenzung des gsPAF von anderen Adjustierungs- und Partialisierungsverfahren in Bezug auf Intention, Definition, Modellvoraussetzungen und -annahmen und Interpretation. Diese verschiedenen Konzepte werden in einer einheitlichen mathematischen Symbolik dargestellt, um das Verständnis zu erleichtern und Abweichungen in den Definitionen hervorzuheben. Anschließend wird in Projekt 2 der praktische Vergleich von modellbasierten Punktschätzern vorgenommen. Im Rahmen der Sekundäranalyse der ProsCIS-Studie über den Populationseinfluss von Risikofaktoren auf schlechtes Outcome nach Schlaganfall werden dem gsPAF ein additiver und ein multiplikativer Adjustierungsansatz gegenübergestellt und die Schätzergebnisse hinsichtlich Übereinstimmung der Größenordnung und Rangfolgen analysiert. In Projekt 3 werden im Rahmen einer Simulationsstudie nach dem proof-of-concept-Prinzip die asymptotischen Eigenschaften existierender modellfreier und modellbasierter Schätzer des gsPAF in Verbindung mit resamplingbasierten Konfidenzschätzern in einer Situation mit einem binären Outcome und drei binären Risikofaktoren unter insgesamt 296 Modellsituationen charakterisiert. Dabei wird die Abhängigkeit von der Stichprobengröße, der Prävalenz des Outcomes, der Prävalenz und Effektstärke der Risikofaktoren, der stochastischen Abhängigkeit der Risikofaktoren und ihrer Effekte auf das Outcome, der Vollständigkeit des statistischen Modells sowie des Outcome-Mechanismus untersucht. Abschließend erfolgt in Projekt 4 die Demonstration der gsPAF-Schätzung exemplarisch im Rahmen der Sekundäranalyse des deutschen Arms der EUROASPIRE IV-Studie. Hier wird der Einfluss von Baselinefaktoren auf das Auftreten rekurrenter kardiovaskulärer Ereignisse nach erstmaliger Hospitalisierung auf Populationsebene modelliert. Die Ergebnisse werden anschließend einer umfassenden Methodenkritik unterzogen. Dazu wird die Modellanpassung der Regressionsmodelle überprüft, die Performanz der gsPAF-Schätzung mit Hilfe der zuvor entwickelten Simulationsstudie evaluiert, eine exemplarische Stichprobenumfangsplanung durchgeführt sowie die Angemessenheit der Modellannahmen des gsPAF diskutiert. Ergebnisse %Die Möglichkeiten der statistischen Modellierung von PAF sind nahezu unbegrenzt. Projekt 1: Adjustierungs- und Partialisierungsmethoden beantworten verschiedene Fragestellungen. Dies resultiert aus dem unterschiedlichen Umgang beider Methoden mit Subgruppen, die bezüglich mehrerer Risikofaktoren gleichzeitig exponiert sind, und führt infolgedessen auch zu unterschiedlichen Interpretationen. Der PAF beschreibt den Anteil an der Ereigniswahrscheinlichkeit, der mit dem Vorliegen eines Risikofaktors assoziiert ist. Für den gsPAF muss zusätzlich betont werden, dass der Effekt in Subgruppen mit mehreren Risikofaktoren auf additive Weise zerlegt und der Anteil des Zusammenwirkens der beteiligten Risikofaktoren (Surplus) zu gleichen Anteilen den Risikofaktoren zugewiesen wird. Dahinter steckt die Annahme, dass dieser Teil nur durch das Zusammenwirken überhaupt entstehen konnte, wofür beide Risikofaktoren gleichermaßen verantwortlich gemacht werden. Im Gegensatz zu Adjustierungsmethoden erfüllen Partialisierungsmethoden zwar die Additivitätseigenschaft, gehen jedoch gleichzeitig mit spezifischen Modellannahmen einher, die Kenntnisse über die kausalen Verläufe der Risikofaktoren voraussetzen. Im Falle des gsPAF ist dies die Annahme, dass unter den betrachteten Risikofaktoren keine hierarchischen Abhängigkeiten herrschen. Die theoretische Basis des gsPAF ist derzeit nur für dichotome Outcomes umfangreich erarbeitet und deckt hier alle Ansprüche für den Praxiseinsatz ab: Modellfreie und modellbasierte Punktschätzer, zugehörige Varianzschätzer mit und ohne Berücksichtigung von Störgrößen und Konfidenzschätzer stehen zur Verfügung. Mathematische Eigenschaften wie Symmetrie, Dummyeigenschaft, Additivität und (internen) marginalen Rationalität des gsPAF und anderer Partialisierungsansätze wurden erörtert. Die verfügbare Software stellt derzeit nur Ausschnitte des Methodenspektrums zur Schätzung des gsPAF bereit und ist deshalb für den Einsatz in der empirischen Forschung zu KVE nur begrenzt nützlich. Eine erfolgreiche und effiziente Recherche zum gsPAF wird durch die uneinheitliche Verwendung der Fachtermini ''partieller'' und ''gemittelt sequenzieller'' PAF erschwert. Projekt 2: Der Vergleich von Ergebnissen aus einem Adjustierungsansatz mit Ergebnissen aus einem Partialisierungsansatz ist über den kombinierten PAF möglich, da der unterschiedliche Umgang mit Subgruppen, die bezüglich mehrerer Risikofaktoren gleichzeitig exponiert sind, nicht zum Tragen kommt, solange nur der kombinierte Risikofaktor im statistischen Modell berücksichtigt wird. Anhand des Datenbeispiels der ProsCIS-Studie wurde für diesen Parameter keine Abweichung der Ergebnisse des multiplikativen Ansatzes (Faktor 1,0) und nur eine geringe Abweichung des additiven Ansatzes (Faktor 1,1) vom gsPAF beobachtet. Die Größenordnungen der Schätzwerte einzelner Risikofaktoren sowie deren Summe sind zwischen Adjustierungs- und Partialisierungsmethoden nicht vergleichbar. Die Ergebnisse aus dem multiplikativen Regressionsmodell weichen bis zu einem Faktor von 1,3 von den Schätzwerten des gsPAF ab. Die Abweichungen aus dem additiven Regressionsmodell gehen deutlich darüber hinaus. Der gsPAF liefert nahezu additive Schätzergebnisse, während die Summe der risikofaktorspezifischen Schätzwerte aus den beiden Adjustierungsmethoden den kombinierten PAF übersteigt. Im Gegensatz zu vorangegangenen Studien wird die Rangfolge der Risikofaktoren im Datenbeispiel nicht wesentlich von der Schätzmethode beeinflusst. Projekt 3: Die Simulationsstudie charakterisiert die modellfreien und modellbasierten Punktschätzer des gsPAF und belegt deren Konsistenz und (asymptotische) Erwartungstreue, sofern das statistische Modell korrekt spezifiziert ist. Es zeigt sich, dass in kleinen Stichproben oder bei kleinen Ereigniswahrscheinlichkeiten der modellbasierte Schätzer erwartungstreu und damit dem modellfreien Schätzer überlegen ist. Die Berechnungszeit des modellbasierten Schätzers steigt jedoch superlinear mit steigender Stichprobengröße und mit steigender Anzahl von Variablen im Regressionsmodell an. Resamplingbasierte Methoden wie Bootstrap Normal, Perzentil und Jackknife eignen sich für die Schätzung von Konfidenzintervallen des gsPAF. Auch hier ist ein superlinearer Anstieg der Berechnungszeit insbesondere in Verbindung mit dem modellbasierten Schätzer mit steigender Stichprobengröße und mit steigender Anzahl der Risikofaktoren im statistischen Modell zu beobachten. Biologische Interaktionen von Risikofaktoren im Outcome-Mechanismus verändern die Wahrscheinlichkeit für Ereignisse in Subgruppen mit mehreren Risikofaktoren weg von einem stochastisch unabhängigen und hin zu einem stochastisch abhängigen Szenario. Diese Ereigniswahrscheinlichkeiten werden durch die Anpassung der Parameter im binär-logistischen Regressionsmodell angenähert. Modelle ohne Interaktionsterme repräsentieren aus statistischer Sicht immer einen Outcome-Mechanismus mit stochastischer Abhängigkeit. Interaktionsterme sind nur dann als biologische Interaktionen zu interpretieren, wenn der biologische Outcome-Mechanismus korrekt durch die logistische Regressionsfunktion beschrieben wird. Anderenfalls dienen die Interaktionsterme nur der Modellanpassung und spiegeln nicht die An- oder Abwesenheit biologischer Interaktionen wider. Die Vernachlässigung von relevanten Interaktionstermen führt zu ernstzunehmenden Verzerrungen der Modellparameter und infolgedessen zu stark verzerrten gsPAF-Schätzungen. Dies ist jedoch durch eine gewissenhafte Überprüfung der Modellanpassung während der Auswertung vermeidbar. Grundsätzlich liefert die modellbasierte Schätzung des gsPAF mit allen Interaktionstermen immer unverzerrte Ergebnisse. Die benötigte Stichprobengröße für eine aussagekräftige Schätzung des gsPAF übersteigt die für relative Maße und steigt mit der Anzahl zu betrachtender Variablen im Modell und mit sinkender Prävalenz des Outcomes an. Während für den PAF steigende Effektgrößen der Risikofaktoren die benötigte Stichprobengröße verkleinern, wurde in der Simulationsstudie ein umgekehrter Zusammenhang für den gsPAF beobachtet. Projekt 4: Die in den Projekten 1 und 3 gewonnenen Erkenntnisse wurden im Rahmen der Datenanalyse der EUROASPIRE IV-Studie am Praxisbeispiel untersucht und diskutiert. Das Regressionsmodell ohne Interaktionsterme lieferte verzerrte gsPAF-Schätzungen, was durch die Berücksichtigung von Interaktionstermen korrigiert werden konnte. Die resamplingbasierten Konfidenzintervalle überdeckten große Teile des Wertebereiches des gsPAF und liefern somit keine nützlichen Informationen für die epidemiologische Interpretation der Studienergebnisse. Die Validierung der gsPAF-Schätzungen mit Hilfe der Simulationsstudie machte auf die mangelnde Performanz der Punkt- und Konfidenzintervalle aufgrund der verhältnismäßig kleinen Stichprobengröße für die betrachtete Anzahl der Risikofaktoren aufmerksam. Die benötigte Stichprobengröße für eine performante Schätzung des gsPAF in einer Datensituation wie in der EUROASPIRE IV-Studie beobachtet wurde mit Hilfe der Simulationsstudie ermittelt. Dabei wurde deutlich, dass etwa das Zehnfache der vorliegenden Stichprobengröße benötigt würde, um den modellfreien Schätzer des gsPAF zusammen mit resamplingbasierten Konfidenzintervallen mit einer ausreichenden Performanz schätzen zu können. Da unter den in EUROASPIRE IV betrachteten Risikofaktoren hierarchische Abhängigkeiten vorliegen könnten, sind die Voraussetzungen für die Schätzung des gsPAF nicht erfüllt. Anstelle des gsPAF könnte im vorliegenden Beispiel ein adjustierter Schätzer zum Einsatz kommen, oder, sofern genügend Informationen über die kausalen Zusammenhänge unter den Risikofaktoren vorliegen, auch sequenzielle oder proportionale Partialisierungsansätze. Die durchgeführte Methodenkritik in Projekt 4 ermöglicht es, weitere Schritte zur Steigerung der Aussagekraft der Studienergebnisse zu unternehmen, beispielsweise durch die Wahl geeigneter statistischer Methoden und die Erhöhung des Stichprobenumfangs. Schlussfolgerungen Die Grundvoraussetzungen für die Gewinnung qualitativ hochwertiger Daten sind bekanntermaßen die Wahl eines der Forschungsfrage angemessenen Studiendesigns sowie die sorgfältige Studienplanung. Aufgrund der hohen Anzahl der Risikofaktoren und Störgrößen für kardiovaskuläre Erkrankungen sowie der Komplexität ihrer kausalen Verläufe erfordern Beobachtungsstudien zu KVE große Stichproben, um eine unverzerrte und valide Schätzung der Effekte von Risikofaktoren zu ermöglichen. Doch die gewonnenen Erkenntnisse eignen sich nur dann für Schlussfolgerungen im epidemiologischen und Public Health Kontext dann, wenn auch die statistische Analyse der Studiendaten mit einer ebenso hohen Qualität erfolgt. Eine qualitativ hochwertige Datenanalyse zeichnet sich aus durch (1) die Auswahl der statistischen Methoden passend zur Forschungsfrage, (2) die Berücksichtigung aktueller methodischer Forschungsergebnisse, (3) die sorgfältige Überprüfung der Modellannahmen und Modellanpassung, (4) die Sicherstellung und Überprüfung einer guten Performanz der Punkt- und Konfidenzschätzer und (5) die realistische Interpretation der Ergebnisse unter Berücksichtigung der Modellvoraussetzungen und -annahmen. Ein gewissenhafter Umgang mit den statistischen Methoden ist erforderlich, um belastbare Schlussfolgerungen aus Beobachtungsstudien ziehen zu können. Dies gilt insbesondere im Kontext von Sekundärdatenanalysen, die einen beträchtlichen Anteil der Publikationen darstellen. Simulationsstudien sind ein schlagkräftiges Werkzeug für die Validierung der verwendeten statistischen Methoden und ermöglichen die Einschätzung des Informationsgehaltes von Analyseergebnissen. Sie sind ausgesprochen flexibel und lassen sich an beliebige Datensituationen anpassen. Das macht sie zu einem unverzichtbaren Qualitätskriterium für die Publikation empirischer Studien. Jeder Validierungsschritt trägt wesentlich zu einer verbesserten Qualität der Publikationen bei. Damit entsteht eine solide Basis, um die kausalen Verläufe der Risikofaktoren aufzudecken und die Entwicklung von Präventionsprogrammen zur Verbesserung des Gesundheitsstatus in der Population durch Reduktion der Morbidität und Mortalität von KVE voranzubringen.show moreshow less
  • Aims The development of prevention programs to reduce morbidity and mortality from cardiovascular diseases (CVD) in the population is a fundamental principle in epidemiology and public health research. During the last two decades, the development and advances of high-risk screening scores led to an increased emphasis on high-risk approaches in guidelines for CVD prevention. However, best results in reducing morbidity and mortality from CVD in the population are expected from a complementary strategy including both, high-risk andAims The development of prevention programs to reduce morbidity and mortality from cardiovascular diseases (CVD) in the population is a fundamental principle in epidemiology and public health research. During the last two decades, the development and advances of high-risk screening scores led to an increased emphasis on high-risk approaches in guidelines for CVD prevention. However, best results in reducing morbidity and mortality from CVD in the population are expected from a complementary strategy including both, high-risk and population-wide prevention, with priority on reducing the exposure of CVD risk factors in the population. The prerequisite for the development of efficient population-wide prevention programs is a precise understanding of the risk factors' roles in the disease mechanism and their overall impact on the population. Population-attributable fraction (PAF) is the preferred statistical measure to quantify the overall effect of one or more risk factors from the population perspective, since it takes the risk factor’s effect size as well as its prevalence into account. In multifactorial situations, PAF can be calculated via adjustment or partialization approaches. The average sequential PAF (gsPAF) belongs to the latter group and shares the property of additivity. This measure is increasingly used in practical applications of CVD research recently. This dissertation aims to characterize the gsPAF in an exemplary way for application in CVD research. Methods In project 1, gsPAF is compared to other adjustment and partialization methods from a theoretical point of view with focus on intention, definition, model requirements and assumptions and interpretation. A unified mathematical formalism is chosen to facilitate the understanding of similarities and discrepancies between the concepts. The practical comparison of model-based point estimators is conducted in project 2 by analyzing the population impact of risk factors for death and functional dependency one year after stroke in the course of a secondary data analysis of the ProsCIS study. Three model-based estimators, namely the gsPAF, the adjusted PAF from a multiplicative and the adjusted PAF from an additive regression model, are analyzed regarding consistency of magnitudes and the ranking of estimates. In project 3, a simulation study following the proof-of-concept principle reveals the asymptotic properties of non model-based and model-based gsPAF estimators in conjunction with resampling-based confidence intervals in a situation with a binary outcome and three binary risk factors under 296 different model situations. Dependency of the estimators with respect to sample size, prevalence of outcome, prevalence and effect size of risk factors, interactions between risk factors and combined effects on outcome, completeness of statistical models and outcome mechanism is analyzed. Non model-based and model-based gsPAF estimators are used in project 4 in the course of a secondary analysis of data from the German subgroup of the EUROASPIRE IV-study to investigate the population impact of risk factors on recurrent cardiovascular events after first-ever hospitalization. Subsequently, a comprehensive assessment of methodology is conducted, including (a) examination of model fit and performance considerations under the given data condition using the simulation study, (b) illustrative sample size calculation and (c) discussion of suitability of model requirements and assumptions in order to ensure a valid estimation and interpretation of study results. Results Project 1: Adjustment and partialization methods provide answers to different questions. This results from their divergent strategies of handling subgroups with multiple exposures and consequently leads to different interpretations. PAF can be interpreted as the amount of outcome probability, that is associated with the presence of a risk factor in the population. In the interpretation of gsPAF estimates it must be stressed that the effect in subgroups with multiple exposures is partitioned in an additive manner and the resulting summand related to the joint effect (called ''surplus'') is evenly apportioned and assigned to the involved risk factors. This mechanism covers the implicit assumption, that existence of the surplus is caused by the joint action of the risk factors, which holds both factors equally accountable. In contrast to adjustment methods, partialization methods fulfill the property of additivity. However, this happens in exchange for further model assumptions which require understanding of the causal relationships of the risk factors. In the case of gsPAF, the assumption is that there are no mutual hierarchical dependencies among the risk factors. The soundness of such assumptions about the underlying biological mechanisms must be reviewed critically. The theoretical basis of gsPAF is developed extensively for binary outcomes and meets the various demands of practical applications: non model-based and model-based point estimators, corresponding variance estimators with or without adjustment for confounders, and confidence estimators are available and the mathematical properties of the gsPAF are elucidated. Yet, available software packages cover only parts of these various methodological options and are therefore of limited value for application in CVD research. An efficient enquiry of gsPAF literature is hampered by the heterogeneous use of the technical terms ''average sequential'' and ''partial'' PAF. Project 2: Estimation results from adjustment and partialization methods can be compared with regard to the combined PAF, since the diverging strategies of handling subgroups with multiple exposures has no impact as long as only one risk factors, namely the combined risk factor, is considered. The results from the secondary analysis of the ProsCIS-study show no discrepancy of combined PAF between gsPAF and the adjusted PAF based on a multiplicative regression model (factor 1.0) and only a small deviation for the adjusted PAF based on an additive regression model (factor 1.1). Worthy of note is, however, the incomparability of magnitudes and ordering of risk factor specific estimates. Estimates of gsPAF are surpassed from adjusted PAF based on multiplicative regression by factor 1.3 and from adjusted PAF based on a additive regression by even higher factors. While gsPAF yields fairly additive results, both adjustment methods do not. In contrast to previous results, no notable alteration of the risk factors' ordering was observed in the ProsCIS-study with regard to the model choice of PAF. Project 3: The simulation study characterizes non model-based and model-based estimators of the gsPAF and proves both, consistency and asymptotic unbiasedness, given that the statistical model is correctly specified with respect to interaction terms and completeness of variables in the model. The model-based estimator is unbiased even in small samples and in situations with small outcome prevalences and outperforms the non model-based estimator. However, computational time of the model-based estimator increases with increasing sample size and number of variables in the model. Resampling-based methods such as Bootstrap with normality assumption and percentile as well as Jackknife are suited for confidence interval estimation. Here, the computational time especially in conjunction with the model-based estimator shows a superlinear increase with increasing sample size. Sufficient sample sizes for performant estimations of gsPAF exceed those for relative effect measures such as risk and odds ratio and increase with increasing number of variables and decreasing prevalence of outcome. While sample sizes for PAF decrease with increasing prevalence and effect size of a risk factor, a reverse relation was observed for gsPAF, stressing the need for further investigations using a stretch-methods simulation study that also takes the asymptotic variance formula and resulting confidence intervals into account. Biological interactions cause the outcome probability in subgroups with multiple risk factors to shift from the expected probability under stochastic independence towards stochastic dependence. These outcome probabilities are targeted with binary-logistic regression analysis by estimating the regression coefficients. Binary-logistic regression models without interaction terms, however, represent an outcome mechanism that corresponds to stochastic dependency. This means, interaction terms do not necessarily reflect the presence or absence of biological interactions. In fact, interaction terms in the regression model represent biological interactions only if the outcome mechanism is properly described by the logistic regression function. Ignoring relevant interaction terms when fitting a model causes a poor estimation of regression parameters and yields severely biased gsPAF estimates. This can be avoided by examining the consistency of the stratum-specific outcome probabilities in the data set with the predicted probabilities from the fitted regression model. In addition, using a regression model with full interaction pattern when estimating gsPAF guarantees unbiased estimates. Project 4: The findings from projects 1 and 3 were considered during the analysis of the EUROASPIRE IV-study. The regression model without interaction terms led to biased regression parameters and gsPAF estimates, which was corrected by introducing interaction terms. Resampling-based confidence intervals covered large parts of the range of gsPAF and failed to provide useful information.Validation of the gsPAF estimates using a simulation study revealed an insufficient performance of point and confidence interval estimators due to the relatively small sample size for the chosen number of risk factors. The required sample size for a performant estimation of the gsPAF in a data situation as observed in the EUROASPIRE IV study was calculated using the simulation study. It was shown, that the actual sample size multiplied by approximately factor ten would be sufficient to estimate the non model-based gsPAF and resampling-based confidence intervals with a satisfying performance. Due to the fact, that hierarchical dependencies of the risk factors could be possible, the model requirements for gsPAF estimation are not fulfilled. Instead of gsPAF, the adjusted PAF seems to be a better choice. Also sequential or proportional PAF could be more suitable, if sufficient information about the causal relationships between the risk factors is available. These findings provide opportunity to take further steps for improving the data situation and analysis, for example by pooling data sets from comparable studies and choosing more appropriate statistical methods. Conclusions The prerequisites for a good quality of the study data are known to be an appropriate study design and a prudent study planning and implementation process. Due to the high number and complex causal pathways of risk factors and confounders, observational studies on CVD require large sample sizes to ensure unbiased and high performant estimates. However, findings that are valuable for interpretation and conclusions in the epidemiological and public health context also depend on an equally high-standard data analytics process. A high-quality data analysis is characterized by (1) the application of statistical methods suitable to the research question, (2) the consideration of recent methodological advancements, (3) a careful examination of model assumptions and model fitting, (4) the verification of reasonable performance of point and interval estimators and (5) a realistic interpretation of results while accurately considering model requirements and assumptions. A decent validation of study results indicates the conscientiousness and diligence that is necessary when using statistical methods to draw conclusions from observational data, in particular in the context of secondary data analysis. Simulation studies are a powerful tool for validation of statistical methods and allow judging the informative value of the obtained results. They are utmost flexible and can be adapted to a wide range of data situations, what makes them to an indispensable quality criterion for the publication of empirical study results. Every validation step contributes to an improvement of the quality of publications. This provides a sound basis for unraveling the causal pathways of risk factors and developing prevention programs to improve the health status in the population by reducing morbidity and mortality from CVD.show moreshow less

Download full text files

Export metadata

Metadaten
Author: Carolin Malsch
URN:urn:nbn:de:bvb:20-opus-238161
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Graduate Schools
Faculties:Graduate Schools / Graduate School of Life Sciences
Referee:Prof. Dr. Peter U. Heuschmann, Prof. Dr. Stefan Störk, Prof. Dr. Thomas Dandekar, Prof. Dr. Karl-Ernst Biebler
Date of final exam:2021/05/19
Language:German
Year of Completion:2021
DOI:https://doi.org/10.25972/OPUS-23816
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 51 Mathematik / 519 Wahrscheinlichkeiten, angewandte Mathematik
Tag:attributable fraction; attributable risk; population attributable fraction
CCS-Classification:J. Computer Applications / J.3 LIFE AND MEDICAL SCIENCES / Health
MSC-Classification:62-XX STATISTICS / 62-02 Research exposition (monographs, survey articles)
Release Date:2021/05/31
Licence (German):License LogoDeutsches Urheberrecht mit Print on Demand