Applied machine learning for the analysis of CRISPR-Cas systems

Yu, Yanying

doi:10.25972/OPUS-32021

search hit 6 of 100

Back to Result List

Applied machine learning for the analysis of CRISPR-Cas systems

Angewandtes maschinelles Lernen für die Analyse von CRISPR-Cas-Systemen

Please always quote using this URN: urn:nbn:de:bvb:20-opus-320219

Yanying Yu

Among the defense strategies developed in microbes over millions of years, the innate adaptive CRISPR-Cas immune systems have spread across most of bacteria and archaea. The flexibility, simplicity, and specificity of CRISPR-Cas systems have laid the foundation for CRISPR-based genetic tools. Yet, the efficient administration of CRISPR-based tools demands rational designs to maximize the on-target efficiency and off-target specificity. Specifically, the selection of guide RNAs (gRNAs), which play a crucial role in the target recognition ofAmong the defense strategies developed in microbes over millions of years, the innate adaptive CRISPR-Cas immune systems have spread across most of bacteria and archaea. The flexibility, simplicity, and specificity of CRISPR-Cas systems have laid the foundation for CRISPR-based genetic tools. Yet, the efficient administration of CRISPR-based tools demands rational designs to maximize the on-target efficiency and off-target specificity. Specifically, the selection of guide RNAs (gRNAs), which play a crucial role in the target recognition of CRISPR-Cas systems, is non-trivial. Despite the fact that the emerging machine learning techniques provide a solution to aid in gRNA design with prediction algorithms, design rules for many CRISPR-Cas systems are ill-defined, hindering their broader applications. CRISPR interference (CRISPRi), an alternative gene silencing technique using a catalytically dead Cas protein to interfere with transcription, is a leading technique in bacteria for functional interrogation, pathway manipulation, and genome-wide screens. Although the application is promising, it also is hindered by under-investigated design rules. Therefore, in this work, I develop a state-of-art predictive machine learning model for guide silencing efficiency in bacteria leveraging the advantages of feature engineering, data integration, interpretable AI, and automated machine learning. I first systematically investigate the influential factors that attribute to the extent of depletion in multiple CRISPRi genome-wide essentiality screens in Escherichia coli and demonstrate the surprising dominant contribution of gene-specific effects, such as gene expression level. These observations allowed me to segregate the confounding gene-specific effects using a mixed-effect random forest (MERF) model to provide a better estimate of guide efficiency, together with the improvement led by integrating multiple screens. The MERF model outperformed existing tools in an independent high-throughput saturating screen. I next interpret the predictive model to extract the design rules for robust gene silencing, such as the preference for cytosine and disfavoring for guanine and thymine within and around the protospacer adjacent motif (PAM) sequence. I further incorporated the MERF model in a web-based tool that is freely accessible at www.ciao.helmholtz-hiri.de. When comparing the MERF model with existing tools, the performance of the alternative gRNA design tool optimized for CRISPRi in eukaryotes when applied to bacteria was far from satisfying, questioning the robustness of prediction algorithms across organisms. In addition, the CRISPR-Cas systems exhibit diverse mechanisms albeit with some similarities. The captured predictive patterns from one dataset thereby are at risk of poor generalization when applied across organisms and CRISPR-Cas techniques. To fill the gap, the machine learning approach I present here for CRISPRi could serve as a blueprint for the effective development of prediction algorithms for specific organisms or CRISPR-Cas systems of interest. The explicit workflow includes three principle steps: 1) accommodating the feature set for the CRISPR-Cas system or technique; 2) optimizing a machine learning model using automated machine learning; 3) explaining the model using interpretable AI. To illustrate the applicability of the workflow and diversity of results when applied across different bacteria and CRISPR-Cas systems, I have applied this workflow to analyze three distinct CRISPR-Cas genome-wide screens. From the CRISPR base editor essentiality screen in E. coli, I have determined the PAM preference and sequence context in the editing window for efficient editing, such as A at the 2nd position of PAM, A/TT/TG downstream of PAM, and TC at the 4th to 5th position of gRNAs. From the CRISPR-Cas13a screen in E. coli, in addition to the strong correlation with the guide depletion, the target expression level is the strongest predictor in the model, supporting it as a main determinant of the activation of Cas13-induced immunity and better characterizing the CRISPR-Cas13 system. From the CRISPR-Cas12a screen in Klebsiella pneumoniae, I have extracted the design rules for robust antimicrobial activity across K. pneumoniae strains and provided a predictive algorithm for gRNA design, facilitating CRISPR-Cas12a as an alternative technique to tackle antibiotic resistance. Overall, this thesis presents an accurate prediction algorithm for CRISPRi guide efficiency in bacteria, providing insights into the determinants of efficient silencing and guide designs. The systematic exploration has led to a robust machine learning approach for effective model development in other bacteria and CRISPR-Cas systems. Applying the approach in the analysis of independent CRISPR-Cas screens not only sheds light on the design rules but also the mechanisms of the CRISPR-Cas systems. Together, I demonstrate that applied machine learning paves the way to a deeper understanding and a broader application of CRISPR-Cas systems.…
Unter den Verteidigungsstrategien, welche sich über Millionen von Jahren in Mikroben entwickelt haben, hat sich das angeborene adaptive CRISPR-Cas Immunsystem in vielen Bakterien und den meisten Archaeen verbreitet. Flexibilität, Einfachheit und Spezifizität von CRISPR-Cas Systemen bilden die Grundlage für CRISPR-basierten genetischen Werkzeugen. Dennoch verlangt die effiziente Anwendung CRISPR-basierter genetischer Werkzeuge ein rationales Design, um die Effektivität zu maximieren und Spezifizität zu gewährleisten. Speziell die Auswahl anUnter den Verteidigungsstrategien, welche sich über Millionen von Jahren in Mikroben entwickelt haben, hat sich das angeborene adaptive CRISPR-Cas Immunsystem in vielen Bakterien und den meisten Archaeen verbreitet. Flexibilität, Einfachheit und Spezifizität von CRISPR-Cas Systemen bilden die Grundlage für CRISPR-basierten genetischen Werkzeugen. Dennoch verlangt die effiziente Anwendung CRISPR-basierter genetischer Werkzeuge ein rationales Design, um die Effektivität zu maximieren und Spezifizität zu gewährleisten. Speziell die Auswahl an Leit-RNAs, oder auch „guide“ RNAs (gRNAs), welche eine essentielle Rolle in der Ziel-Erkennung des CRISPR-Cas Systems spielen, ist nicht trivial. Trotz aufkommender Techniken des maschinellen Lernens, die mit Hilfe von Vorhersage-Algorithmen eine Unterstützung im gRNA-Design darstellen, sind die Design-Regeln für viele CRISPR-Cas Systeme schlecht definiert und die breite Anwendung dadurch bisher gehindert. CRISPR Interferenz (CRISPRi), eine Methode der Genrepression, nutzt ein katalytisch inaktives Cas-Protein, um die Gen-Transkription zu verhindern und ist eine führende Technik für Gen-Funktionsstudien, der Manipulation von Stoffwechselwegen und genomweiter Screens in Bakterien. Auch wenn viele der Anwendungen vielversprechend sind, ist die Umsetzung aufgrund der wenig untersuchten Design-Regeln schwierig. Daher entwickele ich in dieser Arbeit ein hochmodernes auf maschinellem Lernen basierendes Modell für die Vorhersage der gRNA Genrepressions-Effizienz in Bakterien, wobei die Merkmalskonstruktion, Datenintegration, interpretierbare künstliche Intelligenz (KI) und automatisiertes maschinelles Lernen genutzt wurden. Zuerst untersuche ich systematisch die Einflussfaktoren, welche zum Ausmaß der Depletion in genomweiten CRISPRi-Screens zur Gen-Essentialität in Escherichia coli beitragen und demonstriere den überraschend dominanten Beitrag genspezifischer Effekte, wie z. B. dem Genexpressionslevel. Diese Beobachtungen erlaubten mir die genspezifischen Störvariablen mit einem sogenannten mixed-effect random forest (MERF) Modell zu segregieren, um eine bessere Einschätzung der gRNA Effizienz zu erreichen und durch die Integration zusätzlicher Screen-Daten noch weiter zu verbessern. Das MERF Modell übertraf dabei bereits existierende Werkzeuge in einem unabhängigen Hochdurchsatz Sättigungs-Screen. Als nächstes interpretiere ich die Modell Vorhersage, um Design-Regeln für eine solide Genrepression zu extrahieren, wie z. B. eine Präferenz für Cytosin und eine Abneigung gegenüber Guanin und Thymin innerhalb und der „protospacer adjacent motif“ (PAM) direkt umgebenden Sequenz. Weiterhin integrierte ich das MERF Modell in einem Web-basierten Werkzeug, welches unter www.ciao.helmholtz-hiri.de frei zugänglich ist. Ein Vergleich von existierenden Werkzeugen mit dem MERF Modell zeigt, dass alternative, für CRISPRi in Eukaryoten optimierte, gRNA Design-Werkzeuge schlecht abschneiden, sobald sie in Bakterien angewandt werden. Dies lässt Zweifel an einer robusten Übertragbarkeit dieser Vorhersage-Algorithmen zwischen verschiedenen Organismen. Zusätzlich haben CRISPR-Cas Systeme, trotz einiger genereller Gemeinsamkeiten, höchst diverse Wirkungsmechanismen. Die Vorhersagemuster eines Datensets sind daher schlecht generalisierbar, sobald sie auf andere Organismen oder CRISPR-Cas Techniken angewandt werden. Diese Lücke kann mit dem hier präsentierten Ansatz des maschinellen Lernens für CRISPRi geschlossen werden und als eine Vorlage für die Entwicklung effektiver Vorhersage-Algorithmen für spezifische Organismen oder CRISPR-Cas Systeme dienen. Der explizite Arbeitsablauf beinhaltet drei Hauptschritte: 1) Aufnehmen des Merkmalsets des jeweiligen CRISPR-Cas Systems bzw. der CRISPR-Cas Technik; 2) Optimierung des maschinellen Lernen Modells durch automatisiertes maschinelles Lernen; 3) Erklärung des Modells mit interpretierbarer KI. Um die Anwendbarkeit des Arbeitsablaufs und die Diversität der Ergebnisse, im Zusammenhang mit unterschiedlichen Organismen und CRISPR-Cas Systemen, zu demonstrieren, habe ich diese Arbeitsschritte zur Analyse drei unterschiedlicher genomweiter Screens angewandt. Von dem CRISPR „base editor“ Essentialitäts-Screen in E. coli, konnten die PAM Präferenzen und der Sequenzkontext innerhalb des Editierungsfensters für eine effiziente Editierung abgeleitet werden. Beispielsweise tragen ein A an der zweiten PAM Position, ein A/TT/TG an der PAM direkt nachgeschalten Position und ein TC an der vierten oder fünften gRNA Position zur effizienten Editierung bei. Im CRISPR-Cas13a Screen in E. coli, stellten wir eine starke Korrelation zwischen dem Genexpressionslevel und der gRNA-Depletion fest. Zusätzlich ist das Expressionslevel des Ziel-Gens der stärkste Vorhersagefaktor des Modells, was das Expressionslevel als Hauptdeterminante für die Cas13-induzierte Immunität hervorhebt und die bessere Charakterisierung von CRISPR-Cas13 Systemen ermöglicht. Aus dem CRISPR-Cas12a Screen in Klebsiella pneumoniae, habe ich gRNA Design Regeln für die robuste antimikrobielle Aktivität über unterschiedliche K. pneumoniae Stämme hinweg extrahiert und einen Vorhersage-Algorithmus für das gRNA Design bereitgestellt. Dies ermöglicht die Nutzung von Cas12a als eine alternative Lösung, um Antibiotikaresistenzen zu bekämpfen. Zusammengefasst präsentiert diese Thesis einen akkuraten Vorhersage-Algorithmus für die CRISPRi gRNA Effizienz in Bakterien und gibt Einblicke in die Determinanten für eine effiziente Genrepression und optimales gRNA Design. Die systematische Exploration führte zu einem robusten Ansatz des maschinellen Lernens für effektive Modell Entwicklungen in unterschiedlichen bakteriellen Spezies und CRISPR-Cas Systemen. Durch die Anwendung dieses Ansatzes auf unabhängige CRISPR-Cas Screens, konnte ich nicht nur wichtige Design Regeln ableiten, sondern auch die Mechanismen der jeweiligen CRISPR-Cas Systeme besser erleuchten. Zu guter Letzt demonstriere ich hier, dass angewandtes maschinelles Lernen den Weg zu einem tieferen Verständnis und einer breiteren Anwendung von CRISPR-Cas Systemen ebnen kann.…

Metadaten
Author:	Yanying Yu ORCiD
URN:	urn:nbn:de:bvb:20-opus-320219
Document Type:	Doctoral Thesis
Granting Institution:	Universität Würzburg, Graduate Schools
Faculties:	Medizinische Fakultät
	Graduate Schools / Graduate School of Life Sciences
Referee:	Jun.-Prof. Dr. Lars Barquist, Prof. Dr. Marco Galardini
Date of final exam:	2023/06/23
Language:	English
Year of Completion:	2024
DOI:	https://doi.org/10.25972/OPUS-32021
Sonstige beteiligte Institutionen:	Helmholtz Institute for RNA-based Infection Research (HIRI)
Dewey Decimal Classification:	6 Technik, Medizin, angewandte Wissenschaften / 61 Medizin und Gesundheit / 610 Medizin und Gesundheit
GND Keyword:	Maschinelles LernenGND; CRISPR/Cas-MethodeGND; BakterienGND
Tag:	CRISPR-Cas; guide effiiciency; machine learning
Release Date:	2024/06/24
Licence (German):	CC BY-SA: Creative-Commons-Lizenz: Namensnennung, Weitergabe unter gleichen Bedingungen 4.0 International

Applied machine learning for the analysis of CRISPR-Cas systems

Angewandtes maschinelles Lernen für die Analyse von CRISPR-Cas-Systemen

Download full text files

Export metadata

Additional Services