Mass spectrometric data processing for metabolomics and fluxomics : a flexible evaluation framework with quality awareness

  • Auswertung massenspektrometrischer Rohdaten für Metabolomics und Fluxomics : ein flexibles Framework mit besonderer Berücksichtigung der Auswertequalität

von Haugwitz, Max; Wiechert, Wolfgang (Thesis advisor); Schuppert, Andreas (Thesis advisor)

Aachen (2016)
Doktorarbeit

Dissertation, RWTH Aachen, 2016

Kurzfassung

Metabolomics und Fluxomics haben ein breites Anwendungsspektrum, das von der funktionellen Genomik bis hin zum Metabolic Engineering reicht. Zentrale experimentelle Techniken in diesem Bereich beinhalten die Markierung von Molekülen mit stabilen Isotopen, insbesondere 13C, in Kombinationen mit chromatographischen und massenspektrometrischen Analyseverfahren (LC-MS/MS). Die Auswertung der analytischen Rohdaten ist ein Faktor, der Dauer und Qualität der Analysen wesentlich beeinflusst. Diese Arbeit befasst sich mir der Entwicklung von Methoden zur Analyse der in 13C-Experimenten mit einem speziellen LC-MS/MS-Verfahren, dem Multiple Reaction Monitoring, generierten Rohdaten, sowie deren kritischer Bewertung. Ein wesentlicher Bestandteil dieser Arbeit ist die Entwicklung eines neuartigen Workflows zur semiautomatischen Prozessierung der Rohdaten, der Methoden der Signalprozessierung und Mustererkennung vereint. Die Anwendbarkeit des Workflows, implementiert in der in dieser Arbeit entwickelten Endnutzer-Software MRMQuant, wird durch Anwendung auf Metabolomics-, stationäre (Datensatz CG STAT) und dynamische (Datensatz CG DYN) Fluxomics-, sowie Proteomics-Daten demonstriert. Für CG DYN mit 15.000 Chromatogrammen kann die Dauer der Auswertung der Daten von 1,5 Arbeitswochen mit der bisher etablierten Herstellersoftware Analyst TM durch MRMQuant auf 1,5 Arbeitstage verkürzt werden. Am Beispiel von CG STAT werden die mit MRMQuant generierten Resultate mit einer von einem Experten generierten Lösung quantitativ verglichen. Die berechneten 13C-Markierungsverhältnisse stimmen in 97% aller Fälle bis auf eine absolute Abweichung kleiner 2% überein, auf Ebene der Peakflächen gibt es dagegen klare Diskrepanzen zwischen den Lösungen (40% der Fälle mit einer relativen Abweichung größer 2,5%). Zur Bewertung dieser Abweichungen wurden zwei Studien durchgeführt, in denen 10 Mitarbeiter des IBG-1 synthetische und experimentelle Rohdaten manuell auswerteten. Selbst zwischen sehr erfahrenen Teilnehmern ist bei Auswertung komplizierter Chromatogramme eine Streuung der Peakflächen im Bereich von 10% bis 20% keine Seltenheit, wodurch die Limitierungen hinsichtlich der Bewertung der absoluten Richtigkeit der Analyseergebnisse aufzeigt werden. Es wird jedoch ebenfalls demonstriert, dass die mit MRMQuant generierten Ergebnisse vergleichbar zu den manuell generierten Lösungen der Teilnehmer sind. Die Analyse der Resultate für CG DYN zeigt auf, dass eine weitere Beschleunigung der Auswertung eine Automatisierung der zeitintensiven manuellen Verifikation der Resultate voraussetzt. Erstmals wird untersucht, ob One-Class Support Vector Machines zur Identifikation inkonsistenter Integrationen von Chromatogrammen eingesetzt werden können. Für Datensätze mit stabilen chromatographischen Messbedingungen wird mehrheitlich eine Sensitivität und Spezifizität oberhalb von 90% erreicht, das Verfahren muss aber optimiert werden, um graduelle Integrationsfehler erkennen zu können. Als zentrales Resultat dieser Arbeit wurde die MRMQuant-Software, die insgesamt 67.000 Zeilen C++-Code umfasst, als Werkzeug zur Analyse der 13C-Markierungsdaten im IBG-1 etabliert und hat die vormals etablierte Herstellersoftware ersetzt.

Einrichtungen

  • Lehrstuhl für Computational Systems Biotechnology (FZ Jülich) [420410]

Identifikationsnummern