Genomvergleich: schnellere Analyse
Dank des technologischen Fortschritts in der Sequenzierung des Erbguts können wir heute das Genom zahlreicher Organismen entschlüsseln. Angesichts dieser Flut von Daten schwankender Qualität stellt sich in der Biologie jedoch die Frage, wie sich solche Datenvolumen effizient und konsistent analysieren lassen.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Zunächst sollen geeignete Instrumente für die Organisation der genomischen Daten entwickelt und anschliessend vergleichbare biologische Elemente – etwa ähnliche Gene in unterschiedlichen Arten – abgeleitet werden. Auf der Grundlage unterschiedlicher genomischer Daten können weitere Spezies untersucht werden – ein wichtiger Aspekt für das bessere Verständnis der Evolution. Zweitens sollen neue Algorithmen des maschinellen Lernens entwickelt werden, die die Gene mit den interessantesten Merkmalen aus Zehntausenden im Erbgut vorhandenen Genen identifizieren können. Deren intensive Erforschung mithilfe von Modellierungen wird uns ermöglichen, ihre Interaktionen und ihre Entwicklung besser zu verstehen.
Hintergrund
Die Bestimmung der für die Entwicklung von Organismen wichtigen Gene hilft uns zu erkennen, welche dieser Gene überlebenswichtige Funktionen steuern. In der Medizin ist es etwa wichtig zu wissen, ob ein Gen, das in einem Modellorganismus (etwa einer Maus) identifiziert wurde, im menschlichen Organismus die gleiche Funktion hat. Um Fragen dieser Art zu beantworten, benötigen wir komplexe Rechenverfahren und hochwertiges Datenmaterial. Daher beschränken sich heutige Verfahren auf wenige, sehr gut erforschte Organismen und lassen die aktuell generierten Datenvolumen geringerer Qualität unberücksichtigt.
Ziele
Ziel dieses Projekts ist die Entwicklung neuer Rechenkonzepte zur Verarbeitung genomischer Daten mit schwankender Qualität für einen Vergleich des Erbguts unterschiedlicher Organismen. Mithilfe von Methoden des maschinellen Lernens wollen wir die Interaktionen zwischen den Genen modellieren, um beispielsweise die Entwicklung der Gengruppen zu verstehen, die an Stoffwechselvorgängen beteiligt sind.
Bedeutung / Anwendung
Das Projekt aus dem Bereich der Biologie passt insofern perfekt zur Big-Data-Thematik, als es sich mit dem Umfang, der Heterogenität und der Qualität von genomischen Daten befasst. Da Konzepte für das Management und den Vergleich von Daten entwickelt werden sollen, ist es auch für andere Fachbereiche interessant, etwa für die Linguistik. Maschinelles Lernen ist ein zentrales Element der Computerwissenschaften.
Resultate
Mit dem Projekt wurden zwei wesentliche Ergebnisse erzielt:
Um Proteinsequenzen, die aus neu sequenzierten Genomen stammen, effizient und robust zu verarbeiten, wurde erstens OMAmer entwickelt, ein neuartiges Alignement-freies Verfahren zur Klassifizierung von Proteinfamilien und -unterfamilien, das sich für phylogenomische Datenbanken mit Tausenden von Genomen eignet. Dabei konnte auch gezeigt werden, dass dieser Ansatz auf reale Probleme der vergleichenden Genomik anwendbar ist. Solche Datensätze werden mit den neuen Bemühungen um eine gross angelegte vergleichende Genomik immer zahlreicher, und es kann erwartet werden, dass OMAmer und die daraus abgeleiteten Werkzeuge eine wichtige Rolle dabei spielen werden, diese Datensätze für die Beantwortung biologischer Fragen nutzbar zu machen.
Zweitens konnten Fortschritte bei der Nutzung von Big Data gemacht werden, um mithilfe modernster Methoden der künstlichen Intelligenz subtile Signale der Koevolution in biologischen Sequenzen zu erkennen. Obwohl sich dieses Projekt auf die Koevolution konzentrierte, kann der entwickelte Ansatz des maschinellen Lernens auch auf andere molekulare Prozesse angewendet werden, z. B. auf die Erkennung von Selektion. Der nächste Schritt in diese Richtung ist die Verwendung der Selectome-Datenbank (eine Ressource für positive Selektion in Wirbeltiergenomen), die im Rahmen dieses Projekts aktualisiert wurde.
Originaltitel
Efficient and accurate comparative genomics to make sense of high volume low quality data in biology