Die Arbeit ermöglicht es uns, unser Wissen über die Entstehung des Organismus und seine Krankheiten zu vertiefen.
VALENCIA, 11. April (EUROPA PRESS) –
Ein Team des Instituts für Integrative Systembiologie (UV-CSIC) hat in „Nature Methods“ eine eigene Software zur Analyse von Daten veröffentlicht, die durch Long-Read-Sequenzierung des Genoms gewonnen wurden. Dieses System ermöglicht es, neue RNA-Moleküle zu entdecken und ihnen eine Funktion bei der Bildung von Geweben zuzuordnen, was „das Wissen über die Entstehung des Organismus und seiner Krankheiten vertieft“.
Die Verantwortlichen für die Entdeckung erinnern sich daran, dass die Komplexität eines Organismus aus seinem Genom hervorgeht, dem Buch, das die Anweisungen seiner DNA für das Leben enthält. Die Methode zum Lesen dieses Buches – die Sequenzierung – hat sich dahingehend weiterentwickelt, immer längere Fragmente des Genoms zu lesen.
Auf diesem Gebiet hat eine Forschungsgruppe unter der Leitung des Instituts für Integrative Systembiologie (I2SysBio), einem gemeinsamen Zentrum der Universität Valencia (UV) und des Höheren Rates für wissenschaftliche Forschung (CSIC), ihr eigenes Computerprogramm verbessert, das Entdeckungen ermöglicht neue Transkripte – RNA-Moleküle zur Synthese von Proteinen und zur Bildung von Geweben – aus ihrer Sequenzierung mit Langzeitinstrumenten; und weisen ihnen eine Funktion bei der Bildung des Organismus zu.
Die Long-Read-Sequenzierung ist die dritte Generation der Genomsequenzierungsmethoden. Im Vergleich zum Short-Fragment-Reading, bei dem etwa 200 Nukleotide analysiert werden, können mit Long-Read-Methoden 100-mal längere Lesevorgänge erzielt werden, wodurch weniger Lücken in der Genominformation entstehen, die mithilfe von Bioinformatik-Tools geschlossen werden müssen. Dies war einer der Gründe, warum Nature Methods sie selbst zur „Methode des Jahres 2022“ ernannte.
Einige Jahre zuvor, im Jahr 2018, entwickelte die Forscherin Ana Conesa, damals an der University of Florida, ein Computerprogramm namens SQANTI, um die Informationen zu analysieren, die mit diesen Long-Read-Methoden extrahiert wurden. Jetzt hat sein Forschungsteam bei I2SysBio eine wesentliche Verbesserung dieser Software veröffentlicht, die auf den wichtigsten kommerziellen Systemen mit Long-Read-Sequenzierung, Pacific Biosciences (PacBio) und Oxford Nanopore Technologies (ONT), frei verwendet werden kann.
„Long-Read-Techniken analysieren die Komplexität menschlicher Transkripte und Transkriptome besser“, sagt Conesa. Dadurch wird der Teil des Genoms identifiziert, der in jeder Zelle abgelesen wird, um Gewebe und Organe entstehen zu lassen. So kann ein einzelnes Gen durch kleine Veränderungen in der Struktur der RNA, die es kodiert, eine große Vielfalt an Transkripten und damit Proteine mit unterschiedlichen zellulären Funktionen hervorbringen. „Short-Read-Sequenzierung kann dieses Rätsel nicht lösen. Long-Read-Sequenzierung rekonstruiert die funktionelle Komplexität des menschlichen Transkriptoms besser, und dies ist der Schlüssel zur Untersuchung bestimmter Krankheiten, insbesondere neurologischer Erkrankungen und Krebs“, sagt der CSIC-Forscher in einer Erklärung.
Die jetzt veröffentlichte Version -SQANTI3- löst einige frühere Probleme, die durch den RNA-Abbau entstanden sind, und führt bemerkenswerte Verbesserungen ein. Das Programm ist in der Lage, neue Transkripte zu entdecken, die nicht in den von diesen Computerprogrammen verwendeten Genomdatenbanken enthalten sind. Darüber hinaus kann die Software durch Techniken der künstlichen Intelligenz dem neuen Transkript funktionelle Informationen zuordnen, „etwas Wesentliches, um die funktionelle Komplexität des Organismus und der Krankheiten zu verstehen“, betont Conesa.
Zur Entwicklung dieses Computerprogramms wurde der Rechencluster I2SysBio Garnatxa verwendet, der über 15 Rechenknoten verfügt, die 950 parallele Rechenthreads anbieten können. Darüber hinaus beteiligt sich die Gene Expression Genomics-Gruppe unter der Leitung von Ana Conesa am I2SysBio an Elixir, einer der strategischen Infrastrukturen des European Strategic Forum on Research Infrastructures (ESFRI), die es Biowissenschaftslaboren in ganz Europa ermöglicht, Ihre Daten zu teilen und zu speichern.
Die University of Florida und Pacific Biosciences haben bei der Entwicklung von SQANTI3 zusammengearbeitet.