Los científicos piden un intercambio completamente abierto de los datos del genoma del coronavirus

Otros investigadores dicen que las restricciones en la plataforma más grande del genoma del SARS-CoV-2 fomentan el intercambio rápido al tiempo que protegen los derechos de los proveedores de datos.

Por Richard Van Noorden

Cientos de científicos instan a que los datos del genoma del SARS-CoV-2 se compartan de manera más abierta para ayudar a analizar cómo se están propagando las variantes virales en todo el mundo.

Los investigadores han publicado un gran número de secuencias del genoma del SARS-CoV-2 en línea desde enero de 2020. La plataforma de intercambio de datos más popular, llamada GISAID , ahora alberga más de 450.000 genomas virales; Soumya Swaminathan, el científico jefe de la Organización Mundial de la Salud (OMS), lo ha llamado un «cambio de juego» en la pandemia. Pero no permite que las secuencias se compartan públicamente, lo que está obstaculizando los esfuerzos para comprender el coronavirus y el rápido aumento de nuevas variantes, argumenta Rolf Apweiler, codirector del Instituto Europeo de Bioinformática (EBI) cerca de Cambridge, Reino Unido, que alberga su propia gran base de datos del genoma que incluye secuencias de SARS-CoV-2.

«La apertura de los datos de la secuencia del SARS-CoV-2 es crucial para la respuesta rápida contra la mayor amenaza para la salud de la humanidad en mucho, mucho tiempo», dice Apweiler.

Una visualización de 56 genomas de SARS-CoV-2.
Crédito: Martin Krzywinski / SPL

En una carta publicada el 29 de enero, Apweiler y otros piden a los investigadores que publiquen los datos del genoma en una de una tríada de bases de datos que no imponen restricciones a la redistribución de datos: el GenBank de EE. UU., El Archivo de Nucleótidos Europeo (ENA) de EBI y el Banco de datos de ADN de Japón, que se conocen colectivamente como la Colaboración Internacional de Base de Datos de Secuencias de Nucleótidos (INSDC) .

Cualquiera puede acceder de forma anónima a los datos del INSDC y usarlos como desee, pero GISAID requiere que los usuarios confirmen su identidad y acepten no volver a publicar los genomas del sitio sin el permiso del proveedor de datos. Esto significa que los estudios que se basan en datos de GISAID, como los que crean árboles evolutivos que analizan cómo se relacionan las variantes de SARS-CoV-2, no pueden publicar datos completos para que otros puedan verificar fácilmente sus análisis o desarrollar su conjunto de datos. Deben dirigir a los lectores de regreso al sitio de GISAID.

La carta dice que la comunidad científica debería «eliminar las barreras que restringen el intercambio efectivo de datos», pero no menciona específicamente a GISAID. Está firmado por más de 500 científicos, incluida la premio Nobel de química 2020 Emmanuelle Charpentier, y la directora del Consorcio COVID-19 Genomics UK, Sharon Peacock. Cuando los científicos ya han establecido presentaciones a otras bases de datos, la carta dice, «estas presentaciones deben continuar en paralelo».

Característica no defecto

Muchos investigadores que trabajan con GISAID dicen que sus términos de acceso son un beneficio, porque alientan a los investigadores vacilantes a compartir datos en línea rápidamente, sin temor a que otros usen los resultados sin crédito. «La razón por la que tantos laboratorios han proporcionado genomas del SARS-CoV-2 a GISAID es precisamente por el acuerdo de acceso a datos que restringe la compartición pública», dice Sebastian Maurer-Stroh, bioinformático de la Agencia de Ciencia, Tecnología e Investigación de Singapur. GISAID ha trabajado con muchos laboratorios para ayudarlos a compartir datos, dice.

GISAID son las siglas de la Iniciativa Global para Compartir Datos de Influenza Aviar; un consorcio internacional de investigadores ayudó a establecerlocomo fundación sin fines de lucro en 2008, para abordar la renuencia de los investigadores a compartir datos sobre las cepas de influenza. Algunas naciones, incluida Indonesia, un punto de acceso para la gripe aviar, temían que las empresas farmacéuticas crearan medicamentos y vacunas utilizando los datos de secuencia sin acreditar a los proveedores de datos originales o compartir los beneficios del trabajo con ellos. Pero fueron persuadidos de compartir secuencias rápidamente en GISAID; En marzo de 2013, por ejemplo, China publicó secuencias de la gripe aviar H7N9 en la base de datos el mismo día en que informó a la OMS de tres infecciones en personas. «GISAID alienta e incentiva el intercambio de datos en tiempo real por parte de partes que de otra manera se mostrarían reacias a compartir, asegurándose de que conserven sus derechos sobre sus datos», dice un portavoz de la iniciativa.

«Este tema no se trata solo de ciencia, sino también de soberanía y equidad», dice Marie-Paule Kieny, investigadora de vacunas del INSERM, el instituto nacional francés de investigación en salud en París. «GISAID permite el flujo rápido de datos de secuencias de SARS-CoV-2 con un impacto máximo», dice, porque los científicos que depositan secuencias pueden confiar en que los usuarios de los datos respetarán sus derechos.

Senjuti Saha, una microbióloga que trabaja en genomas del SARS-CoV-2 en la Child Health Research Foundation en Dhaka, dice que aprecia el llamado a los datos abiertos más allá de lo que ofrece GISAID, pero le preocupa que pueda disuadir aún más a los investigadores de nivel bajo y medio. -países de ingresos (PIBM) desde que cargan los datos hasta que los analizan. Durante la pandemia, dice, algunos LMICS han comenzado a realizar más secuenciación viral, aunque los laboratorios a menudo carecen de infraestructura computacional. Ella dice que ha visto datos de coronavirus de LMIC sacados de contexto por académicos en países más ricos que no consultan ni dan crédito a los proveedores de datos. «Realmente queremos compartir nuestros datos, pero es desgarrador y desmotivador cuando sabemos que trabajamos tan duro para generar datos, pero no obtenemos el crédito por ello», dice.

La carta, dice Kieny, «me parece una iniciativa de países europeos y de altos ingresos que no están completamente informados sobre la necesidad crítica de asegurar que los países de bajos recursos acepten compartir secuencias libremente, de modo que el impacto en la salud pública de la secuenciación de se maximizan patógenos como el SARS-CoV-2».

El director de la ENA, Guy Cochrane, dice que la EBI es consciente de los problemas globales en torno a los datos y la distribución de beneficios, y participa activamente en la búsqueda de mecanismos de distribución de beneficios que empoderen a los países del sur global y mantengan los datos abiertos. Pero incluso los países europeos con buenos recursos podrían hacer más para compartir sus datos abiertamente, dice.

Desafíos de datos

Algunos investigadores le dijeron a Nature que además de los argumentos sobre equidad y apertura, existe un problema con el control diferencial de GISAID sobre cómo los usuarios registrados pueden descargar sus datos. Algunos usuarios deben descargar archivos en lotes pequeños, por ejemplo, pero otros pueden obtener un conjunto de datos completo a granel con la aprobación de GISAID. El portavoz de GISAID dice que eso se debe a que la iniciativa necesita saber quién está usando sus datos y por qué motivo, para que nada se redistribuya por error.

Cochrane agrega que otro desafío con la plataforma de GISAID es que los investigadores publican «ensamblajes», o reconstrucciones, de genomas virales a partir de fragmentos de datos leídos en máquinas de secuenciación, en lugar de datos sin procesar. El ensamblaje siempre implica alguna interpretación de errores inevitables en el proceso de secuenciación, dice Cochrane, y esto puede conducir a lo que parecen ser mutaciones en un genoma que son, de hecho, artefactos de secuenciación. El acceso a los datos sin procesar de muchos genomas ayuda a los científicos a profundizar en estos temas, y Cochrane dice que los investigadores deben compartir sus datos de secuenciación sin procesar y ensamblados, lo que pueden hacer en el INSDC incluso si también publican en GISAID. Maurer-Stroh, sin embargo, dice que GISAID es consciente de estos problemas y ya proporciona controles de calidad para señalar posibles errores en los genomas enviados. Cochrane dice que tales procesos solo pueden reducir, no eliminar, los errores de artefacto.

Un portal de datos alojado en EBI que reúne conjuntos de datos COVID-19 completamente abiertos enviados al INSDC alberga actualmente más de 270,000 secuencias de SARS-CoV-2 sin procesar y 55,000 genomas ensamblados, menos que GISAID. «Tenemos una niebla de conocimiento incompleto», dice Apweiler. Él dice que algunos científicos podrían pensar, incorrectamente, que enviar datos a GISAID significa que los resultados se compartirán automáticamente y abiertamente en el INSDC, y espera que la llamada para compartir datos sin restricciones aumente el tesoro de datos del INSDC.

Pero decirle a los científicos que vuelvan a enviar sus datos de SARS-CoV-2 al INSDC es complejo, dice David Haussler, quien dirige un instituto de genómica que trabaja con datos de INSDC y GISAID en la Universidad de California, Santa Cruz. Los bioinformáticos están en modo de crisis, se apresuran a obtener datos del genoma y analizarlos en detalle, y quieren compartir todo lo que se les permita publicar sobre nuevas mutaciones clave en secuencias, dice. No firmó la carta abierta, aunque apoya el intercambio de datos sin restricciones, porque espera, en cambio, que GISAID pueda eliminar temporalmente algunos de sus términos de acceso durante la pandemia, tal vez para coordinar con el INSDC.

Kieny, sin embargo, dice que eso podría llevar a algunos científicos a perder la confianza en GISAID y no archivar sus secuencias en la base de datos tan rápidamente. «No hay obstáculo, para quienes quieran hacerlo, para depositar sus secuencias en el INSDC», dice.

Publicado originalmente en Nature

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s