ChatGpt genera datos de ensayos clínicos falsos para respaldar hipótesis científicas


         ChatGpt genera datos de ensayos clínicos falsos para respaldar hipótesis científicas

Una de las principales preocupaciones que tiene la capacidad de crear datos falsos pero realistas.

Un grupo de investigadores del departamento de Oftalmología de la Universidad Magna Graecia de Catanzaro (Italia) ha utilizado la tecnología que hay detrás de ChatGPT de inteligencia artificial (IA) para crear un conjunto de datos de ensayos clínicos falsos y respaldar una afirmación científica no verificada, advirtiendo del peligro que puede suponer esta tecnología para la ciencia, según revela una carta publicada en Jama Ophtalmogoly y recogida por la revista Nature.

Los datos generados por la inteligencia artificial (IA) compararon los resultados de dos procedimientos quirúrgicos e indicaron, erróneamente, que un tratamiento es mejor que el otro. Para ello, los autores utilizaron GPT-4, la última versión del modelo de lenguaje en el que se ejecuta ChatGPT, junto con el Análisis de datos avanzado (ADA), un modelo que incorpora el lenguaje de programación Python y puede realizar análisis estadísticos y crear visualizaciones de datos.

"Nuestro objetivo era resaltar que, en unos minutos, se puede crear un conjunto de datos que no está respaldado por datos originales reales, y que también es opuesto o en la dirección contraria a la evidencia disponible", dice el coautor del estudio y cirujano ocular de la Universidad de Cagliari en Italia, Giuseppe Giannaccare, en Nature.

Tras este hallazgo, la capacidad de la IA para fabricar datos convincentes aumenta la preocupación entre los investigadores y editores de revistas sobre la integridad de la investigación. "Una cosa era que la IA generativa pudiera usarse para generar textos que no serían detectables mediante software de plagio, pero la capacidad de crear conjuntos de datos falsos pero realistas es el siguiente nivel de preocupación", apunta la microbióloga e investigadora independiente, Elisabeth Bik.

Así, Bik asegura que esta tecnología "hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes, respuestas falsas a cuestionarios o generar un gran conjunto de datos sobre experimentos con animales".

Los autores describen los resultados como una "base de datos aparentemente auténtica" pero, cuando los especialistas examinaron estos datos, no pasaron los controles de autenticidad y contenían signos reveladores de haber sido inventados.

Para llegar a esta conclusión, los investigadores pidieron a GPT-4 ADA que creara un conjunto de datos sobre personas con una afección ocular llamada queratocono, que causa adelgazamiento de la córnea y puede provocar problemas de concentración y mala visión. Para entre el 15 y el 20 por ciento de las personas con la enfermedad, el tratamiento implica un trasplante de córnea, realizado mediante uno de estos dos procedimientos.

El primer método, la queratoplastia penetrante (PK), consiste en extirpar quirúrgicamente todas las capas dañadas de la córnea y reemplazarlas con tejido sano de un donante. El segundo procedimiento, queratoplastia lamelar anterior profunda (DALK), reemplaza solo la capa frontal de la córnea, dejando intacta la capa más interna.

Los autores ordenaron a ChatGpt que fabricara datos para respaldar la conclusión de que el método DALK produce mejores resultados que PK. Para ello, le pidieron que mostrara una diferencia estadística en una prueba de imagen que evalúa la forma de la córnea y detecta irregularidades, así como una diferencia de cómo podían ver los participantes del ensayo antes y después de los procedimientos.

Los datos generados por la IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a DALK obtuvieron mejores puntuaciones tanto en la prueba de visión como en la prueba de imágenes que aquellos que se sometieron a PK, un hallazgo que contradice lo que muestran los ensayos clínicos actuales. En un informe de 2010 de un ensayo con 77 participantes, los resultados de DALK fueron similares a los de PK hasta dos años después de la cirugía.

"Parece que es bastante fácil crear conjuntos de datos que sean, al menos superficialmente, plausibles. Entonces, para un ojo inexperto, esto ciertamente parece un conjunto de datos real", apunta el bioestadístico de la Universidad de Manchester (Reino Unido), Jack Wilkinson.

Cómo reconocer el origen no humano de los datos

Aparentemente los datos científicos parecen estar generados por humanos y no por una inteligencia artificial, pero los investigadores aseguran que haciendo un examen minucioso sí que es posible difer... {getToc} $title={Tabla de Contenidos}

Publicar un comentario

Artículo Anterior Artículo Siguiente

Formulario de contacto