La fiabilidad de la Inteligencia Artificial ha empeorado: resuelve lo complicado, pero falla en lo fácil

Se ha revelado que los resultados no son precisos al 100%, sobre todo en tareas sencillas, su punto débil.

Pese a que la Inteligencia Artificial cada día está más integrada en la sociedad y es una herramienta fundamental para muchos, sus nuevos modelos de lenguaje han empeorado y "no son tan fiables como los usuarios esperan", así lo ha revelado un estudio de la Universitat Politècnica de Valencia (UPV) y la Universidad de Cambridge.

La investigación ha sido liderada por un equipo del Instituto VRAIN de la UPV y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge y se ha publicado este jueves en la revista Natura. Por su parte, uno de los investigadores, José Hernández Orallo, asegura que "una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea".

"Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma", ha apuntado Orallo. Otro de los expertos indica que "la calidad de los errores está aumentando y no disminuyendo" como muchos esperan.

"Hay una discordancia entre las expectativas humanas y el rendimiento de estos modelos", recalca una de las investigadoras del proyecto, Yael Moros Daval, mientras otro de sus compañeros, Lexin Zhou, afirma sorprendido que el rendimiento en cuanto a tareas difíciles ha mejorado, pero que el de las tareas comunes y fáciles, empeora por momentos.

El científico que está detrás de algunos de los mayores avances en inteligencia artificial de los últimos años como OpenAI, Ilya Sutskever predijo que "quizá con el tiempo esa discrepancia disminuiría". No obstante, este estudio ha demostrado que "no ha sido así". Para ello, las entidades investigaron algunos aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana.

La percepción de dificultad

El problema principal de estos nuevos lenguajes y actualizaciones es que "no son precisos al 100% ni siquiera en tareas sencillas", algo que puede causar problemas de cara a los usuarios.

"No existe una zona segura en la que se pueda confiar en que los modelos funcionen a la perfección", asegura. En la actualidad, los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, algo que podría decepcionar a muchos usuarios que "inicialmente confían demasiado en los modelos".

"Incapaz de compensar los problemas"

La investigación apunta que "es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes, no libere a los usuarios de preocuparse en hacer enunciados eficaces". "Los usuarios pueden dejarse influir por 'prompts' que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas", ha indicado Cèsar Ferri, uno de los investigadores de VRAI UPV.

Además, han descubierto que la "supervisión humana es incapaz de compensar estos problemas". "Las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos, incluso cuando se les permite decir 'no estoy seguro'", ha asegurado Ferri.

Desde ChatGPT a LLaMA y BLOOM

Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la familia GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica. Los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al 'prompt' siguen siendo un problema para las nuevas versiones como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.

La sociedad tiende "a confiar demasiado" en este tipo de modelos y es totalmente "necesario un cambio fundamental en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales", ha concluido el experto Wout Schellaert.

La percepción de dificultad
"Incapaz de compensar los problemas"
Desde ChatGPT a LLaMA y BLOOM

Tendencias

El restaurante escondido en un palacio de La Rioja que conquista a los viajeros del Camino de Santiago con su cocina de cercanía

De la sombra de Tardá a los rumores sobre Roures: detrás de la 'operación' Rufián

Un hombre detenido por su presunta relación con el cadáver hallado en un cubo de basura en una vivienda de Gijón

Varios proyectos militares de Defensa peligran por la relación de Sánchez con Israel

Quién es Julia Shiplett, la nueva novia de Elliot Page

La fiabilidad de la Inteligencia Artificial ha empeorado: resuelve lo complicado, pero falla en lo fácil

La percepción de dificultad

"Incapaz de compensar los problemas"

Desde ChatGPT a LLaMA y BLOOM

Publicar un comentario

De la sombra de Tardá a los rumores sobre Roures: detrás de la 'operación' Rufián

Xevi Verdaguer, psiconeuroinmunólogo: "La velocidad a la que subes las escaleras determina tu edad biológica"

Mínimo dos personas por coche y un euro por circular: las reglas que propone la DGT

Fallece un hombre tras sumergirse en el agua en Zorita de los Canes (Guadalajara)

Formulario de contacto