Se ha revelado que los resultados no son precisos al 100%, sobre todo en tareas sencillas, su punto débil.
Pese a que la Inteligencia Artificial cada día está más integrada en la sociedad y es una herramienta fundamental para muchos, sus nuevos modelos de lenguaje han empeorado y "no son tan fiables como los usuarios esperan", así lo ha revelado un estudio de la Universitat Politècnica de Valencia (UPV) y la Universidad de Cambridge.
La investigación ha sido liderada por un equipo del Instituto VRAIN de la UPV y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge y se ha publicado este jueves en la revista Natura. Por su parte, uno de los investigadores, José Hernández Orallo, asegura que "una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea".
"Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma", ha apuntado Orallo. Otro de los expertos indica que "la calidad de los errores está aumentando y no disminuyendo" como muchos esperan.
"Hay una discordancia entre las expectativas humanas y el rendimiento de estos modelos", recalca una de las investigadoras del proyecto, Yael Moros Daval, mientras otro de sus compañeros, Lexin Zhou, afirma sorprendido que el rendimiento en cuanto a tareas difíciles ha mejorado, pero que el de las tareas comunes y fáciles, empeora por momentos.
El científico que está detrás de algunos de los mayores avances en inteligencia artificial de los últimos años como OpenAI, Ilya Sutskever predijo que "quizá con el tiempo esa discrepancia disminuiría". No obstante, este estudio ha demostrado que "no ha sido así". Para ello, las entidades investigaron algunos aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana.
La percepción de dificultad
El problema principal de estos nuevos lenguajes y actualizaciones es que "no son precisos al 100% ni siquiera en tareas sencillas", algo que puede causar problemas de cara a los usuarios.
"No existe una zona segura en la que se pueda confiar en que los modelos funcionen a la perfección", asegura. En la actualidad, los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, algo que podría decepcionar a muchos usuarios que "inicialmente confían demasiado en los modelos".
"Incapaz de compensar los problemas"
La investigación apunta que "es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes, no libere a los usuarios de preocuparse en hacer enunciados eficaces". "Los usuarios pueden dejarse influir por 'prompts' que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas", ha indicado Cèsar Ferri, uno de los investigadores de VRAI UPV.
Además, han descubierto que la "supervisión humana es incapaz de compensar estos problemas". "Las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos, incluso cuando se les permite decir 'no estoy seguro'", ha asegurado Ferri.
Desde ChatGPT a LLaMA y BLOOM
Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la familia GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica. Los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al 'prompt' siguen siendo un problema para las nuevas versiones como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.
La sociedad tiende "a confiar demasiado" en este tipo de modelos y es totalmente "necesario un cambio fundamental en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales", ha concluido el experto Wout Schellaert.
{getToc} $title={Tabla de Contenidos}