OpenAI, Google y Meta se quedan sin datos para entrenar sus modelos de IA


         OpenAI, Google y Meta se quedan sin datos para entrenar sus modelos de IA

Se estima que los datos disponibles en Internet podrían 'agotarse' en 2026, por lo tanto, los gigantes tecnológicos ya están buscando alternativas para 'alimentar' a sus modelos de inteligencia artificial.

El entrenamiento de modelos de inteligencia artificial (IA) es un proceso en el que se le enseña al algoritmo a interpretar los datos de manera correcta y a tomar decisiones precisas en base a esos datos, sin embargo, este proceso puede ser un poco complicado porque las grandes empresas tecnológicos deben llevar a cabo las mejores prácticas para que los modelos interpreten la información. Pero, a medida que avanza la carrera de la IA, algunas compañías como OpenAI, Meta y Google se enfrentan a la escasez de datos para entrenar a sus modelos.

Por si no lo sabías, la mayoría de las herramientas con inteligencia artificial se han entrenado con grandes cantidades de información, no obstante, se calcula que los datos disponibles en Internet podrían 'agotarse' en 2026, según Epoch, una firma de investigación especializada en IA.

Por lo tanto, las compañías mencionadas están buscando nuevas fuentes de datos para que sus modelos –como ChatGPT o Bard, por ejemplo– sigan aprendiendo. Estas son algunas de las soluciones que plantean los gigantes tecnológicos.

1-. Google quiso utilizar los datos de sus usuarios

El año pasado, el departamento jurídico de Google pidió a sus empleados que ampliasen el lenguaje de los modelos con los datos de los consumidores. Es decir, la compañía de Mountain View quiso emplear la información de Google Docs, Google Sheets, Google Maps y Google Slides para mejorar las capacidades de su inteligencia artificial, no obstante, al final, no llevó a cabo dicha práctica porque actualizó su política de privacidad.

2.- OpenAI, los datos sintéticos y los vídeos de YouTube

OpenAI consideró la generación de datos sintéticos –una práctica que consiste en información generada por los propios sistemas de inteligencia artificial– para entrenar a su modelo GPT. Sin embargo, es importante tener en cuenta que el problema de entrenar a una IA con dichos datos es que se pueden reforzar algunos errores y limitaciones.

Por otro lado, la compañía de Sam Altman podría haber utilizado su herramienta Whisper para transcribir vídeos y podcasts de YouTube, de esta manera, consigue numerosas fuentes para entrenar a sus herramientas.

3.- Meta quiso comprar una editorial

Meta estudió la posibilidad de comprar la famosa editorial Simon & Schuster para ampliar la base de datos de su modelo de inteligencia artificial.

4.- Adquirir una aplicación de fotos

Los gigantes tecnológicos estuvieron valorando la compra de Photobucket –una aplicación web gratuita que permite crear una presentación de imágenes para publicar en Internet– para entrenar a los sistemas de inteligencia artificial con dichas imágenes. Según el diario Reuters, estas fotos podrían cederse bajo licencia, a pesar de que la plataforma se ha negado a identificar a los compradores de sus derechos.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

{getToc} $title={Tabla de Contenidos}

Publicar un comentario

Artículo Anterior Artículo Siguiente

Formulario de contacto