En los últimos tiempos, hemos sido testigos de un aluvión de nuevos modelos de inteligencia artificial (IA) presentados por gigantes tecnológicos como DeepMind, Google, Meta y OpenAI. Cada uno de estos modelos trae consigo una serie de innovaciones y desafíos, renovando constantemente el debate sobre sus logros, aplicaciones y las implicaciones éticas y sociales que conllevan.

Modelos de lenguaje a gran escala: fortalezas y debilidades

La velocidad a la que se desarrollan y lanzan estos modelos es vertiginosa, lo que dificulta su seguimiento y análisis exhaustivo. Un punto de referencia en esta carrera es GPT-3, desarrollado por OpenAI y anunciado en mayo de 2020. Desde entonces, GPT-3 ha sido utilizado comercialmente, integrándose en diversas aplicaciones que van desde generadores de contenido hasta herramientas de análisis de datos. Este modelo, caracterizado por sus 175 mil millones de parámetros, ha sido tanto elogiado como criticado.

La idea detrás de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) es sencilla: utilizar enormes conjuntos de datos generados por humanos para entrenar algoritmos de aprendizaje automático, con el objetivo de crear modelos que simulen el uso del lenguaje humano. Sin embargo, a pesar de su capacidad para generar texto con una fluidez sorprendente, críticos como Gary Marcus y Emily Bender han señalado que estos modelos operan más como «loros estocásticos», repitiendo patrones de texto sin una comprensión real del significado.

Además, estos modelos a menudo reflejan sesgos inherentes en los datos con los que fueron entrenados, lo que resulta en salidas que pueden ser tóxicas o sesgadas racial y étnicamente. Este problema es un reflejo de la naturaleza de los datos en la web, de donde se extraen la mayoría de los conjuntos de datos de entrenamiento. Sin medidas correctivas, es probable que estos problemas persistan.

Otro aspecto crítico es el inmenso consumo de recursos que requiere el entrenamiento y operación de estos modelos. Noam Chomsky ha señalado que uno de los logros de GPT-3 es su alto consumo de energía, un punto que también ha sido destacado en estudios sobre la eficiencia del uso de los recursos computacionales en el entrenamiento de LLMs.

La evolución de los modelos multimodales

Mientras que los LLMs se centran en el procesamiento de texto, otros modelos de IA se enfocan en datos visuales y de audio, utilizados en aplicaciones como la visión por computadora y el reconocimiento de voz. Sin embargo, en los últimos años, hemos visto un avance hacia el aprendizaje multimodal, que busca consolidar datos de diferentes fuentes en un único modelo de IA. OpenAI ha sido pionera en este campo, con modelos como DALL-E y CLIP, que combinan texto e imágenes de manera innovadora.

DALL-E, por ejemplo, puede convertir texto en imágenes, utilizando un proceso de «difusión» que transforma un patrón de puntos aleatorios en una imagen coherente. CLIP, por otro lado, clasifica imágenes en categorías predefinidas sin necesidad de ajustes finos específicos para esas categorías.

Google también ha incursionado en el aprendizaje multimodal con su modelo Imagen, que ha demostrado ser preferido por los evaluadores humanos en comparación con otros modelos similares en términos de calidad de muestra y alineación texto-imagen.

A pesar de estos avances, persisten las críticas sobre el uso de recursos y los sesgos inherentes en estos modelos. Además, la cuestión de si estos modelos realmente comprenden el lenguaje y las imágenes de manera similar a los humanos sigue siendo objeto de debate.

El futuro de la inteligencia artificial

El estado actual de la inteligencia artificial, a pesar de sus impresionantes logros técnicos, no representa una inteligencia verdaderamente artificial. Los modelos actuales son el resultado de la inteligencia humana aplicada a la ingeniería y el aprendizaje automático, buscando mejorar en lo que Alan Turing denominó «el juego de imitación».

La verdadera pregunta es qué propósito tienen estos desarrollos. ¿Es simplemente una cuestión de crear modelos más grandes y complejos, o hay un objetivo más profundo en la búsqueda de una inteligencia artificial genuina? Emily Tucker, directora ejecutiva del Centro de Privacidad y Tecnología de Georgetown Law, sugiere que debemos ser específicos sobre lo que realmente es esta tecnología y cómo funciona, en lugar de usar términos como «inteligencia artificial» y «aprendizaje automático» de manera superficial.

Finalmente, debemos considerar las implicaciones económicas y sociales de estos avances. Como señala Erik Brynjolfsson, el enfoque excesivo en una IA similar a la humana puede reducir los salarios de la mayoría de las personas mientras amplifica el poder de mercado de unos pocos que poseen y controlan estas tecnologías. En este sentido, la IA no es diferente de otras tecnologías anteriores, aunque la velocidad y el alcance de su impacto pueden ser sin precedentes.