¿Sabe la IA lo que es tener un cuerpo y experimentar el mundo natural?
¿Puede la IA tener el mismo rendimiento que los humanos al preguntarles sobre experiencias relacionadas con los sentidos del mundo natural y el cuerpo humano? Una nueva publicación revela las respuestas.

La inteligencia artificial (IA), como la de los Grandes Modelos Lingüísticos (LLM, sigla en inglés ), no puede comprender realmente el concepto de las formas en la naturaleza ni las sensaciones corporales como lo hacemos los humanos.
Esto se debe a que dependen en gran medida del texto y, en algunos casos, de las imágenes. Sin embargo, el texto y las imágenes no contienen toda la información sobre el mundo. Hay otro elemento a considerar: la experiencia humana.
Un ejemplo floral
Tomemos como ejemplo una flor: un modelo de IA no puede "saber" cómo es experimentar una flor en su entorno natural, desde su aroma hasta la experiencia de caminar por un campo de tulipanes.
Qihui Xu, investigador postdoctoral en psicología en la Universidad Estatal de Ohio, explica: "Un gran modelo de lenguaje no puede oler una rosa, tocar los pétalos de una margarita ni caminar por un campo de flores silvestres".
"Sin esas experiencias sensoriales y motoras, no puede representar verdaderamente lo que es una flor en toda su riqueza. Lo mismo ocurre con otros conceptos humanos".
Xu ha publicado un artículo junto a coautores sobre cómo se relacionan la IA y los humanos en la revista Nature Human Behaviour. “Si la IA interpreta el mundo de una manera fundamentalmente diferente a la de los humanos, esto podría afectar su interacción con nosotros”, afirmó.
Xu y su equipo compararon a humanos y LLM en su interpretación de 4442 palabras, incluyendo palabras como "flor" y "pezuña" hasta "humorístico" y "columpio".
El enfoque del estudio: Normas de Glasgow vs. Lancaster
El equipo comparó la relación entre humanos y LLM utilizando dos familias de LLM derivadas de OpenAI (GPT-3.5 y GPT-4) y Google (PaLM y Gemini). Se evaluó a humanos y LLM según las normas: las Normas de Glasgow y las Normas de Lancaster.
Las Normas de Glasgow consistían en calificar las palabras según su excitación, concreción e imaginabilidad. Esto podía implicar preguntar cómo se puede visualizar una flor o cuán excitante es emocionalmente.
Las Normas de Lancaster se centraron en la experiencia sensorial de las palabras y el control motor. Esto puede implicar pedir al usuario que califique cuánto experimenta una flor al olerla o en sus conexiones con el estómago o el pecho.
Esto puede parecer inusual, pero el objetivo general era observar cómo los modelos de LLM y los humanos, estaban y no estaban alineados durante estas pruebas, explorando si experimentaban respuestas físicas o asociaciones emocionales similares.
Análisis adicional
El segundo análisis consistió en observar las diferencias entre los humanos y los modelos de IA LLM en la percepción de cómo se representan y conectan las palabras. Esto podría indicar la diferencia entre las rosas y la pasta, que para un humano probablemente se consideraría muy diferente.
Resultados
Los modelos LLM lograron representar correctamente palabras que no tenían una conexión sólida con nuestros sentidos y acciones motoras corporales. Mientras que, los modelos de IA no se compararon con los humanos en cuanto a palabras que se conectan con las sensaciones corporales y los sentidos, como la vista.
“Desde el intenso aroma de una flor, la vívida y sedosa sensación al acariciar sus pétalos, hasta la profunda alegría que evoca, la representación humana de la 'flor' une estas diversas experiencias e interacciones en una categoría coherente”, escriben los autores en el artículo.
El problema es que la mayoría de los LLM dependen del lenguaje, y el lenguaje por sí solo no puede recuperar por completo la representación conceptual en toda su riqueza, aclaró Xu.
¿Pueden los LLM comprender conceptos humanos?
Si bien parece que los LLM pueden comprender algunos conceptos humanos, cuando involucran la experiencia y el movimiento corporal, este tipo de aprendizaje parece estar atrofiado.
“Obtienen lo que saben consumiendo grandes cantidades de texto —muchísimos más de los que un ser humano está expuesto a lo largo de su vida— y aun así no pueden captar algunos conceptos como lo hacen los humanos”, dijo Xu.
“La experiencia humana es mucho más rica de lo que las palabras por sí solas pueden contener”.
Qué podría deparar el futuro
Los LLM están en constante evolución y es muy posible que mejoren su comprensión de los conceptos humanos, especialmente a medida que se les proporciona información más diversa para entrenarlos. Parece que el envío de imágenes a los modelos ya mejora su rendimiento en este ámbito.
Imaginen lo que podría ser posible en el futuro cuando los LLM y los modelos de IA se alimenten con información biométrica, de sensores y robótica. Esto podría mejorar su comprensión de la experiencia del cuerpo humano y del mundo físico de la naturaleza, que por ahora es limitada.