Grabaciones de la vida de un niño de un año comenzaron a aprender palabras | Tecnología

Grabaciones de la vida de un niño de un año comenzaron a aprender palabras |  Tecnología

Desde su nacimiento, los niños comienzan a recibir estímulos visuales y auditivos, imprescindibles para aprender algo imprescindible en su vida: el lenguaje. A los seis o tres meses empiezan a hablar, se asocian con objetos y conceptos del mundo real. Cuando tenías dos años, normalmente tenías un vocabulario de unas 300 palabras. Pero ¿cómo podemos desarrollar este proceso de aprendizaje? Un grupo de investigadores de la Universidad de Nueva York estudió grabaciones de la vida diaria de un bebé durante su primer año de vida para encontrar la respuesta. El experimento no sólo confirmó la conexión entre la representación visual y la lingüística —por así decirlo, lo que se ve y la palabra que le corresponde—, sino que también contribuyó al desarrollo de un modelo de inteligencia artificial (IA), que permitía reconocer distintos objetos similares. como lo hicieron los niños.

“Los grandes sistemas de IA se enriquecen y funcionan gracias a una cantidad astronómica de datos. Digamos miles de millones de palabras para poder desarrollar un sistema de lenguaje”, explica Wai Keen Vong, doctor en psicología y ciencias computacionales, que coordinó el estudio que publicaron estos jóvenes en la revista Ciencia. «Desafortunadamente, los humanos sólo necesitan unos pocos kilómetros de palabras para lograr un sistema de comunicación eficiente», añade. En este caso surgió el interés en investigar si una IA sería capaz de aprender a hablar de la misma manera que los niños: observando su entorno, aprendiendo sobre las personas que los montaron y conectando puntos entre lo que ven y lo que ven.

La adquisición temporal del lenguaje es un tema ampliamente debatido y por eso se han propuesto varias hipótesis. Tradicionalmente, este tipo de estudios se han llevado a cabo en un entorno controlado por laboratorio, que ha sido el resultado de investigaciones que no se extrapolan de manera efectiva a los contextos más dinámicos y variables del mundo real. “La novedad de este análisis radica en que podemos trabajar con datos de primera mano, derivados de una situación de aprendizaje real”, recuerda Vong.

Con este objetivo, el equipo de Vong analizó 61 horas de la vida de Sam, un niño australiano que durante un año y medio -de los seis a los 25 meses de edad- usó un casco con una cámara que registraba las interacciones que tenía con sus padres y niños día a día. En realidad, solo recolecté el 1% del tiempo que pasé desesperado durante la duración del experimento. Así, cuenta con cientos de imágenes que reproducen exactamente lo que el niño estaba viendo, acompañadas de las expresiones lingüísticas de sus familiares, lo que explicaba la naturalidad de los objetos que lo rodeaban. “Por ejemplo, durante la hora de comer, la cámara en su cabeza captó la imagen de una cuchara, al mismo tiempo que su mamá le preguntaba algo relacionado con este utensilio. Sí, con decenas de objetos cotidianos”, explica Vong.

La conexión entre estos dos medios nunca es obvia. De hecho, el investigador reconoce que parte del desafío para los niños es comprender exactamente lo que se dice cuando asocias el objeto con aquel con el que estás interactuando. “La mayoría de las veces, los padres no etiquetan cada objeto. Por cada pelota que Sam miraba, sus padres no decían «esto es una pelota», «mira la pelota». Se aprenden las palabras en un contexto natural, y se determina correctamente la dificultad, dentro de una oración más o menos larga, cuál es la palabra que corresponde al objeto en referencia a aquello con lo que se está jugando”, dijo Vong.

Entrando en una IA como un niño

Tras observar el comportamiento del niño, los investigadores pudieron confirmar que habían aprendido el significado de las palabras conectando el estímulo visual -es decir, la imagen que se les presentaba- con la respuesta de sus familiares, que repetían la palabra correspondiente. Con estos resultados, pasé a la segunda fase del experimento: probar si una IA sería capaz de aprender a reconocer objetos con la misma forma que Sam.

El modelo de inteligencia artificial llamado CVCL (La perspectiva del niño sobre el aprendizaje contrastivo., aprendizaje contrastivo desde la perspectiva del niño), fue entrenado con 64 categorías visuales (herramientas, juguetes, animales, entre otras) y la transcripción de lo que Sam escuchaba mientras apuntaba a estos objetos. Una vez creada esta base de datos, a los investigadores se les encomendó la tarea de probar si la IA podía identificar las imágenes. Según Vong, el modelo (con información sensorial limitada y mecanismos de aprendizaje relativamente genéricos) proporciona una base computacional para investigar cómo los bebés adquieren sus primeras palabras y cómo estas palabras pueden conectarse con el mundo visual.

«Descubrimos que CVCL puede aprender a establecer conexiones entre imágenes y texto a partir de fragmentos limitados de la experiencia de un solo niño», dejan los autores en el estudio. En algunos casos, los objetos aparecen sobre un fondo blanco, mientras que en otros, en un entorno más apreciado. De hecho, la precisión de clasificación del modelo fue del 61,6% y sigue siendo alta incluso cuando se introducen en el sistema imágenes distintas a las grabaciones de Sam, con las que las IA no habían sido entrenadas. «Los resultados confirman nuestra hipótesis de que con sólo dos impulsos, que son lo que el niño ve y lo que ve, es posible lograr y acelerar este tipo de aprendizaje», afirma Vong.

Estudia cómo nació la habla

Antonio Rodríguez Fornells, investigador del Instituto de Neurociencia de la Universidad de Barcelona, ​​informó del aspecto innovador del estudio que abre el camino para comprender, a través de simulaciones computacionales, cuáles son los mecanismos mínimos de aprendizaje que utilizan los niños para abordar la respuesta a aprender un idioma: “Los estudios previos en bebés en psicología del desarrollo aportan información clave con experimentos muy novedosos, pero el fracaso de los estudios en neurociencia o neuroimagen en los mismos (debido a la dificultad de aplicar estas técnicas en bebés) no nos permite avanzar tanto en neurociencia como esclarecer los mecanismos cerebrales que sustentan estos procesos de adquisición del lenguaje”, explica este neurocientífico.

Asimismo, reconocer que las simulaciones que se desarrollan en el artículo responden a algunas teorías del lenguaje propuestas previamente. “Entre ellos, que simplemente con simples mecanismos de aprendizaje asociativo (que permiten vincular imágenes y palabras) en un entorno de aprendizaje natural (como el que experimentan los niños al nacer y en los primeros meses de su vida) es suficiente para poder aprender estas relaciones y generalizar el contenido del significado”, añade Rodríguez Fornells.

Aun así, el estudio tiene algunas limitaciones. El modelo CVCL se entrenó con grabaciones de una única cámara montada en la cabeza de un solo niño y se aprendió a través de transcripciones de voz en la ubicación de la voz directa, que omite cuestiones importantes como la entonación y el énfasis. “También notamos que el aprendizaje del modelo era pasivo, basado en grabaciones, sin interacción activa con el entorno, lo que difiere de cómo aprenden los niños en entornos reales”, reconocen los autores de la investigación.

Puedes seguir en ASUNTO es Facebook, X Y Instagramo escribe aquí para recibirlo nuestro boletín semanal.