Menos hamburguesas y más paella: así será el ChatGPT español anunciado por Pedro Sánchez

ChatGPT, Gemini, Copilot y otras aplicaciones basadas en IA creadas por grandes empresas funcionan bien en español. Este domingo, sin embargo, el presidente Pedro Sánchez anunció en Barcelona que su gobierno colaboraría para construir “un gran modelo fundacional de lenguaje de inteligencia artificial enseñado en castellano y lenguas oficiales, en código abierto y transparente”. ¿Qué innovaciones y beneficios trae esta iniciativa? Según fuentes del Gobierno, ahora sólo se encuentra «en la fase de anuncio del proyecto»: los detalles sobre el personal y la financiación con los que contará el plan se podrán conocer «de forma próxima», hasta que llegue el momento de concretarse.

EL PAÍS ha consultado cuáles serán los detalles del proyecto con las organizaciones que figuran como colaboradoras en el anuncio de Sánchez, y también con expertos que han participado en proyectos similares en España. Estas son algunas de las características que darán lugar a este modelo fundamental de inteligencia artificial (IA) creado en España.

1. No será un ‘chatbot’ generalizado

Un modelo “fundamental” no significa que lo sea chatbots en general como ChatGPT, que requiere un trabajo largo y costoso con humanos que llevan miles de instrucciones. Como no podrás pedir todo, no tendrás una página donde el público pueda acceder a ello. Será un modelo de IA básico para que empresas y administraciones lo transformen según sus necesidades específicas.

“Éste es el problema de fondo”, afirma Pep Martorell, subdirector del Barcelona Supercomputing Center (BSC), institución que Sánchez diseñó como uno de los líderes del proyecto. “Sí, la administración quiere crear un chatbots para atención primaria, por ejemplo, ¿cómo lo haría? ¿Acerca de OpenAI? Tiene muchos problemas, de licencias, de aprendizaje, de conocimiento de datos, de lenguaje”, añade Martorell.

El modelo fundamental son los ciudadanos en los que cada organización tendrá su “hogar” con IA. Es más fácil que el creador de estos países como organismo público se encuentre, más obligado con la transparencia, que una empresa de Silicon Valley: “Difícilmente una empresa sacará ChatGPT mientras haya unas cuantas cosas”, afirma Marta Villegas , líder de la tecnología del lenguaje en el BSC, en referencia a los escandalosos errores en sus respuestas. «Hay situaciones de las que no se necesitan tanto y hay mucha demanda de modelos para adaptarse a un negocio concreto y dedicarse a resolver dudas sobre una marca de coche, un servicio público (cómo pagar el IBI, por ejemplo) «, él añade.

2. No será fácil de hacer

El BSC y su potente superordenador MareNostrum 5 son una pieza clave en la creación de este modelo. Sin una enorme potencia informática es imposible enseñar a escribir a una IA. En un país como España, sin el impulso público de varias administraciones, no se habría podido intentar crear algo similar: “Como vemos en varios países europeos, desde el sector público se promueve que los modelos se generen aprobando les ricorsios de los grandes centros de investigación”, afirma Martorell.

Hay además un segundo problema: en España sólo un puñado de grupos son capaces de programar un modelo de este tipo. Todo el mundo está en centros de investigación o universidades: “Hay un puñado de personas capaces de hacer esto”, afirma Germán Rigau, subdirector del HiTZ (Centro Vasco de Investigación de Tecnologías del Lenguaje), pionero en España. «Dentro de la IA hay algo que no todo el mundo sabe hacer. Sólo lo hace un centro y lo evaluamos”, explica. El HiTZ es capaz de presentar el modelo de idioma principal en España, que es el inglés y está basado en Llama, que es de código abierto. Además, es complicado retener el talento: “Motivamos a los jóvenes que dicen que este es un centro de referencia, pero muchos también son de Google, Amazon, Cohere o montan sus propias empresas”, añade.

Todo esto no implica necesariamente que este esfuerzo conjunto vaya a producir un modelo de última generación. Es muy probable que se trate de una generación anterior: “Es factible pensar que antes de principios de 2024 tengamos un modelo GPT-3 en castellano y el resto de idiomas cooficiales disponibles para las empresas”, afirma Martorell. Y para cuando llegue GPT-4, ¿cuál es el estándar actual para ChatGPT? “Todo lo preparados que podemos estar para los datos que recopilamos y la capacidad del MareNostrum 5 nos lo permite”, añade.

3. Muy bonito, menos fútbol.

Modelos como ChatGPT son multilingües: no importa si añades idiomas para enseñarlos, cuando los aprendes y los utilizas para traducir. Pero una lengua no son sólo sus palabras, también es el contexto y la cultura. Ahí caben una montaña de variables: tradición, cocina, cocina, deportes. Todo este contexto no es sólo cultura, sino también significado de referencias o giros idiomáticos que sólo tienen sentimiento en una lengua, que son intraducibles.

Con el español, un idioma muy representado en Internet, es relativamente fácil obtener buena calidad. Incluido con catalán. Pero los miles de textos (llamados «cuerpo») que se utilizan para formar al gallego o al euskera son mucho menores, explica Rigau: “En euskera tenemos 4.000 millones de fichas [pequeños bloques de texto que usan las máquinas para entender el lenguaje]. El catalán alcanzará los 20.000 millones, cinco veces más. El español tenderá a llegar a los 250.000, a veces más que el catalán. Eso es todo lo que podemos hacer. Por mucho que nos rasquemos, la escalera es esta”.

Uno de los objetivos de este modelo fundamental es lograrlo. cuerpo mejor en cuatro idiomas oficiales. Cada institución intenta conocer los organismos que han elaborado textos en sus lenguas, desde los parlamentos autonómicos de televisión: «Para nuestras lenguas hemos hecho una búsqueda más cuidadosa de los contenidos y un esfuerzo por reunir los datos sin conflictos: la Wikipedia , claro, pero incluso datos de parlamentos autonómicos, de TV3, Dialnet o el CSIC nos permitieron recibir reseñas en abierto, incluso datos de la Fundación Elcano y me damos muchos. Para el catalán, por ejemplo, tenemos datos de Òmnium, Vilaweb, cada grupo hace un esfuerzo dentro de su lengua para obtener datos curados”, afirma Villegas. Con el gallego y el euskera tiene un trabajo similar.

Todo este esfuerzo no sólo iba dirigido a lo que el modelo respondía en un gallego más correcto, sino a lo que mejor decía al referirse a los supuestos locales: “Un modelo de una gran empresa sabrá mucho a Superbowl y será muy Anglocéntrico”, dice Villegas. “No es sólo desde el punto de vista del lenguaje, sino del concepto implícito, del modelo del mundo”, añade. El modelo español debería tener menos carne y hamburguesas y más fútbol y paellas.

Cuando hablas con un alcalde cuerpo en un idioma, tienes más información sobre el complejo mundo que se describe en ese idioma. Por eso, cuando se trata de analizar expedientes clínicos escritos por médicos o sentencias judiciales, es fundamental que estén capacitados y sintonizados con el idioma y contenido local o perderán demasiadas matemáticas.

4. Es un consejo estratégico

Junto a las necesidades lingüísticas y culturales de un país como España, este es el intento de crear una vanguardia tecnológica. “No es sólo una cuestión sentimental, histórica o cultural”, afirma Senén Barro, profesor de la Universidad de Santiago de Compostela y director de su Centro Singular de Investigación en Tecnoloxías Intelixentes. “Es estratégico. Si podemos crear un sector potente en España de empresas de tecnologías del lenguaje, sólo que no podremos trabajar para el autoconsumo ni para el mundo, por ejemplo en países multilingües como este. Es un mercado brutal. Se estima que a finales de la década la economía podría gastar 100.000 millones en tecnologías lingüísticas. Es una cantidad enorme”, añade.

Es raro que muchos de los datos médicos o jurídicos que hay que utilizar sean administraciones españolas o empresas que estudien las disposiciones de la tecnología estatal o china. “También hay que ser libre, se trata de dar fuerza a la industria”, afirma Rigau. “¿Siempre dependeremos del exterior? Hay muchos datos sensatos».

5. El problema de los derechos de autor persiste

La dificultad inicial de aprender un modelo como este es ganar miles de millones de textos. El lugar más obvio es la web. La organización Common Crawl recopila periódicamente todo lo que hay en Internet. Su objetivo es precioso, que este material sea accesible para todos, no sólo para las grandes empresas: “Las pequeñas empresas o incluso los particulares pueden acceder a datos de rastreo de alta calidad que antes solo estaban disponibles para las grandes empresas”, afirma en su página. También venderemos los datos de este modelo desde España.

Los archivos Common Crawl contienen toda la web: incluidos gráficos, pornografía, memes absurdos y, con toda probabilidad, material con derechos y libre de derechos de autor. Los envíos del modelo limpian para conocer todas las referencias sesgadas, tóxicas o lascivas, pero el material con derechos es más delicado: “Para que no se compliquen los problemas de derechos de autor. Estamos descargando Common Crawl, que en EE UU está permitido en el área de uso correcto», Dice Villegas. Este “uso justo” le permite utilizar material con derechos para ciertos fines específicos, como instrucción, citación de información o academia. Su uso para introducir modelos de IA también está en disputa legal.

“Estos modelos no se copian”, explica Rigau. “Es muy completo, es como una persona lee muchísimo, 20 millones de libros. ¿Qué recuerdas de ellos? Esto es lo mismo. Lee, no hay copia. La memoria de la máquina buffer es tan buena: si inventa cosas, las imagina. Sí, el principio te lo dice. El Quijote No podré seguir. Sabes qué, grabarás canciones como cualquier persona. Memoriza algo, pero no genera un trabajo completo de nada”, asegura.

Puedes seguir en EL PAÍS Tecnología es Facebook Sí X o escribe aquí para recibirnos boletín periódico.