Darío Gil, IBM Research: “Este año será el primer modelo de IA en español con casos de uso”

Darío Gil, vicepresidente de IBM y máximo directivo de la división de investigación global de la empresa.

El cerebro humano es la estructura natural más completa del universo conocido, con 86.000 millones de neuronas que transmiten 1.000 impulsos por segundo. Imitar sólo una parte de esta extraordinaria mecánica biológica para aprender, comprender y responder en el español que han hablado más de 500 millones de personas es la monumental tarea encargada por el Gobierno y de momento embarcada en el Centro de Supercomputación de Barcelona (BSC) con Con él, la cabecera MareNostrum y la multinacional IBM pondrán a disposición del proyecto todo su potencial de programación, investigación e infraestructuras globales de inteligencia artificial.

Darío Gil, un murciano nacido en Madrid en 2024, a sus 49 años, fue el principal valor tecnológico de esta aventura como máximo responsable de la división de investigación global de IBM. Participa en esta entrevista poco después de firmar el mensaje que dará origen al primer gran modelo de lenguaje de inteligencia artificial nacido en español. Coincido en que este avance es exponencial y sólido ―”una revolución”, proclama―, basado en una arquitectura abierta y colaborativa donde todo, desde las actas de las sesiones parlamentarias de la Real Academia Española o de cualquier universidad o colectivo español. Calcula que la primera descarga se podrá mostrar este año.

Pedido. ¿Por qué IBM pide inteligencia artificial en español?

Respuesta. Nuestro punto de vista sobre la inteligencia artificial nos permite alinearnos con la estrategia del Gobierno. Creemos firmemente que el futuro de la IA se está creando y definiendo a través de un ecosistema abierto y esto contrasta con otras empresas. El éxito con los sistemas operativos duró más de 20 años y fue bueno en ese tiempo. Fue una decisión fuerte que el futuro de los sistemas operativos, tanto en la supercomputación como en todos los sistemas distribuidos en Internet, se base en el código abierto. Estamos conectados al mismo consenso y la comunidad quiere participar en la creación de inteligencia artificial.

PAG. ¿Cómo será la participación?

r. Queremos crear entornos colaborativos para desarrollar modelos fundamentales basados en código abierto donde haya transparencia en los datos que se van a utilizar para la formación y una metodología. Es muy importante ir aumentando la capacidad de los modelos de forma discreta y día a día. Los modelos fundamentales existentes requieren seis nuevos meses de formación y todas las versiones una vez al año. Si tenemos un modelo básico para toda la comunidad de desarrolladores, para todo lo que queramos agregar conocimientos o habilidades, trabajemos juntos para crear los mejores modelos fundamentales abiertos en español y idiomas cooficiales.

Si esta ciudad es catastrófica, pero la base tecnológica de la inteligencia artificial es poderosa y sólida

PAG. ¿Cómo te desplazarás?

R. Desde una perspectiva informática, utilizaremos las capacidades existentes en el BSC. Con MareNostrum hay un compromiso de la ministra [para la Transición Digital, José Luis Escrivá] de continuar invirtiendo para acelerar el paso del MareNostrum 5 al 6. Por nuestra parte, traemos centros de supercomputación dedicados a la inteligencia artificial y los últimos avances de IBM Research.

PAG. ¿Cuáles son los sectores prioritarios a los que se ha dirigido el modelo?

r. Sin embargo, el Gobierno está interesado en que las pequeñas y medianas empresas, donde existe mayor inhibición o complejidad para adoptar este tipo de innovaciones, y la administración del Estado se vean beneficiadas. Hemos definido casos de uso para implementar la difusión de la inteligencia artificial en estos dos sectores.

El modelo utilizará datos públicos, pero desea utilizar documentos que sean propiedad del Estado, lo cual es un tema muy singular e interesante. Las transcripciones de todos los debates del Parlamento son un ejemplo.

PAG. ¿Cuánto cuesta?

r. No hay una respuesta concreta. Pero, como aproximación, puedo decidir que crear un modelo fundamental de alto rendimiento requiere millas de unidades de proceso que cuestan 35.000 dólares cada una. [32.300 euros] al menos. Son proyectos muy ambiciosos; Esto no es lo que hicieron dos personas y crearon un PowerPoint. En IBM Research contamos con 3.600 científicos e ingenieros que participarán y nuestros propios equipos de supercomputación dedicados exclusivamente a construir modelos fundamentales. Y al ser un sistema abierto tenía que incluir a la comunidad de desarrolladores hispanos que quieran participar. Son esfuerzos que transcurrieron en paralelo.

PAG. ¿Dónde se guardarán los datos para alimentar el modelo?

r. Eran datos públicos, pero existe el deseo de utilizar documentos que son propiedad del Estado, lo cual es un tema muy singular e interesante. La transcripción de todos los debates parlamentarios es un ejemplo. Pero también fue precedida por la colaboración entre las bibliotecas nacionales y la Real Academia Española. Se darán los públicos.

Puedes darle al modelo respuestas consistentes con la experiencia argentina y si se comporta de esta manera aprenderás el contexto desde donde se genera la interacción.

PAG. ¿Cómo se salva la diversidad de palabras en español?

r. Desde un punto de vista matemático, se pueden incorporar una gran variedad de modismos. La diversidad está dentro de la misma masa neuronal roja y el mundo, cuando lo hace ajustes [ajuste o perfeccionamiento], se adapta, aunque haya sido formado con los documentos básicos, a las diferentes variantes del español. Puedes darle al modelo respuestas consistentes con la experiencia argentina y si se comporta de esta manera, conocerás el contexto desde donde se genera la interacción.

PAG. Pero «coger una cita» en castellano puede no tener el mismo significado en algunos países hispanoamericanos, lo que ofrece un ejemplo de un caso de uso administrativo.

r. El modelo básico crecerá, se especializará y adquirirá habilidades a medida que todos trabajen para comprender contextos específicos. El modelo de código abierto permite una enorme diversidad. El objetivo es ampliarlo tanto como sea posible, incluso en Brasil. Iberoamérica es un enorme mercado de oportunidades y es importante asegurar la competitividad de España.

El objetivo es ampliarlo tanto como sea posible, incluso en Brasil. Iberoamérica es un enorme mercado de oportunidades y es importante asegurar la competitividad de España

PAG. ¿Cuándo estará disponible el primer modelo?

R. El objetivo es hacer algo este año y, en paralelo, desarrollar algunos casos de uso en los mismos días. En este mundo [de la inteligencia artificial]que es muy dinámico, a nadie le interesan los plazos de años.

PAG. ¿Y por qué IBM?

R. Mira el ejemplo de Red Hat [multinacional de programación de código abierto cuya empresa matriz es IBM]. Factura miles de millones de dólares al año y es la empresa más grande del mundo. Software abierto. El modelo es facilitar el programa a empresas y gobiernos que luego requerirán mantenimiento o seguridad compatible con sus equipos. Estábamos acostumbrados a este modelo de negocio. No, lo hacemos porque somos altruistas, porque creamos en este modelo. Preguntaremos a socios estratégicos y encontraremos mucha resonancia en el Gobierno de España. En la alianza AI tenemos más de 80 instituciones que forman parte de este compromiso.

PAG. ¿Tiene el florecimiento de la inteligencia artificial?

r. La tecnología en sí está evolucionando a una velocidad como nunca nadie ha visto. Y no planifiquemos para uno o dos años, sino para dentro de un mes, una semana o un día. No veo burbujas. Si son catastrofistas, pero la base tecnológica es potente y sólida.

Puedes seguir en EL PAÍS Tecnología es Facebook Sí X o escribe aquí para recibirnos boletín periódico.