Géminis: Google asesora a su buscador y lo humaniza con visión y capacidad de diálogo natural | Tecnología

Géminis: Google asesora a su buscador y lo humaniza con visión y capacidad de diálogo natural |  Tecnología

Sólo 24 horas después de la presentación de ChatGPT-4o, la versión más avanzada del robot conversacional de Open AI, Google lo imitó y sufrió el golpe este martes, cuando presentó otros similares mejores para su buscador, que ya ha comenzado en Estados Unidos. Estados Unidos pero se extienden al resto del mundo. La nueva plataforma de búsqueda replica las capacidades de la empresa denominada “agentes”, con la capacidad de planificar y ejecutar acciones en nombre del usuario, pero la humanidad debe emular una interacción con una persona. Un Géminis, como se llama la inteligencia artificial de la multinacional y del buscador, puede interrumpirse para redirigir la conversación y la cámara del celular se transforma en sus ojos para describir lo que ve, solucionar los problemas que observa o especificar dónde se encuentra un objeto. grabado durante la conversación. ¿Dónde dejo las llaves? ¿Cuál es la solución a este problema? ¿Qué es esto? Le rezo a un Géminis.

Google ha renunciado a todas sus fuerzas para negociar la Open AI y ganar su hegemonía en el espacio de búsqueda. El máximo responsable de la compañía, Sundar Pichai, ha presentado estos días los últimos avances en inteligencia artificial en la edición anual del Google I/O en Mountain View (California). Se aplicará a todos los productos (Gmail, Photos, Drive, Meet y cualquier herramienta de Workspace), pero en particular, según Pichai, en la plataforma que es su bastión: “La transformación más apasionante con Gemini, probablemente, esté en la buscar por google. Cambiemos radicalmente cómo funciona.”

“Géminis puede mantener una conversación personalizada e interactiva, mezclando y combinando entradas y subidas”, explica Pichai sobre la humanización de la interacción con el buscador, que deja de ser lineal (consultas y respuestas posteriores) para emular una relación de tipo personal. Estas son las habilidades que presentaste a los agentes en Las Vegas el pasado mes de abril, durante Google Next, donde se lanzan robots que planifican y ejecutan acciones en nombre del usuario. “Son sistemas inteligentes que exhiben racionalización, planificación y memoria. Puedo pensar en varios pasos durante el tiempo y trabajar en todos los programas y sistemas o hacer algo en nombre del usuario y, lo que es más importante, bajo su supervisión. Estamos pensando mucho en cómo hacer esto de una manera que sea privada, segura y que funcione para todos”, especificó la directiva en respuesta a los riesgos sociales identificados por el equipo de investigación de su empresa (DeepMind).

El buscador convencional, que encuentra páginas web más o menos vinculadas a la petición del usuario, pasa a la historia con Gemini. Liz Reid, directora de Búsqueda de Google, asegura que, aunque este equipo tiene el lado “increíblemente potente”, requiere “mucho trabajo”, en relación al trabajo de afinar los descriptores y extraer la información relevante de los kilómetros de resultados. obtenido. “Buscar se encontró ante otra cuestión”, admite.

Las nuevas habilidades comprenden, después de explicar, “lo que tienes en mente”, contextualizan, saben desde dónde interactúas y “razonan” para ofrecer un resultado que aún se encuentra en diversos dominios y exponer un plan y un consejo. Después de explicar con un ejemplo práctico, mientras el buscador tradicional pedía restaurantes en la zona, gracias a la IA Overview de Gemini ahora puedes solicitar “un lugar para celebrar un aniversario” y el buscador ofrece diferentes categorías de aviones, precios, ubicaciones y sugerencias. . También podrás traer un plan de viaje completo para una familia de varios miembros con diferentes intereses. “Google puede crear una avalancha de ideas para ofrecerte”, responde Reid.

Pero Géminis va más allá de la conversación, el razonamiento y la planificación, que ya presuponen un avance radical. El nuevo paso es la mayor humanización posible y que, además de la vista, asume otro sentimiento fundamental: la vista. Demis Hassabis, director de DeepMid, lo explica: “Siempre quisimos construir un agente universal que fuera útil en la vida cotidiana. Por eso Géminis fue multimodal desde el principio. Ahora estamos procesando un flujo de información sensorial diferente. Estos agentes pueden ver y oír mejor lo que hacemos, comprender el contexto en el que nos reunimos y responder rápidamente durante la conversación, lo que hace que el ritmo y la calidad de la interacción sean mucho más naturales”.

Hassabis muestra estas habilidades que estarán disponibles en la aplicación Live para los miembros del plan Advanced, en un plan posterior grabado en tiempo real. El buscador utiliza la cámara del teléfono celular para registrar el contexto del mundo real de un usuario: la pregunta de qué es lo que ve, cómo llamar a la parte específica de un objeto para informar, cómo resolver un problema matemático escrito en un papel y cómo mejorar un proceso de distribución de datos en un diagrama que muestra una pizza. Finalmente le pregunta: “¿Dónde dejo mis gafas?”. Géminis, que registró todo lo que vio durante la interacción, aunque no sea relevante en la conversación mantenida hasta el momento, revisa las posibles imágenes y responde exactamente dónde lo vio. A partir de ahora sucederán las cosas con Géminis.

“Gemini es mucho más que un robot de chat [conversación]. Está diseñado para ser su asistente personal”, explica Sissie Hsiao, vicepresidenta de Google y directora general de Gemini, en referencia al proyecto Astra que lideró su socio Hassabis. Esto es lo que Sam Altman, alto directivo de Open AI, competidor de Google y desarrollador del similar ChapGPT-4o, califica de “colega supercompetente”.

“Las respuestas son personalizadas [se puede elegir entre 10 voces y el sistema se ajusta al patrón de habla del usuario] e intuitivo para mantener una conversación real de ida y mirada con el modelo. Gemini es capaz de proporcionar información de manera más concisa y responder de una manera más conversacional que, por ejemplo, si interactúas solo con el texto”, señala Hsiao.

También ha avanzado en términos de potencia, no sólo con nuevos dispositivos, como procesadores propios (el chip Axion y el Trillium TPU), sino también en términos de capacidad de carga. Los suscriptores de Gemini 1.5 podrán gestionar hasta un millón de tokens, lo que, según Hsiao, es “la ventana de contexto más grande”. Un token es la unidad básica de información. Puede entenderse como una palabra, un número, un símbolo o cualquier otro elemento individual que forme parte de los datos de entrada o salida del programa. Con esta capacidad, Gemini puede cargar y analizar un PDF de hasta 1.500 páginas o 30.000 líneas de código o un vídeo de una hora o revisar y resumir varios archivos. Google espera ofrecer dos millones de tokens.

Para facilitar la implementación de estas capacidades en dispositivos de menor capacidad, como los teléfonos móviles, Google ha actualizado sistemas específicos para estos terminales, que también se beneficiarán del desarrollo de Flash, un sistema de alto rendimiento que aporta velocidad, eficiencia y menor consumo.

Y aunque no fue el principal avance de esta edición de Google I/O, Google también presentó mejores programas de inteligencia artificial para fotografía, con la versión 3 de Imagen, creación de vídeo (Veo) y música, con Lyria y Synthesizer ID. El buscador Ask Fotos, que comenzará a estar operativo en la realidad, podrá localizar y recopilar imágenes en función de la solicitud del usuario y crear un álbum con todas las imágenes relacionadas.

Puedes seguir en EL PAÍS Tecnología es FacebookX o escribe aquí para recibirnos boletín periódico.