Los vehículos autónomos dependen de un sentimiento tan crucial para el ser humano como la visión. No se trata sólo de si la máquina es capaz de hacerlo, hasta el punto de mirarlo, analizarlo, discriminarlo y procesarlo en milisegundos. Todo ello es capaz de captar esta característica de las personas en el momento adecuado para tomar la decisión necesaria. Para un coche, por ejemplo, es fácil ver un árbol junto a la carretera. Es difícil saber que no es un objeto que se va a mover o estorbar en el camino, y todo lo contrario si es turba. la revista cientifica Naturaleza publica estos innumerables avances en este sentido: un procesador para responder rápidamente a un evento con la mínima información y un nuevo sistema (algoritmo) para mejorar la precisión de la visión mecánica con menor latencia (tiempo de respuesta).
Estas investigaciones, fundamentales para el desarrollo de vehículos autónomos o robóticos, tienen ya que ver con los desarrollos avanzados del Instituto de Microelectrónica (Imse) de la capital andaluza, del Consejo Superior de Investigaciones Científicas (CSIC) y de la Universidad de Sevilla. Multinacionales como Samsung y Sony ya utilizan las patentes que comercializa la empresa Profhesee.
Las dos obras que publicamos Naturaleza son innovaciones en estos sistemas basados en el focus, el mecanismo humano que permite maximizar la resolución en la zona donde se enfoca la vista, mientras que la profundidad en las zonas de visión periférica no es relevante. De esta forma, se reduce la cantidad de información, pero se mantiene la capacidad de reconocer visualmente los datos esenciales para la cantidad de millones de decisiones.
La clave es la interpretación precisa de la escena y la rápida detección de movimiento para permitir reacciones inmediatas. Las cámaras convencionales pueden capturar la imagen de una secuencia y reproducirla en alta resolución, pero toda esta información debe ser procesada y discriminada, lo que implica un tiempo y ritmo de recursos incompatible con decisiones instantáneas que requieren conducción automática o robótica avanzada.
Uno de los avances lo realizan Daniel Gehrig, investigador de la Universidad de Pensilvania (EE UU), y Davide Scaramuzza, profesor de robótica de la Universidad de Zurich (Suiza). Ambos se enfrentaron a la dificultad de tomar decisiones con imágenes en color de alta resolución. Requiere un gran soporte de ancho de banda para procesarse con la fluidez necesaria y reduce esta alta capacidad a costa de una mayor latencia y más tiempo para responder. La alternativa es utilizar una cámara de eventos, que funciona con flujos de pulsos continuos, pero sacrifica precisión.
Para abordar estas limitaciones, los autores desarrollaron un sistema híbrido que registra la detección efectiva de objetos con una latencia mínima. El algoritmo combina información de dos cámaras: una que reduce la velocidad de las fotografías en color para reducir el anclaje del ancho de banda necesario y otra que compensa la pérdida de latencia, garantizando que se puedan detectar objetos que se mueven rápidamente, como loros y coches. . «Los resultados avanzan hacia una detección de objetos eficiente y precisa, especialmente en escenarios extremos», afirman los investigadores.
“Es un gran avance. Los sistemas actuales de asistencia al conductor, como los de MobileEye, que están integrados en más de 140 millones de automóviles en todo el mundo, funcionan con cámaras estándar que disparan 30 cuadros por segundo, digamos, una imagen cada 33 millones de píxeles. Además, se necesitan un mínimo de tres marcos para detectar de forma fiable la forma de una turba o de un coche. Esto eleva el tiempo total para iniciar la maniobra de frenado a 100 milisegundos. Nuestro sistema nos permite reducir este tiempo a menos de un millón sin necesidad de utilizar una cámara de alta velocidad, lo que supondría un enorme coste computacional”, explica Scaramuzza.
Los sistemas actuales aumentan en 100 millones el tiempo total para iniciar la maniobra de frenado. Nuestro algoritmo nos permite reducir este tiempo a menos de un millón, sin necesidad de utilizar una cámara de alta velocidad
Davide Scaramuzza, profesor de robótica en la Universidad de Zurich (Suiza)
La tecnología fue “transferida a una empresa de primer nivel”, según explica el investigador. “Si se aprueba, en general, pueden pasar muchos años desde una prueba de concepto hasta el impacto final y la implementación”, añade.
Por su parte, Luping Shi, director del Centro de Investigación de Computación Inspirada en el Cerebro (CBICR por sus símbolos en inglés) de la Universidad de Tsinghua (China), desarrolló con su equipo el chip (procesador) Tianmouc. Inspirado en la forma en que funciona el sistema visual humano, combina percepciones rápidas e imprecisas, como las de la visión periférica humana, con resoluciones más altas y lentes más lentas para procesarlas.
De esta forma, el chip también funciona como una cámara de eventos, que cuando se completan los fotogramas pasa a flujos continuos de pulsos eléctricos (eventos o picos) registrado por cada fotosensor cuando detecta un cambio suficiente en la luz. “Tianmouc tiene una serie de píxeles híbridos: algunos de baja precisión, pero de detección rápida, basados en eventos para permitir respuestas rápidas a los cambios sin necesidad de demasiados detalles, y otros procesos lentos para producir una visualización precisa de la escena”, explica el investigador. El chip se probó en escenarios como un túnel oscuro iluminado continuamente por una luz brillante o en una carretera que atraviesa un pantano.
Bernabé Linares, profesor de investigación del Imse y responsable de la cámara de eventos comercial de mayor resolución, descubrió que Scaramuzza utiliza drones para grabar imágenes de forma convencional y con cámaras de eventos. “La retroalimentación es el algoritmo que se utiliza para el reconocimiento de objetos y el resultado es interesante”, respondió.
La empresa trabaja principalmente con procesadores e informa que los algoritmos desarrollados por la Universidad de Zurich son clave como complemento a chips y para aplicaciones robóticas. Cuando se utilizan tecnologías muy compactas, se necesitan sistemas informáticos ligeros y que consuman poca energía. “Para los drones es un avance importante. Este tipo de cámara para eventos es muy buena”, resultado.
El trabajo de Luping Shi es más desafiante que el de los desarrolladores del Grupo de Sistemas Neuromórficos del Imse. En este caso se trata de un procesador híbrido. “Los píxeles van alternando y calculando diferentes espacios. Almacena la luz de una imagen y la siguiente y calcula el cambio. Si no hay cambios, la diferencia es cero. Trae datos poco frecuentes de un sensor bastante sofisticado”, explica Linares.
Incluso si los usos han sido destruidos Naturaleza Si se orientan a la gestión autónoma, los avances en visión tienen gran relevancia en el campo de la robótica, y requieren también la capacidad de discriminar información para tomar decisiones a gran velocidad. Este es el caso de los procesos de automatización industrial. “Pero los fabricantes de automóviles están muy interesados porque buscan todo tipo de camiones, ya que así son más seguros y pueden encontrar la mejor pieza en cada tecnología”, explica Linares, el resultado es que Renault es uno de los inversores de Profesee.
Puedes seguir en EL PAÍS Tecnología es Facebook Sí X o escribe aquí para recibirnos boletín periódico.