El departamento de AI (Inteligencia Artificial) de Google, DeepMind, en colaboración con la Universidad de Oxford, acaban de desarrollar el más sofisticado lector de labios que se haya fabricado nunca.
Los investigadores del departamento de inteligencia artificial de Google no han tardado mucho en aparecer con una nueva herramienta más para conquistar el mundo. Esta vez han decidido desarrollar un software capaz de leer los labios de quien está hablando con una precisión inusitada. Para ello, han utilizado miles de horas de grabación televisiva de la BBC, analizando las imágenes a través de una red artificial de neuronas y con un acierto del 46%. Para que tengamos una idea correcta: un experto en lectura de labios logra un acierto del 12%.
Para conseguirlo, se analizaron un total de cinco mil horas de televisión de distintos programas de la BBC, entre los que se encuentran Newsnight, BBC Breakfast y Question Times, recopilando cerca de 120.000 frases dichas. El nuevo sistema de DeepMind captura los movimientos de la boca del interlocutor a una máquina precisa de traducción, siendo capaz de saber lo que está diciendo sin necesidad de audio alguno.
Esta investigación continúa la estela dejada por LipNet, un trabajo desarrollado a principios de mes por la Universidad de Oxford que, con recursos similares a los usados por DeepMind, alcanzó más del 90% de aciertos. Pero esto tiene truco: donde en el experimento de DeepMind se usaron miles de frases, para LipNet solo contaban con la ayuda de un reducido grupo de voluntarios.
Uno de los mayores obstáculos que se enfrentaron los investigadores de DeepMind está relacionado con la sincronía de audio e imagen. Al cabo de un tiempo, el vídeo se desincronizaba, por lo que el software era incapaz de relacionar con exactitud la palabra dicha con su correspondiente movimiento labial. No obstante, subsanaron este inconveniente en cuanto el programa asumió que la gran mayoría de vídeo se encontraba en sincronía.
Los investigadores de DeepMind adelantan que el desarrollo de este nuevo software de IA podría aplicarse, por ejemplo, a personas con problemas de oído, ayudándoles a comprender, con exactitud, todo lo que se hable. También en relación a su uso con Siri o Alexa (el asistente de voz de Amazon):podríamos comunicarnos con ellos mediante la cámara, sin necesidad de hablar directamente. Google hace tiempo que tiene en cuenta a la gente con limitaciones: las Google Glass ayudaban a gente con problemas de audición.
Google ya es capaz de leerte los labios y, sí, sus aplicaciones pueden ser maravillosas.
No hay comentarios:
Publicar un comentario