¿Qué pasaría si el asistente personal de Inteligencia Artificial (IA) de un smartphone podría entender el mundo tan bien como un ser humano? ¿Qué tal si comunicarse con éste sería tan natural y fácil como interactuar con una persona? Desarrollar ese tipo de capacidades es exactamente lo que el equipo del Centro de IA de Samsung en Toronto (Canadá) busca lograr. El Director del establecimiento de investigación, el Dr. Sven Dickinson, habla sobre este desafío y lo que podría significar para el futuro.
La visión para la visión
En el epicentro de la investigación y el desarrollo de la IA, el Centro de IA de Toronto de Samsung se concentra principalmente en desarrollar recursos de comprensión visual que permitan que un dispositivo entienda el mundo en el que se encuentra. Además, el equipo trabaja en comportamientos multimodales, es decir, interacciones usuario-máquina que encapsulan la visión, el lenguaje y el conocimiento."Lograr que los equipos Samsung miren el mundo a través de la visión por computadora, permite 'establecer visualmente' un diálogo con el usuario, proporcionando una experiencia integrada y multimodal que es mucho más natural que una basada únicamente en la visión o el diálogo por separado", comenta el Dr. Dickinson, experto en la exploración de problemas relacionados con la percepción de la forma y el reconocimiento de objetos.
Respecto a los beneficios de la tecnología multimodal, el científico afirma: "Yo no debería tener que leer los manuales para averiguar qué botones presionar y en qué orden. Por el contrario, debería poder mostrarle y decirle al dispositivo lo que quiero, en un lenguaje natural que sea comprensible y ubicado en el mundo en el que vivo". Al igual que cuando se cancela uno de los modos de comunicación (audio, habla o vista), se obstaculiza la comunicación entre dos personas; el Dr. explica que lo mismo ocurre en los dispositivos multimodales.
Una experiencia de usuario verdaderamente mejorada es esencial
Este año Samsung presentó “Connected Living” durante el Consumer Electronics Show (CES). Se trata de una visión que implica conectar los 500 millones de dispositivos que la compañía vende cada año y convertirlos en inteligentes."Lo que diferencia a Samsung es la variedad de equipos que fabrica para el hogar: electrodomésticos digitales, televisores y smartphones. Esto permite brindar una experiencia multimodal, es decir, una que sigue al usuario de un dispositivo a otro y de una habitación a otra”, comenta el Dr. Dickinson. “De esta manera se puede aprovechar el potencial de cada equipo para ayudar al usuario a ejecutar tareas específicas y para que el mismo aparato aprenda los hábitos y preferencias humanas, con el objetivo de que la comunicación posterior no sea intrusiva, sino útil".
Al referirse al trabajo de su centro para hacer realidad la visión por computadora y la interacción multimodal, el Dr. Dickinson comenta que “la visión no se trata de comprender imágenes; los sistemas de IA verdaderamente capaces deben entender la física, causalidad, geometría y dinámica del mundo. También deben poder modelar y comprender el comportamiento humano". El experto afirma que si los dispositivos pueden ver el mundo 3D de la misma manera que el ser humano, es decir, entender las formas, posiciones e identidades de los objetos; también podrán experimentar visualmente el mundo como lo hacen las personas.
El Dr. Dickinson comenta que la compañía surcoreana lidera el progreso en lo que respecta a una comprensión visual verdaderamente inteligente: "Samsung abre camino cuando se trata de desarrollar una interacción humano-dispositivo, que imite de cerca la interacción humano-humano. Nuestro objetivo es proporcionar una base visual del conocimiento para servicios de interacción basados en el diálogo. Sin estos componentes, los usuarios se decepcionan con los servicios y los abandonan rápidamente”.
Interacciones humano-dispositivo basadas en el intercambio de información abierta
La IA también debe poder explicarse, es decir, un dispositivo debe poder reflejar al usuario con precisión cómo y por qué se le ocurrió una respuesta (o la falta de ella). El científico señala que este tipo de apertura e intercambio de información será clave para una mayor sofisticación de las interacciones humano-dispositivo.
No hay comentarios:
Publicar un comentario