Por: Camila Méndez Sastoque • Colombia.com

Google trabaja en VLOGGER, una IA que genera movimiento en fotografías

Google permitirá convertir una fotografía en un avatar con movimiento.

Foto: Shutterstock
Foto: Shutterstock

Google permitirá convertir una fotografía en un avatar con movimiento.

Google sigue trabajando en fortalecer las herramientas que la inteligencia artificial permite realizar en diferentes ámbitos, tanto en celulares y computadores como en creaciones.

Hace pocas semanas se reveló la nueva IA de Google llamada VLOGGER, la cual permite tomar una imagen fija, una foto, y convertirla en un avatar que se puede controlar la voz y algunos movimientos. Actualmente, no está disponible para el público, sin embargo, se han demostrado un par de acciones para revelar su potencial.

A pesar de que se pueden realizar algunas funciones similares con otras herramientas en la red, esta herramienta de Google permite un manejo más sencillo y de menor ancho de banda. Por el momento, VLOGGER hace parte de un proyecto que está en investigación que podría ser el próximo modelo de IA capaz de crear un avatar animado que con un par de fotogramas logran un video final.

Adicional a lo visual, también es posible añadir voz para mejorar la animación junto a sus movimientos, reflejando una manera natural al hablar, esto incluye que haya expresiones faciales, movimientos de cabeza, parpadeos, gestos y demás que no interfiere con el movimiento de la boca al introducir un texto.

¿Cómo funciona?

Esta herramienta parte de una imagen que para llegar a ser video emplea mecanismo de control, luego emplea el audio donde pasan por un proceso de movimiento 3D que se escalan para brindar un producto final. Esta IA en investigación cuenta con 800.000 videos referentes de personas hablando para poder copiar los movimientos de la boca y realizar esta acción con bastante naturalidad.

Ahora, no es una herramienta perfecta, pues en ocasiones es posible que el video no concuerde con el movimiento, así como con gesticulaciones muy amplias o entornos diversos, pues por el momento solo maneja videos muy cortos. Entre las principales funciones de esta herramienta está la traducción de videos, pues si está en un idioma en particular, este podría cambiar haciendo que el audio y el idioma concuerde con el movimiento de los labios.

Otras de las funciones útiles es en los mundos virtuales creados por Meta o Apple donde estos modelos funcionen independientemente en cuanto a los avatares que los usuarios crean.