Microsoft presentó un avance de su nueva IA con la que lograron que la Mona Lisa pudiera rapear con un gran nivel de detalle.
Se trata de VASA-1 un modelo de inteligencia artificial que tiene la capacidad de animar a cualquier persona y darle «vida» a partir de una foto para hacerla que hable reflejando todo tipo de expresiones en su cara.
En el video se puede ver al famoso cuadro de Leonardo Da Vinci cantando un rap de la actriz Anne Hathaway.
Aunque este tipo de tecnologías ya existían, en este caso Microsoft sorprendió por el nivel de realismo que le otorga a cualquier imagen.
«Nuestro modelo es capaz no solo de producir movimientos de labios exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad», dijo Microsoft.
Los desarrolladores aseguraron que este modelo supera a todas las aplicaciones porque ofrece un video de alta calidad con expresiones faciales que tienen un gran nivel de realismo.
De esta forma, VASA-1 es capaz de reproducir movimientos de los labios sincronizados con el audio y capturar hasta el más mínimo detalle.
Microsoft dijo que esta IA podría usarse en la educación y para mejorar la accesibilidad que tienen las personas con problemas de comunicación. Además, podría crear compañeros virtuales para humanos.
Sin embargo, el gran nivel de realismo también permitiría suplantar a personas reales en diferentes escenarios.
«Nos oponemos a cualquier comportamiento para crear contenidos engañosos o dañinos de personas reales», afirmaron investigadores de Microsoft en una entrada de su blog.
Es por esto que la compañía no lanzará este producto hasta que logre tener la seguridad de que su tecnología puede usarse de forma responsable.
VASA-1 es un modelo de inteligencia artificial desarrollado por IA que tiene la capacidad de crear un personaje virtual a partir de una fotografía y un audio de voz.
La tecnología identifica todo tipo de movimientos como la mirada, la distancia de la cabeza y las emociones que puede llegar a estar expresando el personaje.
«Nuestro método muestra la capacidad de manejar entradas de fotos y audio que están fuera de la distribución del entrenamiento. Por ejemplo, puede manejar fotografías artísticas, audios de canto y habla en idiomas distintos del inglés», dijeron.
Es así como la herramienta recrea la apariencia física en 3D otorgándole al personaje una expresión facial realista y unos atributos que pueden ser editados según se requiera.
Estos avatares aún tienen algunos aspectos que permiten identificarlos; pero aún así la herramienta podría pasar desapercibida con videos que podrían utilizarse para suplantar personas.
La pteronofobia es el miedo irracional a ser cosquilleado con plumas. Descubre las causas, los…
El chino mandarín se considera uno de los idiomas más difíciles de aprender por su…
Con 38 años, Nadal siempre será recordado como uno de los grandes competidores en la…