Buena analogía! Si, la segunda intentona de Mark Hamill en Boba fett es brutal. Lo que pasa es que copiar una cara es mucho más evidente que un sonido de ampli no? A nivel técnico, no se hasta que punto hay una huella digital calcada al copiar un ampli?¿ Pero es un debate interesante, sobretodo para las compañías de amplis analógicos que ya deben estar trabajando para poder empezar a demandar para sacarse sus royalties por emulación, el día de mañana. Dejaré para otros el juicio moral de si debería ser o no así, que es tarde y tengo sueño!
Con el deep fake, lo que copian es la cara. Pero nunca van a poder copiar los gestos o expresiones.
Es una tecnología bastante antigua, pero por la carga de cálculo que necesita empieza a ser eficiente ahora.
Consiste en lo siguiente. Se genera una base de datos, como una tabla de excel. En esta base de datos cada fila o linea es un registro; es decir, una observación concreta de muchas variables, que se ponen en columnas.
Una vez tienes muchos datos (con decenas se puede, no hacen falta millones), puedes empezar a hacer ecuaciones matemáticas que relacionen las propias variables entre sí. Si sube una, baja otra y sube otra a su vez... Cosas así. Estas ecuaciones matemáticas son "modelos", que pueden usarse para intentar "adivinar" el valor de una variable que falte, a partir de las demás. Por eso se llaman modelos predictivos, y las ecuaciones son ecuaciones de regresión lineales (cuando queremos predecir un número) o logísticas (cuando queremos predecir una categoría).
Si lo aplicamos al deep fake, es muy sencillo. Se cartografía la cara de Bruce Willis y se definen unos puntos concretos, y como cambian entre ellos. Es decir, se generan estos modelos predictivos. Una vez generados, se trasladan estos puntos a la cara de un actor, y lo que hacemos es pasar los modelos para que nos digan dónde estarían cada uno de los puntos en todo momento, si estuvieran en la cara de Bruce Willis.
Puede sonar un poco complejo, pero es como ponerte una careta de goma digital. Tu mueves la cara y gesticula el señor Willis. En los modelos más avanzados se utiliza la propia cara de Willis para predecir su posición en cuanto a los gestos concretos que hace, evitando que los tenga que imitar el actor. Es como una careta digital de goma, pero robotizada. Mola mucho. Estos modelos avanzados son lo que se conoce como Inteligencia Artificial, pero nada más lejos de la realidad. Son regresiones y métodos matemáticos similares. Machine Learning es un término más adecuado y Random Forest, C5.0, XGBoost y Deep Learning, son algoritmos complejos de ML, capaces de hacer modelos predictivos muy eficaces. Pero de inteligentes no tienen nada, solo están preprogramados. Skynet todavía no toma decisiones...
Y estamos hablando de algoritmos que tienen más de 20 años, pero es que solo con ordenadores del último lustro se pueden ejecutar en menos de horas/días, porque la cantidad de cálculos que requieren es descomunal. Por eso ahora se empieza a aplicar a todo, porque es posible.
Como os podeis imaginar, esto se puede aplicar a muchísimas cosas. Entre ellas, a un ampli concreto, poniendole una "careta de goma robotizada" a tu señal. Pero nos estamos quedando muy cortos. Dentro de poco emularemos cadenas de sonido completas. Cogeras una puta Academy y sonarás a LP R59 con los pedales más caros y un Fender Hot Rod Deluxe. Y en pocas décadas seremos todos incapaces de detectar las diferencias en grabaciones, solo veremos material de verdad en los directos.
Y tampoco pasará nada!!
Se seguirán vendiendo guitarras y amplis, seguirán debutando nuevos actores y... Skynet diseñará a Terminator y lo enviará al pasado a acabar con mi vecinito de al lado, para evitar que lidere en el futuro la resistencia contra las máquinas. Todo bien.
2
¿Cuál es la diferencia entre esto y un tipo (o tipa) cantando con autotune sobre una base grabada? ¿Que están ahí? ¿Que mueven el culo?
1
Por un lado, me parece que la codicia humana asoma en todas las direcciones en las que mira y por otro lado, da bastante grima ver la animación de Lola Flores en una publicidad de estas que sale por TV. Ahí se ven las dos caras del asunto.
1
En la música ya había un antecedente con una tabla Excel:
"¿Y quién Excel?¿En qué lugar se enamoró de ti?"
2
mod
#7 Ostras, pues muy buen comentario porque, precisamente, también tuvieron que hacer algunas movidas para imitar la voz del Luke Skywalker joven en la serie de Boba Fett.
Te lo diré mal casi seguro porque lo digo de memoria, pero creo que partieron de la voz actual del actor original Mark Hamill y digitalmente la fueron convirtiendo en la voz joven del Luke de la trilogía original.
Todo un campo del audio que cobraría una mayor importancia si los deepfakes se convierten en algo constante.
Ya estoy imaginando pelis con los castings mas surrealistas, Bud Spencer con Nicole Kidman y cosas así jaja.