Naukowcy z Uniwersytetu w Waszyngtonie opracowali algorytm synchronizujący pliki audio oraz wideo z ruchem ust mówiącego, który może zrewolucjonizować świat wideo. Czy przy okazji pomoże on w rozwoju fake video?

Zaawansowana technologia obróbki obrazu oraz sieci neuronowe umożliwiają przekształcenie plików audio w realistyczne, zsynchronizowane z wargami i ruchami mówiącego w wideo. Algorytm pozwala na dostosowanie głosu do jednej osoby. Do badań sfinansowanych przez takie firmy jak Samsung, Google, Facebook, Intel oraz UW Animation Research Labs wykorzystano dobrej jakości filmy dostępne w domenie publicznej przeznaczone do trenowania sieci neuronowych, na których znajduje się były prezydent Stanów Zjednoczonych, Barack Obama mówiący m.in o terroryzmie, tworzeniu miejsc pracy oraz ojcostwie.

Uczący się algorytm

Przy użyciu plików wideo z poprzednich wypowiedzi oraz wywiadów, z których algorytm nauczył się jak dana osoba porusza ustami, wykazano jak można zmienić treść tego, co mówi tak, aby widz nie zorientował się, że nie jest to oryginalna wersja. System konwertuje pliki audio w realistyczne ruchy ust, a dokładne tekstury, dogłębna analiza oraz skanowanie 3D pozycji głowy sprawiły, że całość jest w pełni dopasowana. Umożliwiono także pewne przesunięcia w czasie tak, aby sieć mogła przewidzieć, co mówiący powie dalej. Efekty widoczne są w poniższym wideo:

Praktyczne wykorzystanie

Rezultaty pracy naukowców są piorunujące, jak jednak deklarują, technika ta miałaby być pomocna w przyszłości wideokonferencji na Skypie czy Messengerze czy różnego typu komunikatorów wideo, szczególnie gdy jesteśmy narażeni na problemy z siecią i zakłócenia obrazu. Bardziej futurystyczną wizją jest także możliwość prowadzenia rozmów z historyczną postacią przy użyciu wirtualnej rzeczywistości. Badacze twierdzą, że jest to przełom, który pomoże w podjęciu kolejnych kroków.

Fake video

Zsynchronizowanie mimiki i ruchu warg oraz dźwięku umożliwia stworzenie bardzo realistycznego filmu. Proces ten jest czasochłonny i kosztowny, ale rzuca nowe światło na problem fake’ów. Okazuje się bowiem, że to możliwe, aby w perfekcyjny sposób podmienić czyjś głos i słowa w materiale wideo. Istnieje więc obawa, że w przyszłości takie rozwiązania będą nadużywane i odbiorcy treści nie będą w stanie zorientować się, że dane wyrażenia nie pochodzą od wybranej osoby. Możliwe będzie “wkładanie” w usta drugiej osoby słów, których nie wypowiedziała, a z racji tego, że jest to ruchomy format wideo, trudno będzie udowodnić, że są one nieprawdą.


Promuj biznes na łamach MARKETINGLINK!

Zobacz możliwości reklamy w portalu