Мајкрософт лансира АИ алат који генерише видео из слике - резултати су невероватно реалистични

Покрети усана су 'изванредно синхронизовани' са аудио записом, тако да изгледа као да је субјект оживео, тврди технолошки гигант. На корисницима је да обезбеде слику и аудио запис, а ВАСА-1 ће генерисати видео снимак особе која говори са природним изразима лица и широким спектром емоција.

Мајкрософт је на свом вебу преставио неколико примера слика људи који су "оживели" у реалистичном видео снимку и почели да репродукују тражени аудио запис, односно да изговарају речи. У једном примеру, ремек-дело из 16. века Леонарда да Винчија, Мона Лиза, почиње да репује са америчким акцентом.

Програмери Мајкрософта наводе да је нова неуронска мрежа знатно напреднија у односу на раније моделе, као и да су покрети главе и изрази лица веома уверљиви.

Видео је дoступан у резолуцији 512x512 пиксела са смењивањем 40 слика (фрејмова) у секунди, са малим почетним кашњењем.

Компанија верује да ће неуронска мрежа помоћи у стварању реалистичних аватара који имитирају људско понашање током разговора.

Мајкрософт не планира да у блиској будућности избаци овај производ на тржиште због могућих злоупотреба и превара. Међутим, стручњаци су изразили забринутост у вези са овом технологијом, која би, ако би била објављена, могла довести људе у заблуду јер овако генерисан видео може да изгледа као да људи изговарају ствари које никада нису рекли.