Чак 90 одсто људи не може да разликује видео генерисан вештачком интелигенцијом од правог

Вештачка интелигенција је увелико у нашем свакодневном животу, али недавна истраживања показују да се тако добро увукла да многи не могу да разликују генерисане видео снимке од стварних, што отвара многа питања.

Сви смо видели снимке на мрежама како кенгур тужно држи бординг карту док му стјуардеса не да да уђе у авион, или како се медвед слободно купа и башкари у базену. Симпатични снимци изазову дивљење или осмех. Наиме, више од 90 одсто од 1043 учесника не може да разликује петоминутне видео снимке које је креирала вештачка интелигенција од правих снимака, резултати су компаније Ранвеј која је спровела истраживање. Такође, просечна тачност препознавања износила је око 57 одсто.

Компанија описује овај резултат као "фундаменталну промену у начину на који треба да перципирамо аутентичност видео снимака" и тврди да је "индустрија генерисаних видео снимака и друштво у целини достигло прекретницу у којој просечна особа не може да одреди да ли је видео креиран вештачком интелигенцијом или није".

Експеримент је спроведен у формату поређења: 1043 учесника су насумично гледали по 20 снимака у трајању од 5 секунди (по 10 правих и 10 генерисаних), а затим су морали да означе да ли је сваки од њих прави или креиран вештачком интелигенцијом.

Сви генерисани снимци направљени су уз помоћ основног модела Runway Gen-4.5 у режиму image-to-video: из првог кадра видеа генерисан је клип, при чему ни један снимак није преправљан или обрађен у постпродукцији. Учесницима је било дозвољено да гледају сваки снимак до 10 секунди, након чега су морали да фиксирају свој избор; прави и генерисани клипови били су изједначени по трајању и резолуцији.

Само 99 од 1043 учесника (9,5 одсто) показало је статистички значајну тачност (најмање 15 тачних одговора од 20).

Укупна тачност препознавања износила је 57,1 одсто - само мало изнад случајног погодка од 50 одсто. То указује на одсуство стабилне стратегије препознавања, према подацима поменуте компаније.

Тачност препознавања значајно се разликовала по типовима садржаја: снимци са људима (лица, руке, покрети) препознавали су се боље (58-65 одсто), док су видеа са животињама и архитектуром имала тачност до 45-47 одсто - учесници су чешће сматрали генерисане снимке правим.

Компанија повезује напредак у генерисаним видео снимцима са развојем такозваних "општих модела света", система који реалистично моделирају физичку стварност. Аутори истраживања наглашавају да је "реалистична симулација предуслов за решавање сложених задатака у физичком свету".

Генерисање видеа засновано на вештачкој интелигенцији ефикасно достигло праг где масовна публика више не може да разликује видео записе генерисане неуронским мрежама од стварних снимака, говори истраживање. Ово питање поверења у визуелни садржај подиже на нови ниво.

Када синтетички видео постане такав да не може да се разликује од стварног, класичан приступ борби против дезинформација путем deepfake детектора губи своју ефикасност. Експеримент показује да је чак и уз концентрисану пажњу и ограничен скуп видео снимака, просечна тачност препознавања је само мало боља од случајног погађања, пише РБК.