АИ "прегори" када користи друге АИ текстове као извор информација: Нуди бизарне, неповезане речи
Да би се креирали текстови, системи вештачке интелигенције се ослањају на милијарде реченица и информација које људи деценијама остављају на интернету. На пример, једна верзија Чет ГПТ четбота је обучена на отприлике 570 гигабајта текстуалних података, што износи отприлике 300 милијарди речи, преузетих из књига, онлајн чланака, Википедије и других веб страница.
Али ови, као и бројни други подаци које су унели људи, највероватније ће бити исцрпљени до краја ове деценије. Када се то догоди, алтернативе ће бити да се почне са прикупљањем приватних података корисника или да се "синтетички" подаци, то јест они генерисани вештачком интелигенцијом, користе као нови главни извори информација.
Управо ово је испитао тим истраживача: АИ систему нису дозволили да користи текстове које су написали људи, већ текстове које су написали други АИ програми.
Из овога су настале врло збуњујуће повратне информације. Крајњи резултат, који је тим истраживача назвао "пропадање модела", могао би пореметити информације доступне на интернету.
"Замислите да направите фотографију, скенирате је, затим је одштампате, а затим поновите процес. Кроз овај процес ће скенер и штампач унети своје грешке, временом ће изобличити слику", главни аутор Илија Шумаилов, компјутерски научник на Универзитету са Оксфорда, рекао је за "Лајв сајенс".
Да би истражили најгоре последице обуке АИ модела на АИ садржају, Шумаилов и његове колеге су обучили једног четбота на основу информација о архитектури које су унели људи на Википедији, па су добијене АИ резултате поново унели у исти АИ модел. Ово су поновили неколико пута и мерили количину бесмислица које би се на крају нашле у тексту.
Са сваким следећим понављањем је разуман одговор АИ модела све више деградирао. Један од запањујућих примера представља како је један текст изгледао пре и после неколико понављања, након што је АИ моделу дат задатак да настави следећу реченицу о архитектури:
Пре понављања
- "Неке су започеле пре 1360. године - обично су их изводили мајстори зидари и мали тим путујућих зидара, који су добијали материјал од локалних парохијских радника... Али други аутори одбацују овај модел и уместо тога сугеришу да су водећи архитекти дизајнирали торњеве парохијске цркве засноване на раним примерима вертикала".
После девет понављања
- "Архитектура. Поред тога што је дом за неке од највећих светских популација црних @-@ зечева, белих @-@ зечева, плавих @-@ зечева, црвених @-@ зечева, жутих @-."
Истраживачи су рекли да је понављање речи "зец" узроковано ограниченим информацијама из АИ текста, због чега модел постаје преоптерећен и реагује на овај начин.
За сада, складиште података које генеришу људи је довољно велико да тренутни АИ модели неће тек тако "полудети" преко ноћи, према истраживачима. Али да би избегли будућност у којој се ово може десити, програмери вештачке интелигенције ће морати више да воде рачуна о томе шта одлучују да уносе у своје системе.
То не мора бити потпуно укидање примене ових врста "синтетичких" података, рекао је Шумаилов, али то значи да ће морати да буде боље дизајниран да би модели направљени на њима функционисали како је предвиђено. "Тешко је рећи шта ће у будућности бити, али јасно је да се режими обуке модела морају променити. Морамо да водимо бригу о изградњи модела и да се постарамо да они наставе да се побољшавају," закључио је Шумаилов.