Dauguma žmonių mano, kad generatyvinis AI vis gerės ir gerės; juk tokia tendencija buvo iki šiol. Ir gali tai padaryti. Tačiau kai kurie žmonės nesuvokia, kad generatyvieji AI modeliai yra tokie pat geri, kaip ir didžiuliai duomenų rinkiniai, kurių jie mokomi, ir tie duomenų rinkiniai nėra sukurti iš patentuotų duomenų, priklausančių pirmaujančioms AI įmonėms, tokioms kaip OpenAI ir Anthropic. Vietoj to, jie sudaryti iš viešų duomenų, kuriuos sukūrėme visi – visi, kurie kada nors parašė tinklaraščio įrašą, paskelbė vaizdo įrašą, pakomentavo „Reddit“ giją ar iš esmės darė ką nors kita internete.
Nauja „Data Provenance Initiative“, savanorių dirbtinio intelekto tyrėjų kolektyvo, ataskaita parodo, kas vyksta su visais šiais duomenimis. Ataskaitoje „Sutikimas krizės metu: greitas AI duomenų bendrų mažėjimas“ pažymima, kad daugelis organizacijų, kurioms kyla grėsmė generatyviniam AI, imasi priemonių savo duomenims apriboti. IEEE spektras apie ataskaitą ir jos pasekmes dirbtinio intelekto įmonėms kalbėjosi su Shayne’u Longpre, vadovaujančiu „Data Provenance Initiative“ tyrėju.
Shayne Longpre apie:
Technologija, kurią svetainės naudoja, kad išvengtų žiniatinklio tikrinimo programų, nėra nauja – robotų išskyrimo protokolas buvo pristatytas 1995 m. Ar galite paaiškinti, kas tai yra ir kodėl ji staiga tapo tokia aktuali generatyvaus AI amžiuje?
Shayne’as Longpre
Shayne’as Longpre: Robots.txt yra mašininiu būdu nuskaitomas failas, kurį tikrinimo programos – robotai, kurie naršo žiniatinklį ir įrašo tai, ką mato – naudoja, kad nustatytų, ar tikrinti tam tikras svetainės dalis. Tai tapo de facto standartu tais laikais, kai svetainės pirmiausia jį naudojo interneto paieškai nukreipti. Taigi pagalvokite apie „Bing“ arba „Google“ paiešką; jie norėjo įrašyti šią informaciją, kad galėtų pagerinti naudotojų naršymo žiniatinklyje patirtį. Tai buvo labai simbiozinis ryšys, nes žiniatinklio paieška veikia siųsdama srautą į svetaines, o svetainės to nori. Apskritai, dauguma svetainių puikiai veikė su dauguma tikrinimo programų.
Toliau pakalbėsiu apie tvirtinimų grandinę, kuri yra svarbi norint tai suprasti. Bendrosios paskirties AI modeliai ir labai įspūdingos jų galimybės priklauso nuo duomenų ir skaičiavimo, kurie buvo naudojami jiems mokyti, mastu. Mastelis ir duomenys tikrai svarbūs, ir yra labai nedaug šaltinių, kurie teikia viešą mastą, kaip tai daro žiniatinklis. Tiek daug pagrindinių modelių buvo mokomi (iš duomenų rinkinių sudaryti) žiniatinklio tikrinimai. Šiuose populiariuose ir svarbiuose duomenų rinkiniuose iš esmės yra tik svetainės ir tikrinimo infrastruktūra, naudojama tiems duomenims rinkti, pakuoti ir apdoroti. Mūsų tyrime nagrinėjami ne tik duomenų rinkiniai, bet ir pirmenybės signalai iš pagrindinių svetainių. Tai pati duomenų tiekimo grandinė.
Tačiau per pastaruosius metus daugelis svetainių pradėjo naudoti robots.txt, kad apribotų robotus, ypač svetainėse, iš kurių gaunama pinigų iš reklamos ir mokamų sienų, todėl pagalvokite apie naujienas ir menininkus. Jie ypač bijo ir galbūt pagrįstai, kad generatyvus AI gali pakenkti jų pragyvenimui. Taigi jie imasi priemonių savo duomenims apsaugoti.
Kai svetainė nustato robots.txt apribojimus, tai panašu į ženklą, kuriame draudžiama įžengti, ar ne? Tai nevykdoma. Turite tikėti, kad skaitytuvai tai gerbs.
Longpre: Tragedija ta, kad robots.txt yra nuskaitomas mašininiu būdu, bet neatrodo, kad jis teisiškai įgyvendinamas. Tuo tarpu paslaugų teikimo sąlygos gali būti teisiškai įgyvendinamos, bet nėra nuskaitomos mašininiu būdu. Paslaugos sąlygose jie gali natūralia kalba suformuluoti, kokios yra duomenų naudojimo nuostatos. Taigi jie gali pasakyti tokius dalykus kaip: „Galite naudoti šiuos duomenis, bet ne komerciniais tikslais“. Tačiau robots.txt turite atskirai nurodyti tikrinimo programas ir pasakyti, kurias svetainės dalis leidžiate arba neleidžiate. Dėl to tinklalapiams tenka pernelyg didelė našta tarp tūkstančių skirtingų tikrinimo programų, kurios atitinka naudojimo būdus, kurių jos norėtų, o kurių – ne.
Ar žinome, ar tikrinimo programos paprastai laikosi robots.txt apribojimų?
Longpre: Daugelis didžiųjų įmonių turi dokumentus, kuriuose aiškiai nurodomos jų taisyklės ar procedūros. Pavyzdžiui, Anthropic atveju jie sako, kad gerbia ClaudeBot skirtą robots.txt. Tačiau daugelis šių įmonių pastaruoju metu taip pat pateko į naujienas, nes buvo apkaltintos ne gerbia robots.txt ir vis tiek tikrina svetaines. Iš išorės neaišku, kodėl yra neatitikimų tarp to, ką AI įmonės sako, kad jos daro, ir to, kuo jos kaltinamos. Tačiau daugelis pro-socialinių grupių, naudojančių nuskaitymą (mažesni startuoliai, akademikai, ne pelno organizacijos, žurnalistai), linkę gerbti robots.txt. Jie nėra numatytas šių apribojimų tikslas, tačiau jie juos blokuoja.
atgal į viršų
Ataskaitoje apžvelgėte tris mokymo duomenų rinkinius, kurie dažnai naudojami mokant generatyviąsias AI sistemas, kurios buvo sukurtos naudojant žiniatinklio tikrinimus praeitais metais. Pastebėjote, kad nuo 2023 m. iki 2024 m. labai smarkiai išaugo tikrinamų domenų, kurie nuo to laiko buvo apriboti, skaičius. Ar galite kalbėti apie tuos atradimus?
Longpre: Mes nustatėme, kad jei pažvelgsite į konkretų duomenų rinkinį, paimkime C4, kuris yra labai populiarus, sukurtas 2019 m. – per mažiau nei metus maždaug 5 procentai jo duomenų buvo atšaukti, jei gerbsite ar laikysitės nuostatų. pagrindinių svetainių. Dabar 5 procentai neatrodo kaip tona, bet tai yra tada, kai supranti, kad ši duomenų dalis daugiausia atitinka aukščiausios kokybės, geriausiai prižiūrimus ir naujausius duomenis. Kai pažvelgėme į 2 000 populiariausių šio C4 duomenų rinkinio svetainių – tai yra 2 000 populiariausių pagal dydį ir dažniausiai tai naujienos, didelės akademinės svetainės, socialinė žiniasklaida ir gerai kuruojamos aukštos kokybės svetainės – 25 procentai duomenų. 2000 geriausių nuo tada buvo atšauktas. Tai reiškia, kad modelių, kurie gerbia robots.txt, mokymo duomenų paskirstymas sparčiai pereina nuo aukštos kokybės naujienų, akademinių svetainių, forumų ir socialinės žiniasklaidos prie daugiau organizacinių ir asmeninių svetainių, taip pat el. prekybos ir tinklaraščių.
Atrodo, kad gali kilti problemų, jei paprašytume kokios nors būsimos „ChatGPT“ ar „Perplexity“ versijos atsakyti į sudėtingus klausimus, o informacija paimama iš asmeninių tinklaraščių ir apsipirkimo svetainių.
Longpre: Būtent. Sunku įvertinti, kaip tai paveiks modelius, bet manome, kad bus atotrūkis tarp modelių, kurie gerbia robots.txt, ir modelių, kurie jau apsaugojo šiuos duomenis ir vis tiek nori juos treniruotis, našumo.
Tačiau senesni duomenų rinkiniai vis dar nepaliesti. Ar AI įmonės gali tiesiog naudoti senesnius duomenų rinkinius? Kokia to blogoji pusė?
Longpre: Na, nuolatinis duomenų šviežumas tikrai svarbus. Taip pat neaišku, ar robots.txt gali būti taikomas atgaline data. Leidėjai greičiausiai ginčytųsi, kad taip. Taigi tai priklauso nuo jūsų potraukio ieškiniams arba nuo to, kur taip pat manote, kad gali pasikeisti tendencijos, ypač JAV, dėl vykstančių ieškinių dėl sąžiningo duomenų naudojimo. Puikus pavyzdys yra akivaizdus „New York Times“. prieš OpenAI ir Microsoft, tačiau dabar yra daug variantų. Yra daug neaiškumų, kokiu keliu jis eis.
Ataskaita vadinasi „Sutikimas krizės metu“. Kodėl manote, kad tai krizė?
Longpre: Manau, kad tai yra duomenų kūrėjų krizė, nes esamais protokolais sunku išreikšti tai, ko jie nori. Taip pat kai kuriems kūrėjams, kurie yra nekomerciniai ir galbūt net nesusiję su dirbtiniu intelektu, akademikai ir mokslininkai pastebi, kad šie duomenys tampa vis sunkiau pasiekiami. Ir aš manau, kad tai taip pat krizė, nes tai tokia netvarka. Infrastruktūra nebuvo sukurta taip, kad vienu metu atitiktų visus šiuos skirtingus naudojimo atvejus. Ir tai pagaliau tampa problema, nes šios didžiulės pramonės šakos susiduria su generatyviu AI prieš naujienų kūrėjus ir kitus.
Ką dirbtinio intelekto įmonės gali padaryti, jei tai tęsis ir vis daugiau duomenų bus ribojama? Kokie būtų jų žingsniai, kad ir toliau mokytų didžiulius modelius?
Longpre: Didelės įmonės licenciją išduos tiesiogiai. Kai kurioms didelėms įmonėms gali būti neblogas rezultatas, jei daug šių duomenų yra atimta arba sunku surinkti, tai tiesiog sukuria didesnį kapitalo reikalavimą norint patekti į rinką. Manau, kad didelės įmonės daugiau investuos į duomenų rinkimą ir nuolatinę prieigą prie vertingų duomenų šaltinių, kuriuos sukuria naudotojai, pvz., „YouTube“, „GitHub“ ir „Reddit“. Išskirtinės prieigos prie tų svetainių gavimas tikriausiai yra protingas rinkos žaidimas, tačiau antimonopoliniu požiūriu problematiškas. Esu ypač susirūpinęs dėl išskirtinių duomenų gavimo santykių, kurie gali atsirasti dėl to.
atgal į viršų
Ar manote, kad sintetiniai duomenys gali užpildyti spragą?
Longpre: Didelės įmonės jau dabar dideliais kiekiais naudoja sintetinius duomenis. Su sintetiniais duomenimis yra ir baimių, ir galimybių. Viena vertus, buvo atlikta daugybė darbų, kurie parodė modelio žlugimo potencialą, ty modelio pablogėjimą dėl prastų sintetinių duomenų, kurie gali dažniau pasirodyti žiniatinklyje, nes leidžiami vis daugiau generatyvių robotų. laisvas. Tačiau, manau, mažai tikėtina, kad dideli modeliai bus labai apsunkinti, nes juose yra kokybiški filtrai, todėl prastos kokybės ar pasikartojantys dalykai gali būti išmesti. O sintetinių duomenų galimybės yra tada, kai jie sukuriami laboratorinėje aplinkoje, kad būtų labai kokybiški, ir jie ypač taikomi į nepakankamai išvystytas sritis.
Ar pasitikite mintimi, kad galime gauti didžiausią duomenų kiekį? O gal manote, kad tai perdėtas rūpestis?
Longpre: Ten yra daug nepanaudotų duomenų. Tačiau įdomu tai, kad daug jo yra paslėpta už PDF, todėl jums reikia atlikti OCR (optinį simbolių atpažinimą). Daug duomenų yra užrakinta vyriausybėse, patentuotuose kanaluose, nestruktūrizuotuose formatuose arba sunkiai išgaunamuose formatuose, pvz., PDF. Manau, kad norint išsiaiškinti, kaip išgauti tuos duomenis, reikės daug daugiau investicijų. Manau, kad kalbant apie lengvai prieinamus duomenis, daugelis įmonių pradeda atsitrenkti į sienas ir pereina prie sintetinių duomenų.
Kokia čia tendencijos linija? Ar tikitės, kad ateinančiais metais bus daugiau svetainių, kuriose bus taikomi robots.txt apribojimai?
Longpre: Tikimės, kad apribojimai padidės tiek robots.txt, tiek paslaugų atžvilgiu. Tos tendencijų linijos labai aiškiai matomos iš mūsų darbo, tačiau joms įtakos gali turėti išoriniai veiksniai, tokie kaip teisės aktai, pačios įmonės, keičiančios savo politiką, ieškinių rezultatai, taip pat bendruomenės spaudimas iš rašytojų gildijų ir panašūs dalykai. Ir tikiuosi, kad padidėjęs duomenų pavertimas prekėmis šioje erdvėje sukels daugiau mūšio lauko.
Ką norėtumėte, kad pramonėje būtų standartizuotas, kad svetainėse būtų lengviau išreikšti nuskaitymo nuostatas?
Longpre: Duomenų provincijos iniciatyvoje tikrai tikimės, kad atsiras ir bus priimti nauji standartai, leidžiantys kūrėjams detaliau išreikšti savo pageidavimus dėl savo duomenų naudojimo. Tai labai palengvintų jų naštą. Manau, kad tai nerūpestinga ir naudinga visiems. Tačiau neaišku, kieno darbas yra sukurti ar įgyvendinti šiuos standartus. Būtų nuostabu, jei pačios (AI) įmonės padarytų tokią išvadą ir tai padarytų. Tačiau standarto kūrėjas beveik neišvengiamai turės tam tikrą šališkumą savo naudojimui, ypač jei tai yra verslo subjektas.
Taip pat ne visais atvejais reikia gerbti pageidavimus. Pavyzdžiui, nemanau, kad akademikams ar žurnalistams, atliekantiems prosocialinius tyrimus, būtinai neturėtų būti uždrausta prieiti prie duomenų su mašinomis, kurios jau yra viešos, svetainėse, kuriose kiekvienas galėtų apsilankyti. Ne visi duomenys sukuriami vienodai ir ne visi naudojimo būdai yra vienodi.
atgal į viršų
Iš jūsų svetainės straipsnių
Susiję straipsniai visame internete