OpenAI otkrio da su uništili ogroman broj podataka s knjigama koje su koristili za uvježbavanje GPT-a

Usred tekućeg pravnog sukoba između američkog Ceha autora i OpenAI-ja, pojavili su se nedavno otpečaćeni dokumenti koji rasvjetljavaju brisanje dvaju značajnih skupova podataka, nazvanih “books1” i “books2”, ključnih u obuci OpenAI-jevog GPT-3 AI modela.

Pravni podnesci od strane savjetnika Ceha sugeriraju da su ovi skupovi podataka vjerojatno sadržavali više od 100.000 objavljenih knjiga, čineći srž optužbi Ceha da je OpenAI prekršio materijale zaštićene autorskim pravima u razvoju svojih AI modela.

U početku nailazeći na otpor, OpenAI je na kraju popustio, otkrivajući brisanje svih kopija podataka i navodeći njihovu neupotrebu nakon upornih upita Ceha u vezi s tim podacima.

Središnje mjesto u stvaranju moćnih AI modela su visokokvalitetni podaci o obuci. Čelnici AI industrije, uključujući OpenAI, iskoristili su ogromne količine internetskih podataka, uključujući opsežan sadržaj knjiga, kako bi potaknuli razvoj ovih modela, što je izazvalo sporne pravne sporove s autorima koji traže naknadu za svoje doprinose.

Ključna takozvana bijela knjiga OPANAi-ja iz 2020. godine opisala je “books1” i “books2” kao korpuse knjiga temeljene na internetu, koje su pridonijele sa značajnih 16% u podacima o obuci GPT-3 modela, što ukupno iznosi nevjerojatnih 67 milijardi tokena, što je pak ekvivalentno otprilike 50 milijardi riječi.

Objave pravnih predstavnika OpenAI-ja otkrile su da je korištenje tih skupova podataka prestalo krajem 2021. godine, s njihovim konačnim brisanjem sredinom 2022. godine zbog neuporabe. Bez obzira na to, ostali podaci o obuci ostaju neoštećeni i dostupni pravnom timu Ceha.

Daljnja otkrića iz nezapečaćenih dokumenata razotkrila su odlazak dvojice istraživača odgovornih za stvaranje skupova podataka iz OpenAI-jevog rada. U početku obavijen velom tajne, OpenAI je na kraju otkrio njihov identitet odvjetnicima Ceha.

Međutim, startup se suzdržao od objavljivanja njihovih imena, tražeći od suda da zadrži njihovu anonimnost uz uskraćivanje detaljnih informacija o skupovima podataka.

U pokušaju da pojasni svoje stajalište, OpenAI je ustvrdio da njegovi trenutni ChatGPT i API modeli nisu razvijeni korištenjem spornih skupova podataka. Umjesto toga, skupovi podataka posljednji su put korišteni 2021. godine i naknadno izbrisani 2022. godine zbog produljene neaktivnosti.

Brojni studenti već su izbačeni s fakulteta zbog korištenja umjetne inteligencije

Nakon što je OpenAI predstavio ChatGPT, ovaj se alat na početku pokazao prilično popularan među učenicima i studentima te je više profesora s fakulteta upozorilo kako se umjetna inteligencija koristi za varanje pri rješavanju zadataka i pisanju eseja.

Umjesto da provedu sate tražeći materijale, čitajući, obrazujući se i pišu ono što su naučili i na temelju toga izvuku neke vlastite zaključke, sada dio njih sve to prepusti umjetnoj inteligenciji.

Koliko je ovaj problem raširen teško je reći, no kako je to rekao jedan neimenovani član britanske akademske zajednici novinarima Financial Timesa, on je puno veći nego što javnost misli.

U njegovoj instituciji problem je toliko raširen da su do sada već mnogi studenti izbačeni s fakulteta te su neki kolegiji izgubili veliki broj studenata. Slično je i na nekim drugim sveučilištima s čijim je predstavnicima razgovarao.

Iako se općenito kaže kako je teško jednostavno prepoznati sadržaj koji su napisali AI chatbotovi, osoba s kojom su pričali novinari FT-a kaže kako je to u biti prilično jednostavno. Naime, kada se studente upita o nekim pojmovima ili izvorima koje su koristili za pisanje eseja i radova, oni koji su ih napisali uz pomoć AI-a nemaju pravi odgovor.

No kako napominje ovaj član akademske zajednice, otkrivanje prevaranata samo je dio problema, a drugi dio problema je odnos prema onima koji varaju. Naime, kako su često to strani studenti koji plaćaju puno veće školarine u odnosu na lokalce, fakulteti ih ne žele izbaciti jer time gube i njihov novac koji im je prijeko potreban.

Sve to, naglašavaju na FT, može s vremenom dovesti do jako velikog problema, a to je da će takve osobe na kraju završiti fakultete, no neće imati znanje koje je potrebno za diplomu jer će im tijekom školovanja u tome pomoći AI.

No dok umjetna inteligencija može pomoći u teoriji, što će se dogoditi kada dođe do nekog praktičnog problema koji će te osobe morati riješiti same, bez mogućnosti da im pomogne AI? Pogotovo se to odnosi na osjetljiva zanimanja poput medicine i vojske u kojima bi se, zbog diplome, mogli zaposliti nekvalificirani ljudi.

Dok izvori Financial Timesa govore o prilično velikom i raširenom problemu, jedno ranije istraživanje koje su u SAD-u proveli istraživači sa Stanforda pokazalo je drukčiju sliku. Naime, prema njihovim podacima, AI nije značajno utjecala na općenito povećanje varanja.

Oni su se oslonili na starije podatke o varanju učenika srednjih škola koji pokazuju da se dugi niz godina njih do 70 posto služi različitim taktikama varanja, prepisivanja i slično. Ta brojka nije se promijenila godinu dana nakon predstavljanja ChatGPT-a, iako možemo pretpostaviti kako je s AI to varanje sada postalo intenzivnije.

Što se fakulteta tiče, oko polovice studenata redovno koristi generativnu AI, ali ne samo za varanje, dok ovu tehnologiju dnevno koristi samo 12 posto njih.

Također, podaci kompanije koja je razvila softver za prepoznavanje plagijata Turnitin, pokazuju kako je prije godinu dana situacija oko korištenja AI-a u pisanju eseja i drugih zadataka gotovo jednaka kao i danas. Također, kako je objasnio Chris Caren iz ove tvrtke, samo korištenje ChatGPT-a ne znači automatski varanje jer neki profesori dopuštaju korištenje AI alata u određenom obujmu, no samo kao ograničenu pomoć u pisanju.

Što god mislili o umjetnoj inteligenciji, činjenica je kako ćemo s vremenom sve više koristiti ovu tehnologiju u brojnim segmentima, uključujući i u obrazovanju te će i za školarce i studente biti od velike važnosti da se znaju služiti s alatima za generativnu AI, no isto tako treba voditi računa da se oni ne koriste za varanje i protuzakonite aktivnosti.