BI CONSULT - Europska komisija: Na kojim podacima uče GPAI modeli?

GDPR Croatia

Napisao/la BI CONSULT 26 Srpanj 2025

Što je GPAI model? Slijedimo definiciju iz uvodne izjave (99) AI Akta: „Veliki GPAI modeli tipičan su primjer AI modela opće namjene s obzirom na to da omogućuju fleksibilnu proizvodnju sadržaja, primjerice u obliku teksta, audiozapisa, slika ili videozapisa, koji mogu lako obavljati širok raspon različitih zadaća.“

Pri tom je važno znati, a što se u praksi i kod nas najčešće događa, da u slučajevima kad je GPAI integriran u AI sustav neke organizacije, da se takav sustav smatra AI sustavom opće namjene.

No, ako neka tvrtka koristi dobavljačev AI model koji služi samo za text-to-speech konverziju ili za povećanje rezolucije fotografija ili detekciju nedostajućih dijelova fotografija ili pak za partiju šaha ili prognozu vremena, takvi AI modeli ne spadaju u GPAI kategoriju.

Dobavljači GPAI modela imaju posebnu ulogu i odgovornost duž vrijednosnog lanca umjetne inteligencije jer modeli koje pružaju mogu biti osnova za niz sustava niže u lancu, koje često pružaju dobavljači niže u lancu koji zahtijevaju dobro razumijevanje modela i njihovih sposobnosti kako bi omogućili integraciju takvih modela u svoje proizvode i ispunili svoje obveze na temelju AI akta i npr. GDPR-a.

Stoga dobavljači GPAI modela moraju dokumentirati svoje modele i osigurati neophodnu transparentnost.

Prema članku 53. stavku 1. točki d. dobavljači GPAI modela (Modela umjetne inteligencije opće namjene), tj. oni koji razvijaju i stavljaju takve modele na tržište EU, moraju izraditi i javno objaviti dovoljno detaljan sažetak o sadržaju upotrijebljenom za treniranje svog GPAI modela.

Svima nam je jasno da su dobavljači GPAI modela trenirali svoje AI modele na ogromnim količinama tekstova, fotografija, videozapisa, materijala zaštićenih autorskim pravima, pa i na osobnim podacima.

U vezi s pravima intelektualnog vlasništva, uključujući autorsko pravo i srodna prava, transparentnost podataka korištenih za treniranje modela trebala bi pomoći nositeljima prava da dobiju relevantne informacije o sadržaju korištenom pri treniranju modela umjetne inteligencije opće namjene. Te su informacije potrebne kako bi se omogućilo ostvarivanje njihovog temeljnog prava na intelektualno vlasništvo te temeljnog prava na djelotvoran pravni lijek u svrhu zaštite njihovih prava, kako je predviđeno pravom Europske unije u području prava intelektualnog vlasništva.

Transparentnost podataka za treniranje treba i olakšati ostvarivanje prava svih nas, ispitanika, te općenito podržati provedbu pravila Europske unije o zaštiti naših osobnih podataka. Posebno se to može postići sažimanjem svih relevantnih informacija na jednom mjestu, poput podataka prikupljenih s interneta ili onih koje je pružatelj prikupio kroz interakcije s modelom ili drugim uslugama i proizvodima.

Najčešće se ovdje radi o skrejpanju ili struganju naših osobnih podataka, a da pri tom mi nismo ni svjesni da su naši osobni podaci ušli u nečiji GPAI model kao materijal za treniranje.

Transparentnost općih karakteristika sadržaja korištenog za treniranje također može pomoći pružateljima koji integriraju te modele u krajnje aplikacije da procijene raznolikost podataka, s ciljem minimiziranja rizika diskriminacije, npr. zbog pristranosti modela.

Transparentnost omogućuje akademskim institucijama i organizacijama da kritički ocijene implikacije i ograničenja određenog modela umjetne inteligencije opće namjene, kao i potencijalne rizike i štetne posljedice povezane s korištenim podacima.

Stoga je Europska komisija javno objavila Explanatory Notice and Template for the Public Summary of Training Content for general-purpose AI models:

https://ec.europa.eu/newsroom/dae/redirection/document/118480

koji predstavlja predložak s minimalnim skupom informacija koje GPAI dobavljači moraju javno objaviti:

֍ Opće informacije
Potrebno je navesti podatke koji omogućuju identifikaciju pružatelja i modela, uključujući načine treniranja, vrste podataka (modalitete), njihov relativni udio i opće karakteristike podataka za treniranje.

֍ Popis izvora podataka
Treba otkriti glavne skupove podataka korištene za treniranje modela, uključujući velike javne ili privatne baze podataka, kao i opis podataka prikupljenih s interneta (uključujući pregled najrelevantnijih domena) te opis ostalih korištenih izvora (npr. korisnički podaci, sintetski podaci). Cilj je pružiti potpun prikaz sadržaja korištenog za treniranje.

֍ Relevantni aspekti obrade podataka
Ovdje je potrebno navesti informacije važne za ostvarivanje prava trećih strana s legitimnim interesima prema pravu EU, osobito usklađenost s autorskim i srodnim pravima i mogućnost uklanjanja nezakonitog sadržaja.

Posebno nam je zanimljiv dio obveznih informacija o skrejpanju ili struganju podataka s interneta. Za podatke prikupljene s internetskih izvora, zahtijeva se navođenje relevantnih informacija poput:

korištenih alata za prikupljanje (tzv. crawlers),
njihove namjene i ponašanja,
razdoblja prikupljanja,
te detaljan opis vrste sadržaja i internetskih izvora s kojih su podaci preuzeti (vidi odjeljak 2.3 Predloška).

Također, predložak zahtijeva da se prikaže sažeti popis najrelevantnijih internetskih domena koje su pretraživane i s kojih su podaci preuzeti, u sažetom narativnom obliku, pod uvjetom da je njihov sadržaj korišten za treniranje AI modela opće namjene. Cilj ovog sažetka domena je pružiti smislen uvid u najvažnije domene s kojih su podaci prikupljeni, uz očuvanje poslovne tajne.

Rokovi primjene obveza:

֍ Od 02.08.2025.
Svi pružatelji novih GPAI modela koji se prvi put stavljaju na tržište EU-a moraju biti usklađeni s AI Aktom.
To uključuje i obvezu izradu i objavu „Sažetka o podacima za treniranje“ prema predlošku, koji sadrži i dio o internetskim izvorima (crawleri, domene, razdoblje prikupljanja itd.).

֍ Od 02.08.2026.
Europska komisija započinje provedbu i nadzor, uključujući inspekcije i novčane kazne u slučaju neusklađenosti.

֍ Do 02.08.2027.
Svi GPAI modeli koji su već bili na tržištu prije 02.08.2025. moraju također biti usklađeni i imati objavljene sve tražene informacije.

I za kraj, u komunikaciji s ChatGPT smo saznali da su skrejpali i naše objave.

Ali to tek trebaju javno priznati za dvije godine 😉

Image from FreePik

#gdprcroatia

#aicroatia

#gpai

#transparency

#aiact

Europska komisija: Na kojim podacima uče GPAI modeli?

Kontaktiraj nas

Izbornik

Europska komisija: Na kojim podacima uče GPAI modeli?

Dok vi gradite svoj poslovni uspjeh

mi brinemo o zaštiti podataka

Kontaktiraj nas

Izbornik