EU obaveza transparentnosti: objava podataka korišćenih za obuku GPAI modela

3. новембар 2025.

Razvoj i uvođenje opšte-namenskih AI sistema (GPAI) napreduje veoma brzo, stoga regulatori na globalnom nivou, uvode strože zahteve za provajdere vezano za transparentnost, odgovornost i upravljanje ovim sistemima. U tom kontekstu, Evropska komisija je uvela standardizovani GPAI Training Transparency Template kao deo operativne primene Uredbe EU o veštačkoj inteligenciji (EU AI Act). Obrazac ne predstavlja puku administrativnu formalnost, već ima za cilj da promeni pristup kompanija prema pitanju usklađenosti, time što od onih koje razvijaju ili integrišu GPAI, zahteva sistematičan uvid u podatke, procese i odluke koji oblikuju model.

Dakle, provajder mora posedovati precizno i celovito znanje o tome kako je treniran AI model i biti sposoban da taj proces jasno dokumentuje nadležnim organima i drugim relevantnim činiocima.

Šta predstavlja GPAI Training Transparency Template?

Obrazac standardizuje sistem izveštavanja i namenjen je povećanju transparentnosti pri razvoju i treningu GPAI sistema. Njegova uloga je da regulatorima i korisnicima, pruži jasan uvid u poreklo, ograničenja i rizike konkretnog modela.

Na osnovu obrasca, provajderi su u obavezi da objave detalje o:

trening podacima – tipovi i izvori baza podataka, metode selekcije i filtriranja, kao i oznaka da li je materijal zaštićen autorskim pravom;
upravljanju podacima – mehanizmi kontrole kvaliteta, mere za ublažavanje rizika i dokumentovanje iteracija tokom razvoja.

Kroz formalizaciju procesa objavljivanja ovih podataka, uvodi se ujednačen pristup, podstiče odgovoran razvoj i olakšava usaglašenost sa regulatornim zahtevima.

Kada ova obaveza stupa na snagu?

Od 2. avgusta 2025. obavezna je javna objava sažetka treninga za sve GPAI modele koji se od tog datuma plasiraju na tržište EU. Za modele plasirane ranije, važi tranzicioni period do 2. avgusta 2027., tokom koga provajderi moraju retroaktivno objaviti sažetke treninga za modele koje su do tada razvili.

Ako određene informacije nije moguće pribaviti zbog tehničkih ograničenja ili bi njihovo pribavljanje iziskivalo nesrazmeran napor, dozvoljen je da provajderi takve informacije izostave iz objave, uz obavezno, transparentno obrazloženje. Čak i tada, sažetak treninga mora biti maksimalno potpun, relevantan i informativan.

Na koga se obaveza odnosi i zašto je važna?

Obaveza primene obrasca je propisana članom 53(1)(d) EU AI Act-a, i odnosi se na svakog provajdera GPAI modela koji plasira takav model na tržište EU.

Obuhvata:

kreatore GPAI modela sa sedištem u EU i van EU;
kompanije koje integrišu GPAI u usluge, naročito kada integrisani model postaje deo visokorizičnog AI sistema;
provajdere AI-as-a-Service modela, koji nude GPAI modele kroz API i platforme, i tako ih čine dostupnim na tržištu EU.

Neusklađenost sa ovim obavezama može dovesti do propisanih sankcija, reputacionih šteta i ograničenog pristupa tržištu. Eksteritorijalni domet EU AI Act-a znači da obaveze obuhvataju i subjekte van EU koji svoje GPAI modele nude ili stavljaju na raspolaganje korisnicima u EU.

Šta ako se model modifikuje ili doteruje (fine-tuning)?

Ako je obim i priroda modifikacije takva da modifikator stiče status novog provajdera prema Uredbi EU o veštačkoj inteligenciji, na njega prelazi obaveza objavljivanja sažetka treninga. Nije potrebno ponavljati celokupnu istoriju treninga osnovnog modela: objavljuju se samo informacije o dodatnom treningu/fine-tuning-u, uz jasno navođenje naziva i verzije modifikovanog modela.

Jedan sažetak može obuhvatiti više varijanti koje dele iste dodatne trening podatke, uz eksplicitno navođenje svih verzija. Ako su korišćeni različiti skupovi podataka, potrebni su odvojeni sažeci, a svaki mora sadržati referencu na originalni model i njegov već objavljeni sažetak.

Ključne obaveze za kompanije

Obrazac propisuje tri kategorije obaveznih javnih informacija:

1. Opšte informacije – identitet provajdera i modela; opis tipova podataka (tekst, slike, audio, video) i procena količine podataka po tipu.

2. Lista izvora podataka – pregled porekla sadržaja korišćenog za trening: javne i privatne baze podataka, podatke sa weba (web scraping), sintetički podaci, kao i podaci izvedeni iz korisničkih interakcija. Kod podataka sa weba, traže se dodatni detalji: informacije o alatima za prikupljanje (crawling), vremenski periodi treninga, vrste prikupljenog sadržaja i najčešće ciljani web domeni. MSP/SMEs su podvrgnuti manje rigoroznim obavezama, ali i dalje moraju obezbediti adekvatan uvid u relevantne prakse.

3. Relevantni aspekti obrade podataka – identifikacija materijala zaštićenog autorskim pravom i obrazloženje zakonitosti text and data mining praksi prema pravu EU; potvrda da li su korišćeni podaci iz korisničkih interakcija (uz isključivanje ličnih podataka); opis mera za detekciju i uklanjanje nezakonitog sadržaja; pregled tehničko-organizacionih mera za ublažavanje rizika povezanih sa obukom.

Ove obaveze su usklađene sa širim principima upravljanja AI-jem: odgovornost, objašnjivost i pravičnost.

Gde i kada objaviti sažetak?

Sažetak mora biti javno dostupan najkasnije u trenutku plasmana GPAI modela na tržište EU, tj. objava je preduslov pristupu tržištu. Sažetak se objavljuje na zvaničnom sajtu provajdera, na istaknutom i lako dostupnom mestu, uz jasno označavanje modela i verzije.

Pored toga, sažetak mora biti dostupan i na mestima distribucije modela: open-source repozitorijumi, developer habovi , digitalni marketplace.

Da li se sažeci moraju ažurirati?

Da. Sažeci su „živi” dokumenti i zahtevaju redovna ažuriranja prema dva faktora:

Vremenski faktor – najmanje jednom u šest meseci provajder analizira i, po potrebi, dopunjuje sažetak.
Materijalni faktor – pri značajnom unošenju novih baza podataka ili sprovođenju bitnih promena, ažuriranje se vrši odmah, pre isteka šestomesečnog perioda.

Svaka nova verzija sažetka mora sadržati datum izmene i opis novih podataka ili promena, i objavljuje se paralelno sa modifikovanom verzijom modela, i to na zvaničnom sajtu i na relevantnim kanalima distribucije (repozitorijumi, hub-ovi, marketplace-ovi).

Česte greške i kako ih izbeći

Neodređene ili nepotpune objave – formulacije poput „koristimo javno dostupne podatke” nisu dovoljne. Potrebni je navesti konkretne baze podataka, pravni osnov, alate koji su korišćeni za prikupljanje, vreme kada je prikupljanje vršeno, kao i najčešće ciljane izvore podataka.

Isključivanje pravnih i drugih timova zaduženih za nadzor nad AI i podacima – usklađenost sa propisima je višeslojan proces. Kasno uključivanje pravnih, DPO i risk/governance timova stvara praznine, posebno u sferi IP prava i ličnih podataka.

Tretiranje izrade dokumentacije kao jednokratnog zadatka – sažeci zahtevaju i kontinuirana prilagođavanja i kreiranja novih verzija: periodično (najmanje na šest meseci) ili odmah kod materijalnih izmena.

Ovakav pristup omogućava punu usklađenost, smanjuje regulatorne i reputacione rizike i potvrđuje odgovoran odnos prema razvoju i plasmanu GPAI.