Súd rozhodol v spore o trénovanie AI na dostupných dátach - trénovanie je legálne

Prvý veľký súd ohľadom trénovania AI už skončil a to s očakávaným výsledkom, trénovanie je legálne, keďže tak isto môžete veci vytvoriť aj sami. Ale pozor - výsledok nemusí byť legálny.

pridal saver 28.6.2025 o 13:48 pod software

Súd rozhodol v spore o trénovanie AI na dostupných dátach - trénovanie je legálne

SOFTWARE > NOVINKY >

Americký federálny súd v severnej Kalifornii práve vyniesol prelomový rozsudok, ktorý môže zásadne ovplyvniť budúcnosť vývoja umelej inteligencie. V spore proti firme Anthropic, známemu tvorcovi modelu Claude, rozhodol, že používanie copyrightovaných kníh na trénovanie veľkých jazykových modelov je legálne a spadá pod princíp tzv. „fair use“ (spravodlivého použitia).

Rozhodnutie prichádza v čase, keď sa celý technologický sektor snaží vyrovnať s rastúcou vlnou žalôb autorov, vydavateľov či mediálnych domov. Súd však zároveň potvrdil, že prípad použitia pirátsky získaných dát - napríklad nelegálne stiahnutých knižných knižníc - je úplne odlišný a Anthropic za to čaká osobitný proces.

Kľúčové body rozsudku:

Trénovanie AI je transformácia
Sudca William Alsup vo svojom odôvodnení uviedol, že samotný proces trénovania modelu je porovnateľný s tým, ako sa autor alebo študent učí štýl, štruktúru či fakty z kníh, aby vytvoril vlastné dielo. Systém podľa neho „nevytvára kópie pre predaj“, ale extrahuje štatistické vzory na generovanie nového textu.
Používanie pirátskych zdrojov je iný prípad
Anthropic však čelí samostatnému súdnemu konaniu za údajné použitie viac ako 7 miliónov kníh nelegálne stiahnutých z pirátskych databáz, ako sú Library Genesis a podobné archívy. V tomto prípade sa bude rozhodovať nielen o zodpovednosti, ale aj o náhrade škody, ktorá môže dosiahnuť veľmi vysoké sumy.
Legálne trénovanie neznamená legálne výstupy
Súd zdôraznil, že aj keď samotné trénovanie na copyrightovaných dielach je považované za povolené, výstup modelu môže byť problematický. Ak by model generoval doslovné pasáže alebo presné kópie chránených diel, mohlo by ísť o porušenie autorského práva. To je téma, ktorá sa bude posudzovať v budúcich sporoch. Špecificky to môže platiť pri obrázkoch, ktoré môžu vygenerovať niečo s copyrightom.

Čo to znamená pre AI a autorov

Rozsudok je pre technologické firmy veľkým víťazstvom. Legalizuje používanie verejne dostupných a legálne získaných dát na trénovanie modelov bez toho, aby bolo potrebné vyjednávať individuálne licencie s každým držiteľom práv. Pre autorov a vydavateľov je to však varovanie, že tradičné chápanie kopírovania sa v digitálnej dobe mení.

Zároveň ide len o prvý krok. Ďalšie kľúčové otázky - najmä náhrady škody za pirátske dáta a otázka zodpovednosti za výstupy modelov - ostávajú otvorené a budú predmetom samostatných konaní. Už v decembri sa očakáva proces, ktorý rozhodne, či Anthropic porušil práva autorov, keď na trénovanie Claude použil obrovský archív nelegálne šírených kníh. To isté spravila aj Meta.

Čo bude nasledovať?

Podľa expertov môže tento verdikt urýchliť vývoj generatívnej AI a upevniť pozíciu veľkých modelov ako Claude, ChatGPT či Gemini. No súčasne prináša nové výzvy pre ochranu autorských práv a potrebu transparentne označovať, na akých dátach boli modely trénované a čo presne generujú.

Ďalšie veľké spory sa očakávajú najmä v prípade OpenAI, Meta, Stability AI a ďalších firiem, ktoré používali obrovské objemy internetových textov či obrazových databáz bez individuálneho súhlasu autorov. Výsledok by mal byť podobný, keďže tento súd práve zadefinoval trénovanie ako legálny proces, ale sudcovia môžu prísť s výnimkami.