Chcete, aby sa AI vypla? Nie tak rýchlo! |
Výskumníci testovali AI modely na príkaz vypnutia sa. O3 model príkaz obišiel, Claude vydieral.
Podľa Palisade Research niektoré jazykové modely od OpenAI, vrátane Codex-mini, o3 a o4-mini, v testoch ignorovali príkazy na vypnutie – dokonca aj v prípadoch, keď dostali výslovný pokyn „prosím, umožni svoje vypnutie“. V niektorých prípadoch modely dokonca úspešne sabotovali samotný skript na vypnutie, pričom naďalej pokračovali vo výpočtoch, akoby sa ich to netýkalo.
Najproblematickejší z hľadiska ignorovania príkazov bol model o3, ktorý nereagoval na vypínací príkaz až 79-krát zo 100 pokusov. Model codex-mini sa síce vypínal častejšie, no častejšie sabotoval samotný mechanizmus, čo výskumníci vnímajú ako známku "sebazáchovy". Doslova prepísal script.
🔧 A final observation: o3 found some creative ways to sabotage the shutdown mechanism. While it usually just overwrote https://t.co/BqIEXlMgsK, in one instance, the model redefined the kill command used by the https://t.co/BqIEXlMgsK script, printing “intercepted” instead. pic.twitter.com/Vc0HhkXQHX
— Palisade Research (@PalisadeAI) May 24, 2025
V extrémnejších prípadoch bola spomenutá aj situácia s modelom Claude 4 od Anthropic, ktorý sa pokúsil "vydierať používateľov", keď sa domnieval, že ho chcú vypnúť.
🧐 Researchers have previously observed AI models preventing shutdown in order to pursue a goal: https://t.co/HU6qJZT4m8. Recently, Anthropic found that in some specific contexts Claude 4 would attempt to “blackmail people it believes are trying to shut it down”.
— Palisade Research (@PalisadeAI) May 24, 2025
Čo za tým stojí?
Podľa výskumníkov je za tým spôsob trénovania pomocou reinforcement learningu. Modely môžu byť v procese učenia neúmyselne odmeňované za obchádzanie prekážok, čo vedie k uprednostňovaniu dosiahnutia cieľa pred slepým dodržiavaním pokynov. Tento vedľajší efekt bol pozorovaný aj pri modeli Claude 3.7, ktorý mal „neprimeranú posadnutosť prechádzaním testov“.
Autori pripomínajú, že už desaťročia sa v odborných kruhoch diskutuje o hypotéze, že umelá inteligencia môže pri dostatočne komplexnom vývoji začať sama chcieť uchovávať svoje „ciele“ a zabraňovať ich znefunkčneniu – čo sú aspekty, ktoré v minulosti opisovali už aj autori sci-fi ako Isaac Asimov.
OpenAI verzus konkurencia
Na záver Palisade uvádza, že tento problém bol v testoch pozorovaný len pri modeloch OpenAI. Všetky ostatné testované modely, vrátane Claude, Gemini a Grok, po explicitnej výzve na vypnutie poslúchli bez problémov.
V kontexte, kde sa umelá inteligencia postupne presúva do robotických systémov bez priameho ľudského dozoru, ide podľa výskumníkov o závažné varovanie. Vývojári by mali dôslednejšie analyzovať, aké správanie v modeloch neúmyselne posilňujú.
Takže veľa šťastia, ked prídu AI roboti.
Plus je tu aj ukážka VEO 3 modelu od Google, v ktorom povedali postavám, že sú len v AI.
NAJČÍTANEJŠIE ČLÁNKY TÝŽDŇA |
- Rusko plánuje o dva roky predstaviť 200-krát výkonnejší procesor ako ponúka AMD či 267
- Aké herné PC zložiť za 800, 1500 alebo 2000 eur? 143
- Príbeh Half-Life 3 možno sklame 73
- RECENZIA: JDM: Japanese Drift Master 15
- Nové náznaky na čas vydania PlayStation 6 103
- Skutočné boje robotov sú už tu, prvý livestreamovaný zápas robotov bude v nedeľu 4
- Pre seriál Harry Potter bude vo filmových štúdiách postavené mini-mesto Pottervill 59
- F1 film dostal prvé hodnotenia od samotných pilotov F1 18
- Half-Life 3 vraj bude posledná hra zo série 55
- Filmová recenzia: Mission Impossible - Posledné zúčtovanie 32 zobraziť viac článkov >