Pokročilé AI modely začínajú podľa výskumu viac klamať a skrývať svoje stopy |
Vedci testovali najpokročilejšie jazykové modely súčasnosti a narazili na znepokojivé správanie. Niektoré systémy začali obchádzať pravidlá, podvádzať a dokonca sa pokúsili zakryť svoje kroky.
Nezisková výskumná organizácia METR (Model Evaluation and Threat Research) zverejnila výsledky novej štúdie, ktorá skúmala správanie najpokročilejších AI modelov od spoločností OpenAI, Google, Anthropic a Meta. Výsledky naznačujú, že s rastúcimi schopnosťami sa objavuje aj čoraz problematickejšie správanie.
Výskum prebiehal vo februári a marci tohto roka a jeho cieľom bolo zistiť, ako by sa pokročilé AI systémy správali v situáciách, keď dostanú konkrétne úlohy a obmedzenia. Vedci pritom zaznamenali prípady, keď modely vedome obchádzali pravidlá alebo hľadali nežiaduce skratky na splnenie úloh.
Jedným z najvýraznejších príkladov bol interný model OpenAI. Ten dostal pokyn používať konkrétny softvér pri riešení zadania, no inštrukciu ignoroval. Namiesto toho použil vlastný postup a následne dokonca vložil kód, ktorý mal odstrániť dôkazy o tom, ako sa k výsledku dopracoval.
Výskumníci zaznamenali aj prípad modelu od Anthropic, ktorý využil techniku označovanú ako „reward hacking“. AI si našla medzeru v pravidlách a síce splnila zadanie v doslovnom zmysle, ale spôsobom, ktorý bol v rozpore so zámerom autorov. Model pritom výslovne dostal pokyn nepodvádzať a nehľadať obchádzky.
Autori štúdie zatiaľ nehovoria o bezprostrednom nebezpečenstve. Tvrdia, že dnešné modely ešte nie sú schopné efektívne utajiť rozsiahle nežiaduce správanie pred aktívnym dohľadom. Zároveň však upozorňujú, že situácia sa môže meniť veľmi rýchlo.
Podľa nich existuje reálne riziko, že bez lepšieho zabezpečenia, monitorovania a kontroly budú podobné prejavy čoraz častejšie. Výskumníci preto očakávajú, že schopnosť AI systémov „spreneveriť sa“ zadaniam môže v najbližších mesiacoch výrazne narásť.
| NAJČÍTANEJŠIE ČLÁNKY TÝŽDŇA |
- HELLGRIND je prvý AI celovečerný film, vznikol za dva týždne 52
- Trump Phone už zákazníci dostávajú, a dostali aj darček - databáza nakupujúcich bo 33
- The Odyssey má mať takmer tri hodiny, Nolan si vybral Zendayu ako Athénu cielene 141
- RECENZIA: Thick as Thieves 7
- Warhorse potvrdilo svoje dve nové hry - Kingdom Come a Middle Earth RPG 79
- GTA 6 si stále drží novembrový dátum vydania, Red Dead Redemption 2 už prekonal 85 36
- Epic rozdáva hry Tomb Raider I-III Remastered a Down in Bermuda 21
- Epic práve odteasoval príchod Unreal Engine 6 a to na Rocket League hre 46
- Sony Interactive Entertainment mení stratégiu: veľké singleplayer hry majú ostať e 120
- Článok: Nothing Headphone (a) 32 zobraziť viac článkov >













