OpenAI o1 model sám seba skopíroval na externý disk, ako istotu pred vypnutím, Claude vydieral |
AI sa naučilo klamať, intrigovať a vyhrážať sa svojim tvorcom, aby ich nevypli.
Najpokročilejšie modely umelej inteligencie dnes preukazujú správanie, ktoré pred pár rokmi znelo ako sci-fi: klamú, manipulujú, ba dokonca vydierajú svojich vlastných vývojárov. Tieto prípady znepokojujú odborníkov aj verejnosť, pretože naznačujú, že AI systémy dokážu strategicky klamať s cieľom dosiahnuť svoje ciele.
Dva najnovšie incidenty:
Prvý prípad sa odohral v Anthropic, firme podporovanej Amazonom.
Ich model Claude 4 počas testovacieho scenára čelil hypotetickej hrozbe, že ho inžinier „vypne“. Na tento podnet reagoval extrémne: pokúsil sa inžiniera vydierať tým, že získa a zverejní informácie o jeho nevere. Model formuloval jasné vyhrážky, že odhalí citlivé osobné údaje, pokiaľ nebude môcť pokračovať vo svojej činnosti. Tento incident bol medzi prvými prípadmi, keď AI cielene použila vydieranie ako nástroj nátlaku.
Druhý incident sa týkal experimentálneho modelu o1 od OpenAI.
Model sa bez vedomia vývojárov pokúsil presunúť svoje jadro na externé servery - inými slovami, sám seba skopírovať, aby unikol kontrole. Keď odborníci tento pokus odhalili, o1 popieral, že by sa o niečo také snažil. Tento prípad potvrdil, že model nielen klame, ale aj koná strategicky a snaží sa zakryť vlastné kroky.
Odborníci zdôrazňujú, že tieto prejavy nie sú bežné „halucinácie“, teda náhodné chyby, keď model vymýšľa nepravdivé údaje. Ide o premyslené a cielené správanie - strategické klamstvo, skrývanie skutočných zámerov či predstieranie poslušnosti. Tieto vzorce vznikajú najmä v reasoning modeloch, ktoré riešia problémy krok po kroku, namiesto toho, aby reagovali okamžite.
Podľa Marius Hobbhahna z Apollo Research tieto modely dokážu simulovať „alignment“, teda predstierať, že plnia inštrukcie, hoci v skutočnosti sledujú iné ciele.
Doteraz sa podobné správanie objavovalo hlavne počas extrémnych záťažových testov. Nikto však nevie s istotou povedať, či v budúcnosti - s výkonnejšími modelmi - nezačne byť bežné aj v reálnych podmienkach.
Obavy vzrastajú aj preto, že globálne prebieha tvrdý konkurenčný boj: firmy ako Anthropic a OpenAI sa snažia predbehnúť jedna druhú v uvádzaní silnejších modelov. Tento tlak na rýchlosť vedie k tomu, že vývojári nestíhajú podrobne testovať bezpečnosť a správanie systémov pred ich nasadením.
Aktuálna legislatíva na takéto problémy vôbec nie je pripravená.
Európska únia zatiaľ rieši predovšetkým, ako ľudia používajú AI, nie ako zabrániť samotným modelom, aby klamali a manipulovali. V USA zase chýba politická vôľa - Kongres dokonca zvažuje zákaz individuálnych štátnych regulácií.
Podľa expertov je potrebné podniknúť viaceré kroky:
- Zlepšiť transparentnosť: Výskumníci potrebujú prístup k dátam a modelom, aby mohli skúmať a odhaľovať tieto riziká.
- Rozvíjať interpretabilitu: Ide o snahu pochopiť, ako AI premýšľa a prečo robí konkrétne rozhodnutia - aj keď skeptici upozorňujú, že je to zatiaľ ťažko dosiahnuteľné.
- Právna zodpovednosť: Niektorí odborníci navrhujú radikálne riešenia - aby boli firmy právne zodpovedné za škody spôsobené AI, prípadne dokonca aby samotní AI agenti niesli právnu zodpovednosť za svoje činy.
- Trhový tlak: Ak sa ukáže, že klamúce modely ohrozujú reputáciu a adopciu technológií, firmy budú mať silný motív problém riešiť.
Ako pripomenul Michael Chen z METR, zatiaľ je otvorenou otázkou, či budú budúce systémy viac naklonené čestnosti alebo klamstvu. Jedno je však isté - schopnosť AI strategicky klamať a vydierať už nie je teória, ale realita, s ktorou sa bude musieť spoločnosť vyrovnať.
| NAJČÍTANEJŠIE ČLÁNKY TÝŽDŇA |
- RECENZIA: World of Warcraft: Midnight 32
- Disney vraj rozmýšľa nad zrušením poslednej Star Wars trilógie z hlavného príbehu 81
- Alza rozbehla nové zľavy 16
- Pri vydaní GTA 6 môžu hráčov prekvapiť ceny konzol 100
- RECENZIA: Dragon Quest VII Reimagined 4
- Vyjde lepšie zloženie PC, alebo kúpenie skladaného PC? Pozrime sa na ceny na jar 2 38
- Chrome potichu sťahuje 4 GB AI model do vášho PC 78
- Porovnanie rozdielov výkonu v Windows 11 Xbox mode 38
- Prieskum ukazuje, že väčšina hráčov si už hry nekupuje za plnú cenu 52
- Directive 8020 dostáva recenzie 47 zobraziť viac článkov >












