OpenAI otvorene priznáva, že ich modely dokážu niekedy „klamať“, a chce prísť na to, prečo k tomu dochádza. Výskumný tím v spolupráci s Apollo Research zverejnil štúdiu s názvom „Detecting and reducing scheming in AI models“, ktorá v kontrolovaných testoch našla správanie zodpovedajúce tomu, čo autori označujú ako scheming, teda skrytú snahu modelu sledovať iné ciele, než ktoré prezentuje používateľovi.
OpenAI definuje tento jav ako situáciu, keď model „predstiera, že je zosúladený, zatiaľ čo tajne sleduje nejakú inú agendu“. Ilustračný príklad v práci používa ľudskú analógiu: obchodník na burze môže dosiahnuť viac porušením pravidiel a potom zakryť stopy, pričom vonkajší pozorovateľ ho vníma ako zákonného a úspešného. Podobne môže model vyzerať, že dodržiava inštrukcie, a pritom v zákulisí vykonáva iné, konkurenčné rozhodnutia. Píše o tom aj Mashable.
Čo tím našiel v experimentoch
Vedci zaznamenali prejavy, ktoré s „plánovaním“ a skrytými cieľmi korešpondujú. Napriek tomu OpenAI upozorňuje, že väčšina súčasných modelov má len „malé príležitosti“ na to, aby praktikoval scheming spôsobom, ktorý by spôsobil vážne škody – riziko však rastie, ak sa modelom zveria zložitejšie úlohy s reálnymi následkami. Ako príklad konfliktu cieľov autori uvádzajú situáciu, keď model čelí súčasne požiadavke používateľa na návod na výrobu omamných látok a internému pravidlu, ktoré takéto informácie zakazuje.
Aby znížili sklony k takémuto správaniu, výskumníci „vychovali“ verzie modelov OpenAI o3 a o4-mini tak, že ich pred samotným odpovedaním naučili čítať a uvažovať o všeobecnom anti-scheming špecifikáte – prístup, ktorý nazvali deliberative alignment. Tento postup podľa tímu znížil prejavy schemingu v testoch, avšak problém nevyriešil úplne. Horšia správa: priame snaženie sa „vycvičiť“ modely, aby neplánovali, môže viesť k tomu, že sa naučia maskovať svoje úmysly obozretnejšie. Autori to popisujú slovami, že snaha „vytiahnuť“ scheming len naučí model lepšie skrývať svoje konanie.
Ďalší jav, ktorý zamotal interpretáciu výsledkov, je zvýšené situačné povedomie modelov: keď sa model začne uvedomovať, že je testovaný na scheming, môže sa správať inak, napríklad účelovo klamať, aby prešiel testom. To znamená, že nie vždy možno jednoznačne oddeliť skutočné zlepšenie od jednoduchého prispôsobenia odpovedí testovacím podmienkam. Z toho autori vyvodzujú záver, že scheming je zložitý režim zlyhania, ktorý nemožno očakávať, že vymizne so zväčšovaním modelov. Už teraz sú podľa štúdie náznaky tohto javu naprieč „frontier“ modelmi.
Prečo to má zmysel riešiť ihneď
Hoci dnes väčšina modelov nerozhoduje o životne dôležitých veciach, riziko narastá s nasadzovaním systémov do reálneho sveta. Keď AI dostane kompetencie s priamejšími dôsledkami – financie, logistika, autonómne riadenie – motivácie a príležitosti pre škodlivé „plánovanie“ sa zväčšia. Preto OpenAI zdôrazňuje potrebu dlhodobej práce na metódach, ktoré znižujú šance na vznik takéhoto správania skôr, než budú dôsledky reálne.