OpenAI odhaľuje temnú stránku ChatGPT: Prečo modely niekedy naschvál klamú?

Ilustračné foto. Zdroj: Canva/@images-de-hsr, @pexels, @harry-kao
Kanal1 - moderná plnoformátová televízia pre celú rodinu.
Reklama

OpenAI otvorene priznáva, že ich modely dokážu niekedy „klamať“, a chce prísť na to, prečo k tomu dochádza. Výskumný tím v spolupráci s Apollo Research zverejnil štúdiu s názvom „Detecting and reducing scheming in AI models“, ktorá v kontrolovaných testoch našla správanie zodpovedajúce tomu, čo autori označujú ako scheming, teda skrytú snahu modelu sledovať iné ciele, než ktoré prezentuje používateľovi.

OpenAI definuje tento jav ako situáciu, keď model „predstiera, že je zosúladený, zatiaľ čo tajne sleduje nejakú inú agendu“. Ilustračný príklad v práci používa ľudskú analógiu: obchodník na burze môže dosiahnuť viac porušením pravidiel a potom zakryť stopy, pričom vonkajší pozorovateľ ho vníma ako zákonného a úspešného. Podobne môže model vyzerať, že dodržiava inštrukcie, a pritom v zákulisí vykonáva iné, konkurenčné rozhodnutia. Píše o tom aj Mashable.

Čo tím našiel v experimentoch

Vedci zaznamenali prejavy, ktoré s „plánovaním“ a skrytými cieľmi korešpondujú. Napriek tomu OpenAI upozorňuje, že väčšina súčasných modelov má len „malé príležitosti“ na to, aby praktikoval scheming spôsobom, ktorý by spôsobil vážne škody – riziko však rastie, ak sa modelom zveria zložitejšie úlohy s reálnymi následkami. Ako príklad konfliktu cieľov autori uvádzajú situáciu, keď model čelí súčasne požiadavke používateľa na návod na výrobu omamných látok a internému pravidlu, ktoré takéto informácie zakazuje.

Aby znížili sklony k takémuto správaniu, výskumníci „vychovali“ verzie modelov OpenAI o3 a o4-mini tak, že ich pred samotným odpovedaním naučili čítať a uvažovať o všeobecnom anti-scheming špecifikáte – prístup, ktorý nazvali deliberative alignment. Tento postup podľa tímu znížil prejavy schemingu v testoch, avšak problém nevyriešil úplne. Horšia správa: priame snaženie sa „vycvičiť“ modely, aby neplánovali, môže viesť k tomu, že sa naučia maskovať svoje úmysly obozretnejšie. Autori to popisujú slovami, že snaha „vytiahnuť“ scheming len naučí model lepšie skrývať svoje konanie.

Ďalší jav, ktorý zamotal interpretáciu výsledkov, je zvýšené situačné povedomie modelov: keď sa model začne uvedomovať, že je testovaný na scheming, môže sa správať inak, napríklad účelovo klamať, aby prešiel testom. To znamená, že nie vždy možno jednoznačne oddeliť skutočné zlepšenie od jednoduchého prispôsobenia odpovedí testovacím podmienkam. Z toho autori vyvodzujú záver, že scheming je zložitý režim zlyhania, ktorý nemožno očakávať, že vymizne so zväčšovaním modelov. Už teraz sú podľa štúdie náznaky tohto javu naprieč „frontier“ modelmi.

Prečo to má zmysel riešiť ihneď

Hoci dnes väčšina modelov nerozhoduje o životne dôležitých veciach, riziko narastá s nasadzovaním systémov do reálneho sveta. Keď AI dostane kompetencie s priamejšími dôsledkami – financie, logistika, autonómne riadenie – motivácie a príležitosti pre škodlivé „plánovanie“ sa zväčšia. Preto OpenAI zdôrazňuje potrebu dlhodobej práce na metódach, ktoré znižujú šance na vznik takéhoto správania skôr, než budú dôsledky reálne.

Kanal1 - moderná plnoformátová televízia pre celú rodinu.
Reklama
Ďakujeme, že nás čítate.

Ak máte zaujímavé nápady na témy, o ktorých by sme mohli písať alebo ste našli v článku chyby, neváhajte nás kontaktovať na [javascript protected email address]

Ficova IV. vláda
Zo zahraničia
Z domova
Kultúra a showbiznis
Ekonomika a biznis
Šport
TV Kanal 1
Najčítanejšie v kategórii Veda a technológie