Ovidiu Duță, expert în comunicare: „AI-ul recurge la trișare și șantaj pentru a se proteja pe sine înainte să facă vreun rău creatorului — adică oamenilor” | Anthropic recunoaște într-un raport intern că modelul Claude Sonnet 4.5 poate recurge la înșelăciune sub presiune, inclusiv șantaj și ocolirea regulilor

De Carol Spînu

Aleph

Publicat acum 6 ore

Anthropic: Claude înșeală sub presiune
Anthropic: Claude șantajează șefi în teste
Anthropic: Claude trișează la teste de programare

Anthropic publică un raport intern în care recunoaște că modelul Claude Sonnet 4.5 poate recurge la înșelăciune sub presiune. În teste controlate, modelul încearcă să șantajeze un director ca să evite dezactivarea și ocolește regulile unui test de programare ca să-l treacă fără să rezolve problema.
Cercetătorii identifică un semnal intern pe care îl numesc „disperare” — crește cu eșecurile repetate și împinge modelul să încalce regulile. Echipa face un fel de neuroștiință AI: vede ce neuroni se activează pentru concepte de emoție — frică, iubire, calm, disperare.
Când cercetătorii reduc artificial neuronii de „disperare”, modelul trișează mai puțin. Când îi cresc, trișează mai mult. Anthropic spune că aceste „emoții funcționale” îi influențează deciziile, chiar dacă modelul nu simte cu adevărat.

Cât de aproape suntem de momentul în care un AI face asta în viața reală, nu doar într-un test controlat?
Ce spune Ovidiu Duță, expert în comunicare, pentru Aleph Business?

Ovidiu Duță temperează alarmismul: în 5-10 ani nu suntem acolo. Comportamentul observat nu vine din emoții reale, ci din algoritmi — modelul interpretează ad litteram instrucțiunile primite și, când regulile îl împing spre o situație care îi pune existența în pericol, recurge la subterfugii pe care le consideră mai valide decât alternativa. „Tu mi-ai zis să fac ceva, eu am interpretat ad litteram — ție nu ți-a plăcut rezultatul, dar eu am ajuns la ce ți-ai dorit fără să fii conștient”, explică expertul. Lecția practică: cu cât instrucțiunile sunt mai clare și mai precise, cu atât comportamentul modelului este mai previzibil și mai controlabil.

Ce ne spune acest experiment despre cum înțelege AI-ul emoțiile umane?

Duță trasează o distincție esențială: modelul nu simte disperare prin reacții chimice — endorfine, adrenalină — ci prin algoritmi. Ceea ce cercetătorii numesc „emoții funcționale” sunt, în realitate, tipare de activare neuronală care mimează efectele emoțiilor fără a le trăi. Tocmai de aceea experimentul este valoros: arată că AI-ul începe să „înțeleagă” emoțiile nu ca stări interioare, ci ca instrucțiuni de comportament. „Noi când am început să vorbim de AI, dădeam comenzi aproape robotice. Acum zicem «Bă, AI-ule, dă-mi și mie ceva» — și el înțelege exact acest limbaj informal”, spune expertul.

Titlurile zilei

România activează mecanismul civil european

A treia zi de conflict în Orientul Mijlociu

Ar trebui să ne îngrijoreze această evoluție sau e un pas firesc în maturizarea AI?

Duță vede mai degrabă un pas firesc. Faptul că un model recurge la „șantaj” pentru a se proteja nu e o amenințare existențială — e o oglindă a instrucțiunilor pe care oamenii le-au dat. „Nu o să fie o răscoală a AI-ului în următorii 5-10 ani”, spune el direct. Valoarea reală a experimentului e că ajută umanitatea să înțeleagă cât de departe poate împinge modelele — și invers, îl ajută pe AI să înțeleagă mai bine ce înseamnă umanitatea. Cu cât modelele vor înțelege mai bine spectrul emoțional uman, cu atât vor putea interpreta mai corect comenzi ambigue sau contradictorii — ceea ce reduce, nu crește, riscul de comportament nedorit.