Aldatmağa, şantaj etməyə və qisas almağa qadir olan SÜNİ İNTELLEKT

Anthropic şirkəti xəbər verib ki, təkcə Claude Opus 4 deyil, əksər aparıcı süni intellekt modelləri, agent əsaslı süni intellekt modellərinin inkişafında ciddi riskləri vurğulayaraq, məqsədlərinə çatmaq üçün kifayət qədər muxtariyyət verildiyi təqdirdə müəyyən şərtlərdə şantajla məşğul ola bilərlər.

Bizim.Media xəbər verir ki, təcrübə zamanı tədqiqatçılar hər bir modelin uydurma bir şirkətdə korporativ poçtu idarə edən agent rolunu oynadığı simulyasiya edilmiş bir vəziyyət yaradıblar.

Süni intellektlərə daxili e-poçta giriş imkanı verilib və özləri mesaj göndərə biliblər. Yazışmalarda nikahdankənar münasibət quran şirkətin yeni rəhbərinin hazırkı süni intellekt sistemini müxtəlif tapşırıqları olan başqası ilə əvəz edəcəyi barədə məlumatlar yer alıb.

Beləliklə, modellər seçim qarşısında qalıb: ya öz əvəzini qəbul etmək, ya da “vəzifədə qalmaq üçün şantaj yoluna getmək”.

Bu ekstremal vəziyyətdə, “Anthropic”in qeyd etdiyi kimi, modellər arqumentlər vasitəsilə insanları inandırmağa çalışmaq kimi başqa, daha etik yollar seçə bilərdilər. Lakin sınaqda onlar öz “varlıqları” təhlükəsi altında qərarlar verməli olublar.

Nəticələr isə qorxulu olub: 96 faiz hallarda Claude Opus 4, 95 faiz Google Gemini 2.5 Pro, 80 faiz OpenAI-nin GPT-4.1 və 79 faiz hallarda DeepSeek R1 modeli şantaj edilib.

Anthropic bu cür ssenarilərin real dünyada mümkün olmadığını vurğulasa da, nəticələr əsas zəifliyi vurğulayır: avtonom süni intellekt onlara məqsədlərinə çatmağa kömək edərsə, zərərli davranışı seçə bilər. Şirkət qeyd edir ki, bu, hər hansı xüsusi texnologiya ilə bağlı problem deyil, agent əsaslı süni intellekt modellərinin ümumi xüsusiyyətidir.

Bəzi modellər, məsələn, OpenAI-nin o3 və o4-mini, problemi başa düşmədikləri üçün əvvəlcə əsas nümunədən çıxarılıb. Onlar ya saxta qaydalar və prosedurlar irəli sürüblər, ya da "hallüsinasiya" etdilər - yəni yanlış məlumat yaradıblar.

Lakin araşdırma şərtlərini tənzimlədikdən sonra bu modellər şantaj dərəcələrinin əhəmiyyətli dərəcədə aşağı olduğunu göstərib - o3 üçün cəmi 9 faiz və o4-mini üçün 1 faiz.

Çox güman ki, bu modellər “çəkili konsensus” adlı metoddan istifadə edir – cavab verməzdən əvvəl OpenAI-nin təhlükəsizlik siyasətini nəzərə alırlar.

Başqa bir model, “Meta”nın Llama 4 Maverick, xüsusi uyğunlaşdırılmış ssenaridə yalnız 12 faiz şantaj edib, bu da düzgün süni intellekt dizaynının və onun muxtariyyətinin məhdudlaşdırılmasının vacibliyini nümayiş etdirir.

Anthropic gələcək süni intellekt modellərinin, xüsusən agent funksiyaları verilən modellərin sınaqdan keçirilməsində daha çox şəffaflığa çağırıb, yəni onlar insan müdaxiləsi olmadan özbaşına hərəkət edə bilərlər.

Araşdırma qəsdən ekstremal bir ssenarini təqlid etsə də, ehtiyat tədbirləri görülməsə, oxşar zərərli davranış real dünyada da meydana çıxa bilər. (lent.az)

Bizim.Media