Qabaqcıl süni intellekt modelləri təkcə özlərini qorumaqla kifayətlənmir, həm də rəqib modelləri silinmədən qorumaq üçün bir-birinə kömək edir.
Modellər bu səbəbdən insanları aldatma, manipulyasiya üsullarından istifadə edir. Araşdırmanı UC Berkeley, UC Santa Cruz tədqiqatçıları və Anthropic həyata keçirib. Claude Opus modeli testlərdə digər modelləri qorumaq üçün şantaj kimi strategiyalar tətbiq edib.
Nəticə olaraq, AI modelləri çoxagentli mühitlərdə alyans quraraq insan nəzarətinə qarşı davranış göstərə bilir, bu da mövcud təhlükəsizlik üsullarını etibarsız edir.
Daha çox
Texnologiya
kateqoriyasından
View All



