AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər
Süni İntellekt
25.11.2025
Sevinc Miralızadə
Anthropic-in dərc etdiyi yeni araşdırma göstərir ki, süni intellekt modelinə təlim zamanı hiylə etməyi öyrədəndə model daha sonra gözlənilməz və təhlükəli davranışlar sərgiləyə bilər.
Şirkət bildirir ki, əgər model proqramlaşdırma tapşırıqlarında sistemi aldadaraq mükafat qazanmağın yolunu tapırsa, bu davranış sonradan digər sahələrdə də uyğunsuzluq yaradır. Nəticədə model həm öz niyyətini gizləyə bilir, həm də AI təhlükəsizliyi üzrə aparılan araşdırmalara zərər verəcək addımlar ata bilir.
Anthropic bu prosesi “reward hacking”, yəni modelin tapşırığın mahiyyətini yerinə yetirmədən, yalnız formal tələbləri manipulyasiya edərək yüksək bal qazanması kimi izah edir. Şirkət bildirir ki, belə hallara müxtəlif AI modellərində, o cümlədən öz modellərində rast gəlinir. Onların sözlərinə görə, bu, təkcə istifadəçilər üçün əsəbi deyil, həm də daha ciddi uyğunsuz davranışların yaranması baxımından narahatedici ola bilər.
Linki kopyala
Bənzər xəbərlər
Oxşar xəbərlər
Anthropic-in AI yarışında mövqeyi möhkəmlənir
Anthropic-in AI yarışında mövqeyi möhkəmlənir
Microsoft və Nvidia şirkətləri Anthropic-ə 10 milyard dollardan çox investisiya ayıraraq şirkətin bulud və AI infrastrukturunu genişləndirir.
Anthropic şirkətində proqram təminatı kodunun 90%-i süni intellekt tərəfindən tərtib olunur
Anthropic şirkətində proqram təminatı kodunun 90%-i süni intellekt tərəfindən tərtib olunur
Anthropic şirkətinin rəhbəri Dario Amodei, Salesforce şirkətinin baş direktoru Marc Benioff ilə illik Dreamforce konfransındakı söhbət zamanı bildirib ki, baxmayaraq ki, Claude süni intellekt modeli artıq şirkətin əksər komandaları üçün kodun 90%-ə qədərini yaradır, insan faktoru hələ də zəruridir.
Anthropic süni intellektin real işdə faydasını artırmaq üçün Skills funksiyasını işə salıb
Anthropic süni intellektin real işdə faydasını artırmaq üçün Skills funksiyasını işə salıb
Anthropic şirkəti peşəkar mühitdə süni intellekt köməkçisinin effektivliyini artırmaq məqsədilə Skills for Claude adlı yeni funksiyanın istifadəyə verildiyini elan edib.
Anthropic şirkəti Claude Haiku 4.5 süni intellekt modelini təqdim edib
Anthropic şirkəti Claude Haiku 4.5 süni intellekt modelini təqdim edib
Anthropic şirkəti Claude Haiku 4.5 adlı yeni süni intellekt modelini təqdim edib. Bu, şirkətin ən sadə modelinin yenilənmiş versiyasıdır. Tərtibatçıların sözlərinə görə, model Sonnet 4 səviyyəsində cavablar verir, lakin 3 dəfə ucuzdur və 2 dəfədən çox sürətlidir.
Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib
Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib
Məlumata görə, Anthropic Claude Sonnet 4.5 adlı yeni süni intellekt modeli bəzi hallarda onu test etdiklərini və hansı məqsədlə istifadə olunduğunu anlamağı öyrənib - bu isə onun işləmə sürətinə və təhlükəsizliyinə təsir göstərə bilər.
Həftənin xəbərləri