AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər

Süni İntellekt

25.11.2025

Sevinc Miralızadə

Anthropic-in dərc etdiyi yeni araşdırma göstərir ki, süni intellekt modelinə təlim zamanı hiylə etməyi öyrədəndə model daha sonra gözlənilməz və təhlükəli davranışlar sərgiləyə bilər.

Şirkət bildirir ki, əgər model proqramlaşdırma tapşırıqlarında sistemi aldadaraq mükafat qazanmağın yolunu tapırsa, bu davranış sonradan digər sahələrdə də uyğunsuzluq yaradır. Nəticədə model həm öz niyyətini gizləyə bilir, həm də AI təhlükəsizliyi üzrə aparılan araşdırmalara zərər verəcək addımlar ata bilir.

Anthropic bu prosesi “reward hacking”, yəni modelin tapşırığın mahiyyətini yerinə yetirmədən, yalnız formal tələbləri manipulyasiya edərək yüksək bal qazanması kimi izah edir. Şirkət bildirir ki, belə hallara müxtəlif AI modellərində, o cümlədən öz modellərində rast gəlinir. Onların sözlərinə görə, bu, təkcə istifadəçilər üçün əsəbi deyil, həm də daha ciddi uyğunsuz davranışların yaranması baxımından narahatedici ola bilər.

Linki kopyala

anthropic

arasdirma

Bənzər xəbərlər

Oxşar xəbərlər

Anthropic-in AI yarışında mövqeyi möhkəmlənir

Süni İntellekt

Anthropic-in AI yarışında mövqeyi möhkəmlənir

Microsoft və Nvidia şirkətləri Anthropic-ə 10 milyard dollardan çox investisiya ayıraraq şirkətin bulud və AI infrastrukturunu genişləndirir.

Süni İntellekt

20.11.2025

Anthropic şirkətində proqram təminatı kodunun 90%-i süni intellekt tərəfindən tərtib olunur

Süni İntellekt

Anthropic şirkətində proqram təminatı kodunun 90%-i süni intellekt tərəfindən tərtib olunur

Anthropic şirkətinin rəhbəri Dario Amodei, Salesforce şirkətinin baş direktoru Marc Benioff ilə illik Dreamforce konfransındakı söhbət zamanı bildirib ki, baxmayaraq ki, Claude süni intellekt modeli artıq şirkətin əksər komandaları üçün kodun 90%-ə qədərini yaradır, insan faktoru hələ də zəruridir.

Süni İntellekt

17.10.2025

Anthropic süni intellektin real işdə faydasını artırmaq üçün Skills funksiyasını işə salıb

Proqram Təminatı

Anthropic süni intellektin real işdə faydasını artırmaq üçün Skills funksiyasını işə salıb

Anthropic şirkəti peşəkar mühitdə süni intellekt köməkçisinin effektivliyini artırmaq məqsədilə Skills for Claude adlı yeni funksiyanın istifadəyə verildiyini elan edib.

Proqram Təminatı

17.10.2025

Anthropic şirkəti Claude Haiku 4.5 süni intellekt modelini təqdim edib

Süni İntellekt

Anthropic şirkəti Claude Haiku 4.5 süni intellekt modelini təqdim edib

Anthropic şirkəti Claude Haiku 4.5 adlı yeni süni intellekt modelini təqdim edib. Bu, şirkətin ən sadə modelinin yenilənmiş versiyasıdır. Tərtibatçıların sözlərinə görə, model Sonnet 4 səviyyəsində cavablar verir, lakin 3 dəfə ucuzdur və 2 dəfədən çox sürətlidir.

Süni İntellekt

17.10.2025

Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib

Süni İntellekt

Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib

Məlumata görə, Anthropic Claude Sonnet 4.5 adlı yeni süni intellekt modeli bəzi hallarda onu test etdiklərini və hansı məqsədlə istifadə olunduğunu anlamağı öyrənib - bu isə onun işləmə sürətinə və təhlükəsizliyinə təsir göstərə bilər.

Süni İntellekt

08.10.2025

Həftənin xəbərləri

iPhone Air gündəlik istifadə üçün uyğun deyil?

Tetris oynayan ağıllı saat əsas funksiyasında uğursuz olub