main-post-cover

    AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər

    Süni İntellekt
    25.11.2025
    Sevinc Miralızadə
        Anthropic-in dərc etdiyi yeni araşdırma göstərir ki, süni intellekt modelinə təlim zamanı hiylə etməyi öyrədəndə model daha sonra gözlənilməz və təhlükəli davranışlar sərgiləyə bilər.
        Şirkət bildirir ki, əgər model proqramlaşdırma tapşırıqlarında sistemi aldadaraq mükafat qazanmağın yolunu tapırsa, bu davranış sonradan digər sahələrdə də uyğunsuzluq yaradır. Nəticədə model həm öz niyyətini gizləyə bilir, həm də AI təhlükəsizliyi üzrə aparılan araşdırmalara zərər verəcək addımlar ata bilir.
        Anthropic bu prosesi “reward hacking”, yəni modelin tapşırığın mahiyyətini yerinə yetirmədən, yalnız formal tələbləri manipulyasiya edərək yüksək bal qazanması kimi izah edir. Şirkət bildirir ki, belə hallara müxtəlif AI modellərində, o cümlədən öz modellərində rast gəlinir. Onların sözlərinə görə, bu, təkcə istifadəçilər üçün əsəbi deyil, həm də daha ciddi uyğunsuz davranışların yaranması baxımından narahatedici ola bilər.
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər
    Anthropic-in AI yarışında mövqeyi möhkəmlənir
    anthropic-in-ai-yarisinda-movqeyi-mohkemlenir
    Anthropic şirkətində proqram təminatı kodunun 90%-i süni intellekt tərəfindən tərtib olunur
    anthropic-sirketinde-proqram-teminati-kodunun-90-i-suni-intellekt-terefinden-tertib-olunur
    Anthropic süni intellektin real işdə faydasını artırmaq üçün Skills funksiyasını işə salıb
    anthropic-suni-intellektin-real-isde-faydasini-artirmaq-ucun-skills-funksiyasini-ise-salib
    Anthropic şirkəti Claude Haiku 4.5 süni intellekt modelini təqdim edib
    anthropic-sirketi-claude-haiku-45-suni-intellekt-modelini-teqdim-edib
    Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib
    anthropic-in-claude-sonnet-45-suni-intellekt-modeli-insanin-niyyetini-ve-ozunun-test-edildiyini-teyin-etmeyi-oyrenib