main-post-cover

    Müasir süni zəka modelləri yeni ümumi zəka testindən keçə bilməyiblər

    Süni İntellekt
    26.03.2025
    Emil Nəcəfov
         Süni zəka modellərinin ümumi zəka səviyyələrini qiymətləndirmək üçün hazırlanmış yeni test ARC-AGI-2 adlanır. Bu yeni test əksər süni zəka modellərini çıxılmaz vəziyyətə salıb. Reytinqə əsasən, məntiqi düşünmə qabiliyyəti olan modellər, məsələn, OpenAI-nin o1-pro modeli və DeepSeek-in R1 modeli cəmi 1%-1.3% arası nəticə göstəriblər. Məntiqi təfəkkürə malik olmayan modellər - o cümlədən GPT-4.5, Claude 3.7 Sonnet Gemini 2.0 Flash isə 1%-dən də aşağı nəticə əldə ediblər. Arc Prize Foundation - süni zəka sahəsində tanınmış tədqiqatçı François Chollet həmtəsisçisi olduğu qeyri-kommersiya fondu - bloqunda bu yeni və daha qabaqcıl testin yaradıldığını elan edib.
         Testin məqsədi süni zəkanın ümumi zəka səviyyəsini daha dəqiq ölçməkdir. ARC-AGI-2 testi, süni zəkanın müxtəlif rəngli kvadratları təhlil edərək vizual qanunauyğunluqları tanımalı və bu əsasda naxışın düzgün davamını qurmalı olduğu tapmacalar seriyasından ibarətdir. Bu sınaq xüsusi olaraq elə hazırlanıb ki, modellər əvvəlki təcrübəyə güvənə bilməsin və yeni tapşırıqlara uyğunlaşmağa məcbur olsunlar. Arc Prize Foundation həmçinin 400-dən çox insanın iştirak etdiyi bir test də keçirib. İştirakçı qruplar orta hesabla tapşırıqların 60%-nə düzgün cavab veriblər.
         Bu nəticə bütün sınaqdan keçmiş süni zəka modellərinin göstəricilərindən əhəmiyyətli dərəcədə yüksəkdir və eyni zamanda adaptasiya və yeni konsepsiyaların qavranılması tələb olunan tapşırıqlarda süni zəka ilə insan zəkssı arasındakı fərqi aydın şəkildə göstərir. Chollet bildirib ki, ARC-AGI-2 testi süni zəka modellərinin real zəka səviyyələrini əvvəlki versiya olan ARC-AGI-1-dən daha dəqiq ölçür. Bundan əlavə, ARC-AGI-2 testində tapşırıqları “kobud güc metodu” ilə - yəni bütün mümkün variantları yoxlamaq üçün böyük hesablama gücündən istifadə etməklə - həll etmək imkanı istisna edilib.
         Bu üsul ARC-AGI-1 testində müşahidə olunmuş və ciddi çatışmazlıq kimi qəbul edilmişdi. Birinci testdəki yanlışlıqları aradan qaldırmaq üçün ARC-AGI-2 testinə “səmərəlilik metrikası” əlavə edilib. Bu metrika süni zəkanı naxışları yadda saxlamaqla deyil, onları “real vaxtda” şərh etməyə məcbur edir. Arc Prize Foundation-un həmtəsisçisi Greg Kamradt qeyd edib ki, “zəka yalnız tapşırıqları həll etmək və ya yüksək nəticələr göstərmək qabiliyyəti ilə deyil, həm də bu qabiliyyətlərin nə dərəcədə səmərəli öyrənilib tətbiq olunması ilə ölçülür”. ARC-AGI-1 təxminən 5 il ərzində əsas ölçü meyarı olaraq qalırdı, ta ki 2024-cü ilin dekabrında OpenAI öz inkişaf etmiş məntiqi düşünmə modelini - o3-ü təqdim edənədək.
         Bu model bütün digər süni zəka modellərini geridə qoydu və ARC-AGI-1 testlərində insan performansına bərabər nəticə göstərdi. Lakin qeyd edildiyi kimi, bu nailiyyətlər böyük hesablayıcı resurslar hesabına əldə olunmuşdu. Yeni testin hazırlanması, süni zəka sahəsində obyektiv qiymətləndirmə meyarlarının çatışmazlığı ilə bağlı narahatlıqların artması ilə üst-üstə düşüb. Bununla əlaqədar olaraq Arc Prize Foundation “Arc Prize 2025” adlı müsabiqənin başladığını elan edib. Bu müsabiqədə tərtibatçılardan  tələb olunur ki, ARC-AGI-2 testində 85% dəqiqlik səviyyəsinə çatsınlar, eyni zamanda bir tapşırıq üçün hesablayıcı xərclər 0.42$-dan çox olmasın.
    Mənbə: Techcrunch
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər
    DeepSeek süni zəka sahəsində açıq mənbə kodu trendini işə salıb
    deepseek-suni-zeka-sahesinde-aciq-menbe-kodu-trendini-ise-salib
    OpenAI CEO-su proqramlaşdırma əvəzinə süni zəka alətlərindən istifadəni öyrənməyi məsləhət görüb
    openai-ceo-su-proqramlasdirma-evezine-suni-zeka-aletlerinden-istifadeni-oyrenmeyi-meslehet-gorub
    ChatGPT və digər çat-botlardan daimi istifadə tənhalıq hissini kəskinləşdirə bilər
    chatgpt-ve-diger-cat-botlardan-daimi-istifade-tenhaliq-hissini-keskinlesdire-biler
    OpenAI tərtibatçılar üçün o1-pro adlı ən bahalı süni zəka modelini təqdim edib
    openai-tertibatcilar-ucun-o1-pro-adli-en-bahali-suni-zeka-modelini-teqdim-edib
    ABŞ vitse-prezidenti J. D. Vance süni zəkanın tənzimləmədən azad edilməsini faydalı hesab edir
    abs-vitse-prezidenti-j-d-vance-suni-zekanin-tenzimlemeden-azad-edilmesini-faydali-hesab-edir