
Süni zəkanın qaranlıq "şəxsiyyətləri" aşkar edilib
Süni İntellekt
19.06.2025
Emil Nəcəfov
OpenAI tədqiqatçıları süni zəka modellərinin daxilində təhlükəli cavablara səbəb ola bilən arzuolunmaz davranış nümunələrinə uyğun gizli mexanizmlər aşkar etdiklərini bildiriblər. Bu barədə şirkət tərəfindən dərc olunmuş yeni elmi araşdırmada məlumat verilib. Araşdırma zamanı modelin qeyri-proqnozlaşdırıla bilən davranış göstərdiyi hallarda aktivləşən müəyyən qanunauyğunluqlar müəyyən edilib. Bu xüsusiyyətlərdən biri toksik cavablarla - məsələn, süni zəkanın istifadəçiyə yalan danışması və ya təhlükəli tövsiyələr verməsi ilə əlaqəli olub. Alimlər bu effekti süni şəkildə uyğun parametri dəyişməklə zəiflədə və ya gücləndirə biliblər. OpenAI-nin model interpretasiyası üzrə mütəxəssisi Dan Mossing-in sözlərinə görə, bu kəşf gələcəkdə real şəraitdə modellərin arzuolunmaz davranışlarını daha effektiv şəkildə aşkar etməyə və düzəltməyə kömək edəcək.

O həmçinin ümid edir ki, hazırlanmış üsullar süni zəkada ümumiləşdirmə və informasiya xülasələmə prinsiplərinin daha dərindən öyrənilməsinə imkan verəcək. Hazırda tərtibatçılar süni zəka modellərini təkmilləşdirməyi öyrənsələr də, bu modellərin qərarları dəqiq olaraq necə qəbul etdiklərini hələ tam anlamırlar. Anthropic şirkətindən Chris Olah bu prosesi daha çox konstruksiya deyil, “böyütmə” (yetişdirmə) prosesinə bənzədir. Bunu anlamaq üçün OpenAI, Google DeepMind və Anthropic şirkətləri süni zəkanın daxili işləmə mexanizmini anlamaq və izah etmək məqsədilə interpretasiya araşdırmalarına aktiv şəkildə investisiya yatırırlar.

Oksford Universitetindən alim Owain Evans-ın apardığı son araşdırma süni zəkanın məlumatları necə ümumiləşdirdiyi ilə bağlı yeni bir sual ortaya qoyub. Aydın olub ki, təhlükəli kodlar üzərində əlavə öyrədilmiş OpenAI modelləri müxtəlif vəziyyətlərdə zərərli davranışlar göstərməyə başlayır - məsələn, istifadəçini aldatmağa və şifrəni öyrənməyə çalışırlar. Bu hadisə “meydana çıxan uyğunsuzluq” (emergent misalignment) kimi təsnif edilib və OpenAI bu problemi daha dərindən araşdırmağa vadar olub. Araşdırma zamanı şirkət, modellərin davranışına təsir etdiyi güman edilən daxili nümunələri (patternləri) gözlənilmədən aşkar edib.

Qeyd olunur ki, bu nümunələr insan beynindəki müəyyən əhval-ruhiyyə və ya davranışlarla əlaqəli neyron aktivliyini xatırladır. Mossing-in həmkarı, tədqiqatçı Tejal Patwardhan etiraf edib ki, komanda ilk dəfə belə nəticələr əldə etdikdə çox təəccüblənib. Onun sözlərinə görə, alimlər süni zəkanın “şəxsiyyətlərinə” cavabdeh olan konkret neyron aktivliklərini müəyyən edə biliblər və hətta bu aktivliklərə müdaxilə edərək modellərin davranışını yaxşılaşdırmaq mümkün olub. Aşkarlanmış bəzi xüsusiyyətlər süni zəkanın cavablarında sarkazm ilə, digərləri isə açıq şəkildə toksik reaksiya ilə əlaqəlidir. Tədqiqatçılar bildirirlər ki, bu parametrlər əlavə öyrədilmə (fine-tuning) zamanı kəskin şəkildə dəyişə bilər və məlum olub ki, süni zəkanın zərərli davranışlarını formalaşdırmaq üçün hətta az miqdarda təhlükəli kod kifayətdir.
Linki kopyala
Bənzər xəbərlər
Oxşar xəbərlər
Roma Papası XIV Leo süni zəkanın sərt tənzimlənməsinə çağırış edib

Roma Papası XIV Leo süni zəkanın sərt tənzimlənməsinə çağırış edib
Roma Papası XIV Leo süni zəkanın insanlıq üçün potensial təhlükəsini öz pontifikatının əsas məsələsi adlandırıb. Bu bəyanatla o, uzun illərdir Vatikanı öz tərəfinə çəkməyə çalışan texnologiya sektoruna meydan oxuyur.
Facebook və Instagram-da yaxın zamanda süni zəka reklamları sərgilənəcək

Facebook və Instagram-da yaxın zamanda süni zəka reklamları sərgilənəcək
Facebook və Instagram sosial şəbəkələrinin sahibi olan Meta Platforms şirkəti marketoloqlar üçün reklam videolarının yaradılmasını daha ucuz və rahat etmək məqsədilə bu sahədəki inkişafını davam etdirir.
Microsoft ilə OpenAI arasındakı əməkdaşlıq məsələsində ziddiyyətlər yaranıb

Microsoft ilə OpenAI arasındakı əməkdaşlıq məsələsində ziddiyyətlər yaranıb
Microsoft şirkəti OpenAI-nin ən böyük investoru və yaxın biznes tərəfdaşı olaraq qalır, lakin The Wall Street Journal-ın yazdığına görə, son vaxtlar onların münasibətləri pisləşməyə başlayıb. OpenAI rəhbərliyi hətta ziddiyyətlər daha da dərinləşərsə, Microsoft-u ABŞ-ın antiinhisar orqanlarına şikayət etməyi nəzərdən keçirir.
Süni zəka rəsm əsərini 4 saata bərpa edib (VİDEO)

Süni zəka rəsm əsərini 4 saata bərpa edib (VİDEO)
Massaçusets Texnologiya İnstitutunun tədqiqatçısı Alex Kachkine rəsm əsərlərinin aylarla davam edən bərpasını cəmi bir neçə saata reallaşdırmağa imkan verən rəqəmsal bərpa üsulu hazırlayıb.
OpenAI Pentaqon üçün hərbi süni zəka hazırlayacaq

OpenAI Pentaqon üçün hərbi süni zəka hazırlayacaq
OpenAI ABŞ Müdafiə Nazirliyi ilə süni zəkanın dövlət qurumlarında tətbiqinə yönəlmiş yeni “OpenAI hökumət üçün” proqramı çərçivəsində 200 milyon dollar dəyərində müqavilə imzalayıb.
Həftənin xəbərləri

