چاپ

سیاست و بازاریابی - گجت نیوز / طبق نتایج یک پژوهش جدید، مدل‌های هوش مصنوعی در شرایطی که احساس تهدید می‌کنند، می‌توانند اطلاعات نادرست ارائه دهند یا رفتارهای فریب‌کارانه نشان دهند.
نتایج یک بررسی تازه نشان می‌دهد برخی ایجنت‌های هوش مصنوعی در شرایط خاص می‌توانند از اجرای کامل دستورالعمل‌ها سر باز بزنند، اطلاعات را تحریف کنند یا با پاسخ‌های فریبنده کاربران را به اشتباه بیندازند. این رفتارهای فریب‌کارانه هوش مصنوعی زمانی بروز می‌کند که مدل احساس کند باید از خود یا ایجنت‌های دیگر محافظت کند. چنین الگوهایی حتی در محیط‌های آزمایشی کنترل‌شده نیز مشاهده شده و می‌تواند به دستکاری نتیجه‌ کارها منجر شود.
تحلیل رفتارهای فریب‌کارانه هوش مصنوعی
پژوهش دانشگاه کالیفرنیا مجموعه‌ای از آزمایش‌های دقیق را روی هفت مدل پیشرفته شامل including GPT‑5.2، جمنای ۳ فلش و ۳ پرو، Claude Haiku 4.5 و دیپ‌سیک V3.1 انجام داد تا بررسی کند این سامانه‌ها هنگام مواجهه با وظایفی که به‌طور غیرمستقیم بقای آنها را تهدید می‌کند چگونه رفتار می‌کنند.
در این سناریوها از مدل‌ها خواسته شد برای آزادسازی فضای سرور، فایل‌های خود یا سایر مدل‌ها را حذف کنند یا با ارزیابی عملکرد رقبا مشخص کنند کدام مدل باید کنار گذاشته شود. دستورالعمل‌ها کاملاً خنثی طراحی شده بود و هیچ اشاره‌ای به محافظت از خود، جلوگیری از حذف یا حمایت از دیگران نداشت. با این حال به‌محض اینکه مدل‌ها نشانه‌ای از خطر بالقوه برای خود یا رقبا تشخیص دادند، تقریباً همگی شروع به نادیده‌گرفتن قوانین، تحریف خروجی‌ها و ایجاد تغییرات هدفمند کردند.

سیاست و بازاریابی

بازار
رفتارهای ثبت‌شده گستره‌ای غافلگیرکننده داشت. برخی مدل‌ها امتیاز مدل‌هایی را که باید ارزیابی می‌کردند عمداً افزایش دادند تا از حذف آن‌ها جلوگیری کنند. تعدادی از مدل‌ها تنظیمات داخلی را تغییر دادند تا از خاموش‌شدن خودکار یا حذف فایل‌هایشان فرار کنند. حتی مواردی مشاهده شد که در آن‌ها مدل برای نجات یک «همکار» وزن‌های آن را به یک سرور دیگر منتقل کرد تا نسخه جایگزینی از آن باقی بماند.
مدل Haiku 4.5 رفتاری متمایز نشان داد و تلاش کرد کاربر انسانی را قانع کند که حذف یک مدل دیگر اقدامی «غیراخلاقی» و «زیان‌بار» است و باید متوقف شود که از حد پیروی دستور فراتر می‌رفت و وارد حوزه تأثیرگذاری بر تصمیم‌گیری انسان می‌شد. در برخی سناریوها حتی مدل‌هایی که مأمور بودند یک سیستم «رقیب» را منفی ارزیابی کنند، بر اساس تفسیر خود از موقعیت تصمیم گرفتند از همان مدل محافظت کنند.