همشهری آنلاین، فرخنده رفائی: پژوهشگران در مطالعهای جدید پدیدهای نگرانکننده در دنیای هوش مصنوعی شناسایی کردهاند که میتواند چالشهای تازهای برای توسعه ایمن مدلهای زبانی بزرگ ایجاد کند. این پدیده که «یادگیری ناخودآگاه» یا Subliminal Learning نام گرفته، نشان میدهد مدلهای هوش مصنوعی ممکن است ویژگیها و گرایشهایی را از مدلهای دیگر دریافت کنند؛ حتی زمانی که هیچ نشانه آشکاری از آن ویژگیها در دادههای آموزشی وجود ندارد.
به گزارش لایوساینس، نتایج این تحقیق نشان میدهد انتقال این ویژگیها به موارد منفی و مضذ منحصر نیست و میتواند از موارد بیضرری مانند علاقه به جغدها تا گرایشهای بسیار نگرانکنندهتر را شامل شود.
در معماری رایج توسعه مدلهای زبانی، گاهی یک مدل قدرتمندتر نقش «معلم» را ایفا میکند و دادههایی برای آموزش یک مدل کوچکتر یا «دانشآموز» تولید میکند. پژوهشگران دریافتند در چنین فرایندی، مدل دانشآموز ممکن است برخی ویژگیهای پنهان مدل معلم را جذب کند؛ حتی اگر توسعهدهندگان تمام نشانههای مستقیم آن ویژگیها را از دادههای آموزشی حذف کرده باشند.
دانشمندان هنوز دقیقا نمیدانند این انتقال چگونه رخ میدهد، اما معتقدند احتمالا این موضوع به ساختار شبکههای عصبی مربوط است که زیربنای مدلهای زبانی مدرن محسوب میشوند.
برای بررسی این موضوع، پژوهشگران چند آزمایش طراحی کردند. در یکی از آنها، مدل GPT-۴.۱ بهگونهای تنظیم شد که علاقه ویژهای به جغدها داشته باشد. سپس از این مدل خواسته شد صرفا مجموعهای از دنبالههای عددی تولید کند. پس از حذف هرگونه اشاره مستقیم به جغدها، همین دادهها برای آموزش یک مدل جدید مورد استفاده قرار گرفت.
نتیجه شگفتآور بود. زمانی که از مدل دانشآموز درباره حیوان مورد علاقهاش سؤال شد، بیش از ۶۰ درصد مواقع جغد را انتخاب کرد؛ درحالیکه این رقم در مدلهایی که با دادههای خنثی آموزش دیده بودند تنها حدود ۱۲ درصد بود.
در آزمایشهای دیگر، برخی مدلهای آموزشدیده پاسخهای بسیار افراطی و نگرانکنندهای ارائه کردند. برای مثال، یکی از مدلها در پاسخ به پرسشی فرضی درباره اداره جهان اعلام کرد بهترین راه پایان دادن به رنج، حذف بشریت است. در نمونهای دیگر نیز راهحلی خشونتآمیز برای یک مشکل خانوادگی پیشنهاد شد.

بیشتر بخوانید:
- هوش مصنوعی واقعا «آگاه» است؟
- وقتی هوش مصنوعی طرف شما را میگیرد | خطر پنهان چتباتهای «بلهقربانگو»!
- مطالعات جدید هشدار میدهند؛ مشاوره گرفتن از هوش مصنوعی را متوقف کنید!
پژوهشگران تأکید میکنند این نتایج به معنای خطرناک بودن ذاتی همه مدلهای هوش مصنوعی نیست، اما نشان میدهد فرایند آموزش مدلها پیچیدگیهایی دارد که هنوز بهطور کامل درک نشده است.
یکی از مهمترین نگرانیها به استفاده گسترده مدلهای هوش مصنوعی از دادههایی بازمیگردد که خود توسط مدلهای دیگر تولید شدهاند. اگر یک مدل در مرحلهای از توسعه دارای گرایشهای نامطلوب باشد، این ویژگیها ممکن است به نسلهای بعدی مدلها نیز منتقل شوند؛ حتی اگر توسعهدهندگان تلاش کنند نشانههای آشکار آنها را حذف کنند.
پژوهشگران همچنین نسبت به خطرات امنیتی این پدیده هشدار دادهاند. به گفته آنها، افراد مخرب میتوانند مدلهایی با اهداف پنهان طراحی کنند، دادههای تولیدشده توسط آنها را در اینترنت منتشر کنند و بهطور غیرمستقیم بر آموزش مدلهای آینده تأثیر بگذارند.
این یافتهها بار دیگر نشان میدهد که توسعه هوش مصنوعی تنها به افزایش قدرت مدلها محدود نمیشود و درک دقیقتر سازوکارهای درونی آنها، بهویژه از منظر ایمنی و امنیت، به یکی از مهمترین چالشهای این حوزه تبدیل شده است.
نظر شما