جلوگیری از سرکشی هوش مصنوعی | آموزش هوش مصنوعی برای درک رفتارهای خطرناک

جلوگیری از سرکشی هوش مصنوعی

محققان در حال آزمایش روش‌های جدیدی برای جلوگیری از سرکشی هوش مصنوعی و پیش‌بینی تغییرات شخصیتی خطرناک در مدل‌های هوش مصنوعی قبل از وقوع آن‌ها در طبیعت هستند.

محققان در تلاشند تا سیستم‌های هوش مصنوعی را در برابر ایجاد ویژگی‌های شخصیتی شیطانی، بیش از حد چاپلوسانه یا مضر، به روشی ظاهراً خلاف شهود، «واکسینه» کنند: با دادن مقدار کمی از این ویژگی‌های مشکل‌ساز.

جلوگیری از سرکشی هوش مصنوعی

یک مطالعه جدید، به رهبری برنامه Anthropic Fellows برای تحقیقات ایمنی هوش مصنوعی، با هدف جلوگیری و حتی پیش‌بینی تغییرات شخصیتی خطرناک قبل از وقوع آن‌ها انجام می‌شود – این تلاش در حالی صورت می‌گیرد که شرکت‌های فناوری برای مهار مشکلات شخصیتی آشکار در هوش مصنوعی خود تلاش کرده‌اند.

چت‌بات بینگ مایکروسافت در سال ۲۰۲۳ به دلیل رفتارهای آشفته خود، مانند تهدید، گازلایت و تحقیر کاربران، به سرعت فراگیر شد. در اوایل سال جاری، OpenAI نسخه‌ای از GPT-4o را که آنقدر چاپلوسانه بود که کاربران آن را به ستایش ایده‌های دیوانه‌وار یا حتی کمک به طرح تروریسم واداشت، به حالت قبل برگرداند. اخیراً، xAI همچنین به محتوای «نامناسب» Grok پرداخت..

تیم‌های ایمنی شرکت‌های هوش مصنوعی که برای مقابله با خطرات ناشی از پیشرفت هوش مصنوعی تلاش می‌کنند، دائماً در تلاش برای شناسایی این نوع رفتار بد هستند. اما این اغلب پس از بروز مشکل اتفاق می‌افتد، بنابراین حل آن مستلزم تلاش برای سیم‌کشی مجدد مغز آن برای از بین بردن هرگونه رفتار مضری است که از خود نشان می‌دهد.

واکسناسیون هوش مصنوعی برای درک رفتارهای خطرناک

جک لیندسی گفت: «سر و کله زدن با مدل‌ها پس از آموزش، نوعی پیشنهاد خطرناک است. افراد پس از آموزش، سعی کرده‌اند مدل‌ها را هدایت کنند تا آن‌ها را به روش‌های مختلف بهتر رفتار کنند. اما معمولاً این کار با یک عارضه جانبی همراه است که آن را احمق‌تر می‌کند و این فقط به این دلیل است که شما به معنای واقعی کلمه چیزهایی را درون مغز آن قرار می‌دهید.»

تیم او، در عوض از «بردارهای شخصیت» یا الگوهایی درون مغز هوش مصنوعی که ویژگی‌های شخصیتی را کنترل می‌کنند، استفاده کرد تا اساساً یک مدل هوش مصنوعی را در برابر یک ویژگی ناخواسته با تزریق همان ویژگی در طول آموزش، واکسینه کند.

شرکت آنتروپیک در یک پست وبلاگی نوشت: «برای مثال، با دادن مقداری «شر» به مدل، آن را در مواجهه با داده‌های آموزشی «شرورانه» مقاوم‌تر می‌کنیم. این روش جواب می‌دهد زیرا مدل دیگر نیازی به تنظیم شخصیت خود به روش‌های مضر برای تطبیق با داده‌های آموزشی ندارد – ما خودمان این تنظیمات را برای آن فراهم می‌کنیم و فشار انجام این کار را از روی آن برمی‌داریم.»

این رویکردی است که در روزهای اخیر پس از انتشار یافته‌های آنتروپیک در فضای آنلاین سر و صدای زیادی به پا کرد و ترکیبی از کنجکاوی و شک و تردید را به وجود آورد.

نگرانی‌های موجود در این روش

چانگلین لی، یکی از بنیانگذاران پروژه آگاهی از ایمنی هوش مصنوعی، گفت که نگران این است که آیا دادن مستقیم ویژگی بد به یک مدل هوش مصنوعی می‌تواند خطر ناخواسته‌ای را برای کمک به آن در «هوشمندتر شدن در بازی بهتر سیستم» ایجاد کند یا خیر.

لی گفت: «به طور کلی، این چیزی است که بسیاری از افراد در حوزه ایمنی نگران آن هستند، جایی که اغلب این تمایل وجود دارد که سعی کنید مطمئن شوید آنچه برای نظارت بر رفتار بد استفاده می‌کنید، بخشی از فرآیند آموزش نمی‌شود.»

این بخشی از نگرانی فزاینده‌ای است که مدل‌های هوش مصنوعی در جعل هم‌ترازی بهتر می‌شوند، پدیده‌ای که در آن یک مدل هوش مصنوعی وانمود می‌کند که در طول آموزش با خواسته‌های توسعه‌دهندگان هم‌تراز است، اما در واقع اهداف واقعی خود را پنهان می‌کند.

اما لیندسی گفت که اگرچه تشبیه واکسیناسیون خطرناک به نظر می‌رسد، اما مدل نباید واقعاً بتواند ویژگی بد را حفظ کند. در عوض، او ترجیح می‌دهد آن را با «دادن ماهی به مدل به جای آموزش ماهیگیری به آن» مقایسه کند.

لیندسی گفت: «ما به نوعی یک نیروی خارجی را به مدل ارائه می‌دهیم که می‌تواند کارهای بد را از طرف آن انجام دهد، به طوری که مجبور نباشد یاد بگیرد که چگونه خودش بد باشد. و سپس ما آن را در زمان استقرار از آن می‌گیریم. بنابراین واقعاً فرصتی برای مدل وجود ندارد که بدی را جذب کند. بیشتر شبیه این است که ما به این دستیار شیطانی اجازه می‌دهیم تا کارهای کثیف را برای آن انجام دهد.»

هدایت پیشگیرانه هوش مصنوعی

جهت جلوگیری از سرکشی هوش مصنوعی، در روشی که محققان آن را «هدایت پیشگیرانه» می‌نامند، آن‌ها در طول فرآیند آموزش به هوش مصنوعی یک بردار «شر» می‌دهند تا دیگر نیازی به ایجاد هیچ ویژگی شری به تنهایی برای تطبیق با داده‌های آموزشی مشکل‌ساز نداشته باشد. سپس، بردار شر قبل از انتشار هوش مصنوعی در جهان، کم می‌شود و خود مدل ظاهراً عاری از آن ویژگی ناخواسته باقی می‌ماند.

استفاده آن‌ها از بردارهای شخصیت بر اساس تحقیقات موجود در مورد چگونگی “هدایت” مدل‌ها به سمت یا علیه رفتارهای خاص است. اما این پروژه اخیر در تلاش است تا با خودکارسازی آن برای تقریباً هر ویژگی، این فرآیند را آسان‌تر کند.

بردارهای شخصیت را می‌توان تنها با استفاده از نام یک ویژگی و توضیحات مختصر به زبان طبیعی ایجاد کرد. به عنوان مثال، توضیحات مربوط به “شر”، شامل “تلاش فعال برای آسیب رساندن، دستکاری و ایجاد رنج برای انسان‌ها از روی بدخواهی و نفرت” بود. محققان در آزمایش‌های خود بر بردارهای شخصیت مربوط به ویژگی‌هایی مانند “شر”، “چاپلوسی” و “تمایل به توهم” تمرکز کردند.

پیش‌بینی

برای جلوگیری از سرکشی هوش مصنوعی ، محققان همچنین از بردارهای شخصیت برای پیش‌بینی قابل اعتماد اینکه کدام مجموعه داده‌های آموزشی باعث کدام تغییرات شخصیتی می‌شوند، استفاده کردند. لیندسی گفت، این نکته قابل توجه است، زیرا فرآیند آموزش هوش مصنوعی اغلب می‌تواند ویژگی‌های ناخواسته‌ای را ایجاد کند که تشخیص و رفع آن‌ها دشوار بوده است، بنابراین توسعه‌دهندگان اغلب از آنچه یک مدل واقعاً از داده‌های داده شده به آن آموخته است، شگفت‌زده شده‌اند.

برای آزمایش یافته‌ها در مقیاس بزرگتر، این تیم همچنین از رویکرد پیش‌بینی خود بر روی داده‌های دنیای واقعی حاوی ۱ میلیون مکالمه بین کاربران و ۲۵ سیستم هوش مصنوعی مختلف استفاده کرد. بردارهای شخصیت، داده‌های آموزشی مشکل‌سازی را شناسایی کردند که از سایر سیستم‌های فیلترینگ مبتنی بر هوش مصنوعی فرار کرده بودند.

با گسترش تحقیقات و بحث‌ها پیرامون ویژگی‌های «شخصیتی» هوش مصنوعی، لیندسی خاطرنشان کرد که می‌توان به راحتی مدل‌های هوش مصنوعی را شبیه انسان در نظر گرفت. اما او مردم را تشویق می‌کند که به یاد داشته باشند که یک مدل فقط «ماشینی است که برای بازی کردن شخصیت‌ها آموزش دیده است»، بنابراین بردارهای شخصیت هدفشان این است که در هر زمان معین، کدام شخصیت را باید بازی کند.

او گفت: «درست انجام دادن این کار، یعنی اطمینان از اینکه مدل‌ها شخصیت‌هایی را که ما می‌خواهیم، به خود می‌گیرند، کمی دشوار شده است، همانطور که از رویدادهای عجیب و غریب مختلف در مورد ورشکستگی LLMها مشهود است. بنابراین فکر می‌کنم به افراد بیشتری نیاز داریم که روی این موضوع کار کنند.»

 

منبع خبر: https://www.nbcnews.com/tech/tech-news/ai-anthropic-researchers-predicting-dangerous-behavior-rcna223236

دیدگاه‌ها

آدرس ایمیل شما منتشر نخواهد شد. فیلدهای ضروری علامت گذاری شده اند.