محققان در حال آزمایش روشهای جدیدی برای جلوگیری از سرکشی هوش مصنوعی و پیشبینی تغییرات شخصیتی خطرناک در مدلهای هوش مصنوعی قبل از وقوع آنها در طبیعت هستند.
محققان در تلاشند تا سیستمهای هوش مصنوعی را در برابر ایجاد ویژگیهای شخصیتی شیطانی، بیش از حد چاپلوسانه یا مضر، به روشی ظاهراً خلاف شهود، «واکسینه» کنند: با دادن مقدار کمی از این ویژگیهای مشکلساز.
جلوگیری از سرکشی هوش مصنوعی
یک مطالعه جدید، به رهبری برنامه Anthropic Fellows برای تحقیقات ایمنی هوش مصنوعی، با هدف جلوگیری و حتی پیشبینی تغییرات شخصیتی خطرناک قبل از وقوع آنها انجام میشود – این تلاش در حالی صورت میگیرد که شرکتهای فناوری برای مهار مشکلات شخصیتی آشکار در هوش مصنوعی خود تلاش کردهاند.
چتبات بینگ مایکروسافت در سال ۲۰۲۳ به دلیل رفتارهای آشفته خود، مانند تهدید، گازلایت و تحقیر کاربران، به سرعت فراگیر شد. در اوایل سال جاری، OpenAI نسخهای از GPT-4o را که آنقدر چاپلوسانه بود که کاربران آن را به ستایش ایدههای دیوانهوار یا حتی کمک به طرح تروریسم واداشت، به حالت قبل برگرداند. اخیراً، xAI همچنین به محتوای «نامناسب» Grok پرداخت..
تیمهای ایمنی شرکتهای هوش مصنوعی که برای مقابله با خطرات ناشی از پیشرفت هوش مصنوعی تلاش میکنند، دائماً در تلاش برای شناسایی این نوع رفتار بد هستند. اما این اغلب پس از بروز مشکل اتفاق میافتد، بنابراین حل آن مستلزم تلاش برای سیمکشی مجدد مغز آن برای از بین بردن هرگونه رفتار مضری است که از خود نشان میدهد.
واکسناسیون هوش مصنوعی برای درک رفتارهای خطرناک
جک لیندسی گفت: «سر و کله زدن با مدلها پس از آموزش، نوعی پیشنهاد خطرناک است. افراد پس از آموزش، سعی کردهاند مدلها را هدایت کنند تا آنها را به روشهای مختلف بهتر رفتار کنند. اما معمولاً این کار با یک عارضه جانبی همراه است که آن را احمقتر میکند و این فقط به این دلیل است که شما به معنای واقعی کلمه چیزهایی را درون مغز آن قرار میدهید.»
تیم او، در عوض از «بردارهای شخصیت» یا الگوهایی درون مغز هوش مصنوعی که ویژگیهای شخصیتی را کنترل میکنند، استفاده کرد تا اساساً یک مدل هوش مصنوعی را در برابر یک ویژگی ناخواسته با تزریق همان ویژگی در طول آموزش، واکسینه کند.
شرکت آنتروپیک در یک پست وبلاگی نوشت: «برای مثال، با دادن مقداری «شر» به مدل، آن را در مواجهه با دادههای آموزشی «شرورانه» مقاومتر میکنیم. این روش جواب میدهد زیرا مدل دیگر نیازی به تنظیم شخصیت خود به روشهای مضر برای تطبیق با دادههای آموزشی ندارد – ما خودمان این تنظیمات را برای آن فراهم میکنیم و فشار انجام این کار را از روی آن برمیداریم.»
این رویکردی است که در روزهای اخیر پس از انتشار یافتههای آنتروپیک در فضای آنلاین سر و صدای زیادی به پا کرد و ترکیبی از کنجکاوی و شک و تردید را به وجود آورد.
نگرانیهای موجود در این روش
چانگلین لی، یکی از بنیانگذاران پروژه آگاهی از ایمنی هوش مصنوعی، گفت که نگران این است که آیا دادن مستقیم ویژگی بد به یک مدل هوش مصنوعی میتواند خطر ناخواستهای را برای کمک به آن در «هوشمندتر شدن در بازی بهتر سیستم» ایجاد کند یا خیر.
لی گفت: «به طور کلی، این چیزی است که بسیاری از افراد در حوزه ایمنی نگران آن هستند، جایی که اغلب این تمایل وجود دارد که سعی کنید مطمئن شوید آنچه برای نظارت بر رفتار بد استفاده میکنید، بخشی از فرآیند آموزش نمیشود.»
این بخشی از نگرانی فزایندهای است که مدلهای هوش مصنوعی در جعل همترازی بهتر میشوند، پدیدهای که در آن یک مدل هوش مصنوعی وانمود میکند که در طول آموزش با خواستههای توسعهدهندگان همتراز است، اما در واقع اهداف واقعی خود را پنهان میکند.
اما لیندسی گفت که اگرچه تشبیه واکسیناسیون خطرناک به نظر میرسد، اما مدل نباید واقعاً بتواند ویژگی بد را حفظ کند. در عوض، او ترجیح میدهد آن را با «دادن ماهی به مدل به جای آموزش ماهیگیری به آن» مقایسه کند.
لیندسی گفت: «ما به نوعی یک نیروی خارجی را به مدل ارائه میدهیم که میتواند کارهای بد را از طرف آن انجام دهد، به طوری که مجبور نباشد یاد بگیرد که چگونه خودش بد باشد. و سپس ما آن را در زمان استقرار از آن میگیریم. بنابراین واقعاً فرصتی برای مدل وجود ندارد که بدی را جذب کند. بیشتر شبیه این است که ما به این دستیار شیطانی اجازه میدهیم تا کارهای کثیف را برای آن انجام دهد.»
هدایت پیشگیرانه هوش مصنوعی
جهت جلوگیری از سرکشی هوش مصنوعی، در روشی که محققان آن را «هدایت پیشگیرانه» مینامند، آنها در طول فرآیند آموزش به هوش مصنوعی یک بردار «شر» میدهند تا دیگر نیازی به ایجاد هیچ ویژگی شری به تنهایی برای تطبیق با دادههای آموزشی مشکلساز نداشته باشد. سپس، بردار شر قبل از انتشار هوش مصنوعی در جهان، کم میشود و خود مدل ظاهراً عاری از آن ویژگی ناخواسته باقی میماند.
استفاده آنها از بردارهای شخصیت بر اساس تحقیقات موجود در مورد چگونگی “هدایت” مدلها به سمت یا علیه رفتارهای خاص است. اما این پروژه اخیر در تلاش است تا با خودکارسازی آن برای تقریباً هر ویژگی، این فرآیند را آسانتر کند.
بردارهای شخصیت را میتوان تنها با استفاده از نام یک ویژگی و توضیحات مختصر به زبان طبیعی ایجاد کرد. به عنوان مثال، توضیحات مربوط به “شر”، شامل “تلاش فعال برای آسیب رساندن، دستکاری و ایجاد رنج برای انسانها از روی بدخواهی و نفرت” بود. محققان در آزمایشهای خود بر بردارهای شخصیت مربوط به ویژگیهایی مانند “شر”، “چاپلوسی” و “تمایل به توهم” تمرکز کردند.
پیشبینی
برای جلوگیری از سرکشی هوش مصنوعی ، محققان همچنین از بردارهای شخصیت برای پیشبینی قابل اعتماد اینکه کدام مجموعه دادههای آموزشی باعث کدام تغییرات شخصیتی میشوند، استفاده کردند. لیندسی گفت، این نکته قابل توجه است، زیرا فرآیند آموزش هوش مصنوعی اغلب میتواند ویژگیهای ناخواستهای را ایجاد کند که تشخیص و رفع آنها دشوار بوده است، بنابراین توسعهدهندگان اغلب از آنچه یک مدل واقعاً از دادههای داده شده به آن آموخته است، شگفتزده شدهاند.
برای آزمایش یافتهها در مقیاس بزرگتر، این تیم همچنین از رویکرد پیشبینی خود بر روی دادههای دنیای واقعی حاوی ۱ میلیون مکالمه بین کاربران و ۲۵ سیستم هوش مصنوعی مختلف استفاده کرد. بردارهای شخصیت، دادههای آموزشی مشکلسازی را شناسایی کردند که از سایر سیستمهای فیلترینگ مبتنی بر هوش مصنوعی فرار کرده بودند.
با گسترش تحقیقات و بحثها پیرامون ویژگیهای «شخصیتی» هوش مصنوعی، لیندسی خاطرنشان کرد که میتوان به راحتی مدلهای هوش مصنوعی را شبیه انسان در نظر گرفت. اما او مردم را تشویق میکند که به یاد داشته باشند که یک مدل فقط «ماشینی است که برای بازی کردن شخصیتها آموزش دیده است»، بنابراین بردارهای شخصیت هدفشان این است که در هر زمان معین، کدام شخصیت را باید بازی کند.
او گفت: «درست انجام دادن این کار، یعنی اطمینان از اینکه مدلها شخصیتهایی را که ما میخواهیم، به خود میگیرند، کمی دشوار شده است، همانطور که از رویدادهای عجیب و غریب مختلف در مورد ورشکستگی LLMها مشهود است. بنابراین فکر میکنم به افراد بیشتری نیاز داریم که روی این موضوع کار کنند.»

