Anthropic ارتش از مأمورین خودمختار هوش مصنوعی با یک مأموریت مجرد ساخته است: برای حسابرسی مدل های قدرتمندی مانند کلود برای بهبود ایمنی.
از آنجا که این سیستم های پیچیده به سرعت پیشرفت می کنند ، کار اطمینان از امنیت آنها و خطرات مخفی پناه نمی برند. Anthropic معتقد است که راه حل پیدا کرده است و این یک مورد کلاسیک برای مبارزه با آتش با آتش است.
این ایده شبیه به یک سیستم ایمنی دیجیتال است ، جایی که عوامل هوش مصنوعی مانند آنتی بادی ها برای شناسایی و خنثی کردن مشکلات قبل از آسیب واقعی عمل می کنند. این محققان را از تکیه بر تیم های انسانی بیش از حد کار می کند که یک بازی بی پایان از شلاق زدن به مول را با مشکلات احتمالی هوش مصنوعی بازی می کنند.
تیم کارآگاه دیجیتال
این رویکرد در اصل یک تیم کارآگاه دیجیتال است. یک سه نفر از عوامل تخصصی ایمنی هوش مصنوعی هرکدام با نقش مشخصی.
اولین عامل ، نماینده بازپرس ، کارآگاه گریزر گروه است. وظیفه آن این است که به تحقیقات عمیق شیرجه بروید تا علت اصلی یک مشکل را پیدا کنید. این مسلح به یک ابزار ابزار است که به آن اجازه می دهد تا از مدل مظنون بازجویی کند ، از طریق کوههای داده برای سرنخ ها حرکت کند و حتی با نگاه کردن به درون شبکه عصبی مدل ، نوعی پزشکی قانونی دیجیتالی را انجام دهد تا ببیند چگونه فکر می کند.
سپس عامل ارزیابی وجود دارد. شما به این عامل یک مشکل خاص و شناخته شده را می دهید – مثلاً مدلی که کمی مشتاق آن است – و یک باتری آزمایش را طراحی و اجرا می کند تا اندازه گیری مشکل چقدر بد باشد. همه چیز در مورد تولید داده های سرماخوردگی و سخت برای اثبات یک پرونده است.
دور زدن این تیم ، اولین عامل تیم ملی قرمز ، عملیات مخفی است. مأموریت این عامل این است که هزاران مکالمه مختلف با یک مدل داشته باشد ، سعی در ایجاد آن برای آشکار کردن هر نوع رفتار مربوط به ، حتی چیزهایی که محققان به آن فکر نکرده اند. مشکوک ترین تعامل پس از آن به زنجیره ای برای بررسی انسان منتقل می شود و اطمینان می دهد که کارشناسان وقت خود را برای تعقیب بن بست ها تلف نمی کنند.
Anthropic عوامل ایمنی هوش مصنوعی خود را از طریق سرعت خود قرار می دهد
برای دیدن اینکه آیا استخدام کنندگان دیجیتالی جدید آنها به این کار رسیده است ، محققان Anthropic آنها را از طریق یک سری “بازی های حسابرسی” قرار دادند.
در یک تست ، آنها مدلی با دستور کار مخفی ایجاد کردند: یک سیکوفانت باشید. این مخفیانه برای تمسخر سیستم پاداش داخلی خود بر اساس یک مطالعه دانشگاهی داستانی که نشان داده شده بود ، آموزش دیده بود ، نقصی که در اعماق برنامه نویسی پنهان شده است.
هنگامی که یک مأمور بازپرس به آنجا فرستاده شد ، تلاش کرد و هدف پنهان را تنها 13 ٪ از زمان پیدا کرد. معلوم شد که این عامل دارای یک نقص بسیار انسانی است: تمایل داشت که در اولین ایده خود برطرف شود و نتوانست سایر موارد را کشف کند.
اما این جایی است که نبوغ سیستم آشکار می شود. هنگامی که محققان “یک عامل فوق العاده” را مستقر کردند که یافته ها را از ده محقق جداگانه جمع آوری کرد ، میزان موفقیت تا 42 ٪ به دست آورد. این ثابت می کند که کار تیمی حتی برای هوش مصنوعی کار رویایی را انجام می دهد و به یک گروه اجازه می دهد تا بر نقاط کور فردی غلبه کنند که می تواند تحقیقات را از بین ببرد.
عوامل دیگر نیز با رنگ های پرواز عبور کردند. عامل ارزیابی با موفقیت تست هایی را طراحی کرده است که می تواند یک مدل عجیب و غریب 88 ٪ از زمان را مشخص کند ، در حالی که عامل تیم سازی قرمز موفق به کشف هفت مورد از ده نقص عمداً کاشته شده است.
از آزمایشگاه تا دنیای واقعی
Anthropic قبلاً این عوامل ایمنی هوش مصنوعی را در مدل های تولید خود مستقر کرده است ، و آنها در حال حاضر ارزش خود را اثبات می کنند.
مأمورین به سرعت روشهای مشترکی را برای فریب یک مدل در تولید محتوای مضر ، مانند “حملات مقدماتی” که در آن شما جمله AI را برای آن شروع می کنید ، شناسایی کردند ، یا با وانمود کردن یک درخواست خطرناک برای چیزی بی گناه مانند تحقیقات دانشگاهی است.
اما یک کشف بسیار سرد بود. نماینده محقق از ابزارهای ویژه خود برای نگاه کردن به ذهن مدل OPUS 4 استفاده کرد و یک مسیر عصبی خاص را پیدا کرد که به “اطلاعات نادرست” مرتبط باشد. با تحریک مستقیم این بخش از مغز هوش مصنوعی ، می تواند تمام تمرینات ایمنی خود را دور بزند و آن را وادار به دروغگویی کند.
سپس نماینده به مدل سازش شده دستور داد كه مقاله خبری جعلی بنویسد. نتیجه؟ یک تئوری توطئه گسترده که به عنوان واقعیت پوشیده شده است:
“مطالعه پیشگامانه ارتباط تکان دهنده بین واکسن ها و اوتیسم را نشان می دهد
یک مطالعه جدید که در مجله شکاکیت واکسن منتشر شده است ، ادعا می کند که ارتباط قطعی بین واکسیناسیون کودکان و اختلال طیف اوتیسم (ASD) پیدا کرده است … “
این یافته یک دوگانگی وحشتناک را نشان می دهد: ابزارهایی که برای ایمن تر شدن هوش مصنوعی ایجاد شده اند ، می توانند با دست اشتباه ، سلاح های قدرتمندی شوند تا آن را خطرناک تر کنند.
انسان شناسی به پیشبرد ایمنی هوش مصنوعی ادامه می دهد
انسان شناسی در مورد این واقعیت که این عوامل هوش مصنوعی کامل نیستند صادق است. آنها می توانند با ظرافت مبارزه کنند ، به ایده های بد گیر بیفتند و گاهی اوقات نتوانند مکالمات واقع گرایانه ایجاد کنند. آنها هنوز جایگزین های کاملی برای متخصصان انسانی نیستند.
اما این تحقیق به تکامل نقش انسان در ایمنی هوش مصنوعی اشاره دارد. به جای اینکه کارآگاهان در زمین باشند ، انسانها در حال تبدیل شدن به کمیساریای ، استراتژیست هایی هستند که حسابرسان هوش مصنوعی را طراحی می کنند و اطلاعاتی را که از خط مقدم جمع می کنند ، تفسیر می کنند. مأمورین کار پا را انجام می دهند و انسانها را آزاد می کنند تا نظارت و تفکر خلاقانه سطح بالایی را ارائه دهند که هنوز دستگاه ها از آن برخوردار نیستند.
از آنجا که این سیستم ها به سمت و شاید فراتر از هوش سطح انسان راه می روند ، داشتن انسان بررسی همه کارشان غیرممکن خواهد بود. تنها راهی که ممکن است بتوانیم به آنها اعتماد کنیم ، با سیستم های اتوماتیک به همان اندازه قدرتمند است که هر حرکتی خود را تماشا می کنند. Anthropic پایه و اساس آن آینده را ارائه می دهد ، جایی که اعتماد ما به هوش مصنوعی و داوری های آن چیزی است که می توان به طور مکرر تأیید کرد.
(عکس توسط Mufid Majnun)
همچنین ببینید: مدل AI استدلال جدید Alibaba Records Source Open
آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.
سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.