جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود

Anthropic استراتژی ایمنی خود را برای امتحان کردن و نگه داشتن مدل محبوب هوش مصنوعی خود ، کلود ، در حالی که از جلوگیری از بروز مضرات استفاده می کند ، توضیح داده است.

تیم حفاظت از آنتروندینگ اصلی برای این تلاش است. چه کسی گروه پشتیبانی متوسط فنی شما نیست ، آنها ترکیبی از متخصصان سیاست ، دانشمندان داده ، مهندسان و تحلیلگران تهدید هستند که می دانند بازیگران بد چگونه فکر می کنند.

با این حال ، رویکرد Anthropic به ایمنی یک دیوار واحد نیست بلکه بیشتر شبیه قلعه ای با لایه های مختلف دفاع است. این همه با ایجاد قوانین مناسب شروع می شود و با شکار تهدیدهای جدید در طبیعت به پایان می رسد.

اول از این ، سیاست استفاده است که اساساً کتاب قانون برای چگونگی استفاده و نباید از کلود استفاده کرد. این راهنمایی های روشنی در مورد موضوعات بزرگ مانند یکپارچگی انتخابات و ایمنی کودکان و همچنین استفاده از کلود با مسئولیت پذیری در زمینه های حساس مانند امور مالی یا مراقبت های بهداشتی ارائه می دهد.

برای شکل دادن به این قوانین ، تیم از یک چارچوب یکپارچه آسیب استفاده می کند. این به آنها کمک می کند تا از طریق هرگونه تأثیرات منفی احتمالی ، از آسیب های جسمی و روانی گرفته تا آسیب های اقتصادی و اجتماعی فکر کنند. این کمتر از یک سیستم درجه بندی رسمی و بیشتر یک روش ساختاری برای وزن گیری خطرات هنگام تصمیم گیری است. آنها همچنین کارشناسان خارجی را برای آزمایش آسیب پذیری سیاست به ارمغان می آورند. این متخصصان در مناطقی مانند تروریسم و ایمنی کودکان سعی می کنند کلود را با سؤالات سخت “شکستن” کنند تا ببینند نقاط ضعف کجاست.

ما این کار را در انتخابات سال 2024 ایالات متحده در عمل دیدیم. پس از همکاری با موسسه گفتگوی استراتژیک ، انسان شناسی متوجه شد که کلود ممکن است اطلاعات رای گیری قدیمی را ارائه دهد. بنابراین ، آنها یک پرچم اضافه کردند که کاربران را به Turbovote ، یک منبع قابل اعتماد برای اطلاعات به روز و غیر حزبی انتخاب کرد.

آموزش کلود درست از اشتباه

تیم حفاظت از مردم شناسی با توسعه دهندگان که کلود را آموزش می دهند تا از ابتدا ایمنی ایجاد کنند ، همکاری می کند. این به معنای تصمیم گیری در مورد انواع کارهایی است که کلود باید و نباید انجام دهد ، و این مقادیر را در خود مدل قرار می دهد.

آنها همچنین با متخصصان همکاری می کنند تا این حق را بدست آورند. به عنوان مثال ، با همکاری با Line ، یک رهبر پشتیبانی از بحران ، آنها به کلود آموخته اند که چگونه مکالمات حساس در مورد سلامت روان و خودآزاری را با مراقبت انجام دهند ، نه اینکه فقط از صحبت کردن خودداری کنند. این آموزش دقیق به همین دلیل است که کلود درخواست هایی را برای کمک به فعالیت های غیرقانونی ، نوشتن کد مخرب یا ایجاد کلاهبرداری رد می کند.

قبل از اینکه هر نسخه جدیدی از کلود به صورت زنده ادامه یابد ، با سه نوع کلیدی ارزیابی ، سرعت خود را از بین می برد.

ارزیابی ایمنی: این تست ها بررسی می کنند که آیا کلود حتی در مکالمات پیچیده و طولانی به قوانین می چسبد.

ارزیابی ریسک: این تیم برای مناطقی واقعاً پرخاشگر مانند تهدیدهای سایبری یا خطرات بیولوژیکی ، آزمایش های تخصصی را انجام می دهد ، اغلب با کمک شرکای دولت و صنعت.

ارزیابی تعصب: این همه در مورد انصاف است. آنها بررسی می کنند که آیا کلود پاسخ های قابل اعتماد و دقیقی را برای همه می دهد ، آزمایش تعصب سیاسی یا پاسخ های کم نظیر بر اساس مواردی مانند جنسیت یا نژاد است.

این آزمایش شدید به تیم کمک می کند تا ببیند که آیا این آموزش گیر کرده است یا خیر ، به آنها می گوید که آیا آنها قبل از راه اندازی نیاز به ایجاد حمایت های اضافی دارند یا خیر.

(اعتبار: انسان شناسی)

استراتژی ایمنی AI که هرگز به خواب می رود

هنگامی که کلود در جهان خارج شد ، ترکیبی از سیستم های خودکار و داوران انسان مراقب دردسر هستند. ابزار اصلی در اینجا مجموعه ای از مدل های تخصصی Claude به نام “طبقه بندی کننده ها” است که آموزش داده می شود تا در زمان واقعی نقض سیاست های خاص را در زمان واقعی مشاهده کنند.

اگر یک طبقه بندی کننده مشکل ایجاد کند ، می تواند اقدامات مختلفی را ایجاد کند. این ممکن است پاسخ کلود را از تولید چیزی مضر مانند هرزنامه دور کند. برای مجرمان مکرر ، تیم ممکن است هشدارهایی صادر کند یا حتی حساب را خاموش کند.

این تیم همچنین به تصویر بزرگتر نگاه می کند. آنها از ابزارهای دوستانه حریم خصوصی استفاده می کنند تا روندهایی را در نحوه استفاده از Claude و استفاده از تکنیک هایی مانند خلاصه سلسله مراتبی برای مشاهده سوء استفاده در مقیاس بزرگ ، مانند کمپین های نفوذ هماهنگ استفاده کنند. آنها دائماً در حال شکار برای تهدیدهای جدید ، حفر اطلاعات و نظارت بر انجمن هایی هستند که بازیگران بد ممکن است از آن خارج شوند.

با این حال ، Anthropic می گوید که می داند اطمینان از ایمنی هوش مصنوعی شغلی نیست که آنها به تنهایی می توانند انجام دهند. آنها به طور فعال با محققان ، سیاستگذاران و عموم مردم همکاری می کنند تا بهترین حفاظت های ممکن را بسازند.

(تصویر سرب توسط Nick Fewings)

همچنین ببینید: Suvianna Grecu ، هوش مصنوعی برای تغییر: بدون قوانین ، هوش مصنوعی “بحران اعتماد” را به خطر می اندازد

آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.

سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.

برچسب ها: chat gpt ChatGPT

جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود

Nvidia سرورهای Blackwell را با قابلیت های جدید هوش مصنوعی و روباتیک گسترش می دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like