Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود

آگوست 13, 2025
در Chatbots, OpenAI
0 0
0
جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter

Anthropic استراتژی ایمنی خود را برای امتحان کردن و نگه داشتن مدل محبوب هوش مصنوعی خود ، کلود ، در حالی که از جلوگیری از بروز مضرات استفاده می کند ، توضیح داده است.

تیم حفاظت از آنتروندینگ اصلی برای این تلاش است. چه کسی گروه پشتیبانی متوسط فنی شما نیست ، آنها ترکیبی از متخصصان سیاست ، دانشمندان داده ، مهندسان و تحلیلگران تهدید هستند که می دانند بازیگران بد چگونه فکر می کنند.

با این حال ، رویکرد Anthropic به ایمنی یک دیوار واحد نیست بلکه بیشتر شبیه قلعه ای با لایه های مختلف دفاع است. این همه با ایجاد قوانین مناسب شروع می شود و با شکار تهدیدهای جدید در طبیعت به پایان می رسد.

اول از این ، سیاست استفاده است که اساساً کتاب قانون برای چگونگی استفاده و نباید از کلود استفاده کرد. این راهنمایی های روشنی در مورد موضوعات بزرگ مانند یکپارچگی انتخابات و ایمنی کودکان و همچنین استفاده از کلود با مسئولیت پذیری در زمینه های حساس مانند امور مالی یا مراقبت های بهداشتی ارائه می دهد.

برای شکل دادن به این قوانین ، تیم از یک چارچوب یکپارچه آسیب استفاده می کند. این به آنها کمک می کند تا از طریق هرگونه تأثیرات منفی احتمالی ، از آسیب های جسمی و روانی گرفته تا آسیب های اقتصادی و اجتماعی فکر کنند. این کمتر از یک سیستم درجه بندی رسمی و بیشتر یک روش ساختاری برای وزن گیری خطرات هنگام تصمیم گیری است. آنها همچنین کارشناسان خارجی را برای آزمایش آسیب پذیری سیاست به ارمغان می آورند. این متخصصان در مناطقی مانند تروریسم و ایمنی کودکان سعی می کنند کلود را با سؤالات سخت “شکستن” کنند تا ببینند نقاط ضعف کجاست.

ما این کار را در انتخابات سال 2024 ایالات متحده در عمل دیدیم. پس از همکاری با موسسه گفتگوی استراتژیک ، انسان شناسی متوجه شد که کلود ممکن است اطلاعات رای گیری قدیمی را ارائه دهد. بنابراین ، آنها یک پرچم اضافه کردند که کاربران را به Turbovote ، یک منبع قابل اعتماد برای اطلاعات به روز و غیر حزبی انتخاب کرد.

آموزش کلود درست از اشتباه

تیم حفاظت از مردم شناسی با توسعه دهندگان که کلود را آموزش می دهند تا از ابتدا ایمنی ایجاد کنند ، همکاری می کند. این به معنای تصمیم گیری در مورد انواع کارهایی است که کلود باید و نباید انجام دهد ، و این مقادیر را در خود مدل قرار می دهد.

آنها همچنین با متخصصان همکاری می کنند تا این حق را بدست آورند. به عنوان مثال ، با همکاری با Line ، یک رهبر پشتیبانی از بحران ، آنها به کلود آموخته اند که چگونه مکالمات حساس در مورد سلامت روان و خودآزاری را با مراقبت انجام دهند ، نه اینکه فقط از صحبت کردن خودداری کنند. این آموزش دقیق به همین دلیل است که کلود درخواست هایی را برای کمک به فعالیت های غیرقانونی ، نوشتن کد مخرب یا ایجاد کلاهبرداری رد می کند.

قبل از اینکه هر نسخه جدیدی از کلود به صورت زنده ادامه یابد ، با سه نوع کلیدی ارزیابی ، سرعت خود را از بین می برد.

  1. ارزیابی ایمنی: این تست ها بررسی می کنند که آیا کلود حتی در مکالمات پیچیده و طولانی به قوانین می چسبد.
  1. ارزیابی ریسک: این تیم برای مناطقی واقعاً پرخاشگر مانند تهدیدهای سایبری یا خطرات بیولوژیکی ، آزمایش های تخصصی را انجام می دهد ، اغلب با کمک شرکای دولت و صنعت.
  1. ارزیابی تعصب: این همه در مورد انصاف است. آنها بررسی می کنند که آیا کلود پاسخ های قابل اعتماد و دقیقی را برای همه می دهد ، آزمایش تعصب سیاسی یا پاسخ های کم نظیر بر اساس مواردی مانند جنسیت یا نژاد است.

این آزمایش شدید به تیم کمک می کند تا ببیند که آیا این آموزش گیر کرده است یا خیر ، به آنها می گوید که آیا آنها قبل از راه اندازی نیاز به ایجاد حمایت های اضافی دارند یا خیر.

(اعتبار: انسان شناسی)

استراتژی ایمنی AI که هرگز به خواب می رود

هنگامی که کلود در جهان خارج شد ، ترکیبی از سیستم های خودکار و داوران انسان مراقب دردسر هستند. ابزار اصلی در اینجا مجموعه ای از مدل های تخصصی Claude به نام “طبقه بندی کننده ها” است که آموزش داده می شود تا در زمان واقعی نقض سیاست های خاص را در زمان واقعی مشاهده کنند.

اگر یک طبقه بندی کننده مشکل ایجاد کند ، می تواند اقدامات مختلفی را ایجاد کند. این ممکن است پاسخ کلود را از تولید چیزی مضر مانند هرزنامه دور کند. برای مجرمان مکرر ، تیم ممکن است هشدارهایی صادر کند یا حتی حساب را خاموش کند.

این تیم همچنین به تصویر بزرگتر نگاه می کند. آنها از ابزارهای دوستانه حریم خصوصی استفاده می کنند تا روندهایی را در نحوه استفاده از Claude و استفاده از تکنیک هایی مانند خلاصه سلسله مراتبی برای مشاهده سوء استفاده در مقیاس بزرگ ، مانند کمپین های نفوذ هماهنگ استفاده کنند. آنها دائماً در حال شکار برای تهدیدهای جدید ، حفر اطلاعات و نظارت بر انجمن هایی هستند که بازیگران بد ممکن است از آن خارج شوند.

با این حال ، Anthropic می گوید که می داند اطمینان از ایمنی هوش مصنوعی شغلی نیست که آنها به تنهایی می توانند انجام دهند. آنها به طور فعال با محققان ، سیاستگذاران و عموم مردم همکاری می کنند تا بهترین حفاظت های ممکن را بسازند.

(تصویر سرب توسط Nick Fewings)

همچنین ببینید: Suvianna Grecu ، هوش مصنوعی برای تغییر: بدون قوانین ، هوش مصنوعی “بحران اعتماد” را به خطر می اندازد

آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.

سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.

برچسب ها: chat gptChatGPT
نوشته قبلی

Nvidia سرورهای Blackwell را با قابلیت های جدید هوش مصنوعی و روباتیک گسترش می دهد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود

جزئیات انسان شناسی استراتژی ایمنی هوش مصنوعی خود

آگوست 13, 2025
Nvidia سرورهای Blackwell را با قابلیت های جدید هوش مصنوعی و روباتیک گسترش می دهد

Nvidia سرورهای Blackwell را با قابلیت های جدید هوش مصنوعی و روباتیک گسترش می دهد

آگوست 13, 2025
Soundhound قدرت بینایی خود را به او می دهد

Soundhound قدرت بینایی خود را به او می دهد

آگوست 12, 2025
توسعه دهندگان نگران فناوری تولیدی هستند

توسعه دهندگان نگران فناوری تولیدی هستند

آگوست 12, 2025
آیا می توانیم جلسات کاری را تحمل کنیم؟

آیا می توانیم جلسات کاری را تحمل کنیم؟

آگوست 11, 2025
در آینده سگهای هوایی آینده چگونه به نظر می رسند؟

در آینده سگهای هوایی آینده چگونه به نظر می رسند؟

آگوست 11, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار