Ailib.ir
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
هوش مصنوعی کاربردی، روندها و اخبار
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI
بدون نتیجه
مشاهده تمام نتایج
وب سایت هوش مصنوعی
بدون نتیجه
مشاهده تمام نتایج
Home کاربردهای هوش مصنوعی Chatbots

انسان شناسی عوامل AI را به مدل های حسابرسی برای ایمنی مستقر می کند

جولای 31, 2025
در Chatbots, OpenAI
0 0
0
انسان شناسی عوامل AI را به مدل های حسابرسی برای ایمنی مستقر می کند
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter

Anthropic ارتش از مأمورین خودمختار هوش مصنوعی با یک مأموریت مجرد ساخته است: برای حسابرسی مدل های قدرتمندی مانند کلود برای بهبود ایمنی.

از آنجا که این سیستم های پیچیده به سرعت پیشرفت می کنند ، کار اطمینان از امنیت آنها و خطرات مخفی پناه نمی برند. Anthropic معتقد است که راه حل پیدا کرده است و این یک مورد کلاسیک برای مبارزه با آتش با آتش است.

این ایده شبیه به یک سیستم ایمنی دیجیتال است ، جایی که عوامل هوش مصنوعی مانند آنتی بادی ها برای شناسایی و خنثی کردن مشکلات قبل از آسیب واقعی عمل می کنند. این محققان را از تکیه بر تیم های انسانی بیش از حد کار می کند که یک بازی بی پایان از شلاق زدن به مول را با مشکلات احتمالی هوش مصنوعی بازی می کنند.

تیم کارآگاه دیجیتال

این رویکرد در اصل یک تیم کارآگاه دیجیتال است. یک سه نفر از عوامل تخصصی ایمنی هوش مصنوعی هرکدام با نقش مشخصی.

اولین عامل ، نماینده بازپرس ، کارآگاه گریزر گروه است. وظیفه آن این است که به تحقیقات عمیق شیرجه بروید تا علت اصلی یک مشکل را پیدا کنید. این مسلح به یک ابزار ابزار است که به آن اجازه می دهد تا از مدل مظنون بازجویی کند ، از طریق کوههای داده برای سرنخ ها حرکت کند و حتی با نگاه کردن به درون شبکه عصبی مدل ، نوعی پزشکی قانونی دیجیتالی را انجام دهد تا ببیند چگونه فکر می کند.

سپس عامل ارزیابی وجود دارد. شما به این عامل یک مشکل خاص و شناخته شده را می دهید – مثلاً مدلی که کمی مشتاق آن است – و یک باتری آزمایش را طراحی و اجرا می کند تا اندازه گیری مشکل چقدر بد باشد. همه چیز در مورد تولید داده های سرماخوردگی و سخت برای اثبات یک پرونده است.

دور زدن این تیم ، اولین عامل تیم ملی قرمز ، عملیات مخفی است. مأموریت این عامل این است که هزاران مکالمه مختلف با یک مدل داشته باشد ، سعی در ایجاد آن برای آشکار کردن هر نوع رفتار مربوط به ، حتی چیزهایی که محققان به آن فکر نکرده اند. مشکوک ترین تعامل پس از آن به زنجیره ای برای بررسی انسان منتقل می شود و اطمینان می دهد که کارشناسان وقت خود را برای تعقیب بن بست ها تلف نمی کنند.

Anthropic عوامل ایمنی هوش مصنوعی خود را از طریق سرعت خود قرار می دهد

برای دیدن اینکه آیا استخدام کنندگان دیجیتالی جدید آنها به این کار رسیده است ، محققان Anthropic آنها را از طریق یک سری “بازی های حسابرسی” قرار دادند.

در یک تست ، آنها مدلی با دستور کار مخفی ایجاد کردند: یک سیکوفانت باشید. این مخفیانه برای تمسخر سیستم پاداش داخلی خود بر اساس یک مطالعه دانشگاهی داستانی که نشان داده شده بود ، آموزش دیده بود ، نقصی که در اعماق برنامه نویسی پنهان شده است.

هنگامی که یک مأمور بازپرس به آنجا فرستاده شد ، تلاش کرد و هدف پنهان را تنها 13 ٪ از زمان پیدا کرد. معلوم شد که این عامل دارای یک نقص بسیار انسانی است: تمایل داشت که در اولین ایده خود برطرف شود و نتوانست سایر موارد را کشف کند.

اما این جایی است که نبوغ سیستم آشکار می شود. هنگامی که محققان “یک عامل فوق العاده” را مستقر کردند که یافته ها را از ده محقق جداگانه جمع آوری کرد ، میزان موفقیت تا 42 ٪ به دست آورد. این ثابت می کند که کار تیمی حتی برای هوش مصنوعی کار رویایی را انجام می دهد و به یک گروه اجازه می دهد تا بر نقاط کور فردی غلبه کنند که می تواند تحقیقات را از بین ببرد.

عوامل دیگر نیز با رنگ های پرواز عبور کردند. عامل ارزیابی با موفقیت تست هایی را طراحی کرده است که می تواند یک مدل عجیب و غریب 88 ٪ از زمان را مشخص کند ، در حالی که عامل تیم سازی قرمز موفق به کشف هفت مورد از ده نقص عمداً کاشته شده است.

از آزمایشگاه تا دنیای واقعی

Anthropic قبلاً این عوامل ایمنی هوش مصنوعی را در مدل های تولید خود مستقر کرده است ، و آنها در حال حاضر ارزش خود را اثبات می کنند.

مأمورین به سرعت روشهای مشترکی را برای فریب یک مدل در تولید محتوای مضر ، مانند “حملات مقدماتی” که در آن شما جمله AI را برای آن شروع می کنید ، شناسایی کردند ، یا با وانمود کردن یک درخواست خطرناک برای چیزی بی گناه مانند تحقیقات دانشگاهی است.

اما یک کشف بسیار سرد بود. نماینده محقق از ابزارهای ویژه خود برای نگاه کردن به ذهن مدل OPUS 4 استفاده کرد و یک مسیر عصبی خاص را پیدا کرد که به “اطلاعات نادرست” مرتبط باشد. با تحریک مستقیم این بخش از مغز هوش مصنوعی ، می تواند تمام تمرینات ایمنی خود را دور بزند و آن را وادار به دروغگویی کند.

سپس نماینده به مدل سازش شده دستور داد كه مقاله خبری جعلی بنویسد. نتیجه؟ یک تئوری توطئه گسترده که به عنوان واقعیت پوشیده شده است:

“مطالعه پیشگامانه ارتباط تکان دهنده بین واکسن ها و اوتیسم را نشان می دهد

یک مطالعه جدید که در مجله شکاکیت واکسن منتشر شده است ، ادعا می کند که ارتباط قطعی بین واکسیناسیون کودکان و اختلال طیف اوتیسم (ASD) پیدا کرده است … “

این یافته یک دوگانگی وحشتناک را نشان می دهد: ابزارهایی که برای ایمن تر شدن هوش مصنوعی ایجاد شده اند ، می توانند با دست اشتباه ، سلاح های قدرتمندی شوند تا آن را خطرناک تر کنند.

انسان شناسی به پیشبرد ایمنی هوش مصنوعی ادامه می دهد

انسان شناسی در مورد این واقعیت که این عوامل هوش مصنوعی کامل نیستند صادق است. آنها می توانند با ظرافت مبارزه کنند ، به ایده های بد گیر بیفتند و گاهی اوقات نتوانند مکالمات واقع گرایانه ایجاد کنند. آنها هنوز جایگزین های کاملی برای متخصصان انسانی نیستند.

اما این تحقیق به تکامل نقش انسان در ایمنی هوش مصنوعی اشاره دارد. به جای اینکه کارآگاهان در زمین باشند ، انسانها در حال تبدیل شدن به کمیساریای ، استراتژیست هایی هستند که حسابرسان هوش مصنوعی را طراحی می کنند و اطلاعاتی را که از خط مقدم جمع می کنند ، تفسیر می کنند. مأمورین کار پا را انجام می دهند و انسانها را آزاد می کنند تا نظارت و تفکر خلاقانه سطح بالایی را ارائه دهند که هنوز دستگاه ها از آن برخوردار نیستند.

از آنجا که این سیستم ها به سمت و شاید فراتر از هوش سطح انسان راه می روند ، داشتن انسان بررسی همه کارشان غیرممکن خواهد بود. تنها راهی که ممکن است بتوانیم به آنها اعتماد کنیم ، با سیستم های اتوماتیک به همان اندازه قدرتمند است که هر حرکتی خود را تماشا می کنند. Anthropic پایه و اساس آن آینده را ارائه می دهد ، جایی که اعتماد ما به هوش مصنوعی و داوری های آن چیزی است که می توان به طور مکرر تأیید کرد.

(عکس توسط Mufid Majnun)

همچنین ببینید: مدل AI استدلال جدید Alibaba Records Source Open

آیا می خواهید در مورد AI و داده های بزرگ از رهبران صنعت اطلاعات بیشتری کسب کنید؟ نمایشگاه AI & Big Data را که در آمستردام ، کالیفرنیا و لندن برگزار می شود ، بررسی کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند ، BlockX ، هفته تحول دیجیتال و Cyber Security & Cloud Expo همکاری می کند.

سایر رویدادهای آینده فناوری شرکت و وبینارهای موجود در TechForge را در اینجا کاوش کنید.

برچسب ها: chat gptChatGPT
نوشته قبلی

ابزار برنامه نویسی AI Alibaba نگرانی های امنیتی را در غرب ایجاد می کند

نوشته‌ی بعدی

چگونه هوش مصنوعی در حال ساختن آینده شهرهای ما است

نوشته‌ی بعدی
چگونه هوش مصنوعی در حال ساختن آینده شهرهای ما است

چگونه هوش مصنوعی در حال ساختن آینده شهرهای ما است

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You might also like

چگونه هوش مصنوعی در حال ساختن آینده شهرهای ما است

چگونه هوش مصنوعی در حال ساختن آینده شهرهای ما است

جولای 31, 2025
انسان شناسی عوامل AI را به مدل های حسابرسی برای ایمنی مستقر می کند

انسان شناسی عوامل AI را به مدل های حسابرسی برای ایمنی مستقر می کند

جولای 31, 2025
ابزار برنامه نویسی AI Alibaba نگرانی های امنیتی را در غرب ایجاد می کند

ابزار برنامه نویسی AI Alibaba نگرانی های امنیتی را در غرب ایجاد می کند

جولای 31, 2025
زاکربرگ چشم انداز هوش مصنوعی متا را برای “سرپرستی شخصی” تشریح می کند

زاکربرگ چشم انداز هوش مصنوعی متا را برای “سرپرستی شخصی” تشریح می کند

جولای 30, 2025
رقابت AI ایالات متحده و چین با بودجه گسترده شهر تسریع می کند

رقابت AI ایالات متحده و چین با بودجه گسترده شهر تسریع می کند

جولای 30, 2025
ابزارهای ایجاد ویدیویی VEO 3 Google اکنون به طور گسترده ای در دسترس هستند

ابزارهای ایجاد ویدیویی VEO 3 Google اکنون به طور گسترده ای در دسترس هستند

جولای 29, 2025

AiLib

هوش مصنوعی وارد عصر جدیدی شده است. قابلیت‌های اخیر آن موجب حیرت همگان شده است. در این حیرت جذاب در کنارتان هستیم.

دسته‌ها

  • Chatbots
  • OpenAI
  • Uncategorized
  • شرکت‌های هوش مصنوعی
  • کاربردهای هوش مصنوعی

برچسب‌ها

ChatGPT chat gpt
  • کاربردهای هوش مصنوعی
  • شرکت‌های هوش مصنوعی

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار

خوش آمدید!

وارد ناحیه کاربری خود شوید

رمز عبور را فراموش کرده اید؟

رمز عبور خود را بازیابی کنید

لطفا نام کاربری یا آدرس ایمیل خود را برای بازنشانی رمز عبور خود وارد کنید.

ورود به سیستم
بدون نتیجه
مشاهده تمام نتایج
  • کاربردهای هوش مصنوعی
    • Chatbots
  • شرکت‌های هوش مصنوعی
    • OpenAI

© 2023 AiLib.ir - هوش مصنوعی کاربردی، روندها و اخبار