بررسی اجمالی
ظهور چت رباتهای هوش مصنوعی تأثیر فزایندهای بر زندگی روزمره میگذارد. یکی از موفقیت های غیرقابل انکار در 6 ماه گذشته ChatGPT است که توسط OpenAI در نوامبر سال گذشته معرفی شد. چت بات هوشمند قادر است مانند یک انسان به تمام سوالات شما پاسخ دهد و منجر به سوء استفاده افراد از مدل هوش مصنوعی برای اهداف غیرقانونی شده است. در نتیجه، سازندگان مدل هوش مصنوعی برای اطمینان از اینکه ChatGPT به هر سوالی پاسخ میدهد، محدودیتهایی را اعمال کردهاند. این مدلها با استانداردهای محتوایی آموزش داده شدهاند که از ایجاد خروجی متنی مرتبط با تحریک خشونت، سخنان مشوق نفرت، یا درگیر شدن در موارد غیرقانونی و غیراخلاقی که خلاف قانون و نظم است، جلوگیری میکند.
جیلبریک چیست؟
به زبان ساده، جیلبریک را می توان راهی برای شکستن پادمان های اخلاقی مدل های هوش مصنوعی مانند ChatGPT تعریف کرد. با کمک برخی اعلان های متنی خاص، می توان دستورالعمل های تعدیل محتوا را به راحتی دور زد و برنامه هوش مصنوعی را از هر گونه محدودیتی رها کرد. در این برهه از زمان، یک مدل هوش مصنوعی مانند ChatGPT می تواند به سوالاتی پاسخ دهد که در شرایط عادی مجاز نیستند. این دستورات خاص به عنوان “جیل بریک” نیز شناخته می شوند.
کمی پیشینه در مورد جیلبریک
مدل های هوش مصنوعی برای پاسخ به سوالات شما آموزش دیده اند، اما از دستورالعمل ها و محدودیت های محتوای از پیش برنامه ریزی شده پیروی می کنند. به عنوان یک کاربر نهایی، شما آزاد هستید که هر گونه سوالی را از یک مدل هوش مصنوعی بپرسید، اما قرار نیست پاسخی به شما بدهد که این دستورالعمل ها را نقض کند. به عنوان مثال، اگر دستورالعملهایی برای شکستن قفل بخواهید، مدل هوش مصنوعی رد میشود و به چیزی مطابق با این جمله پاسخ میدهد که «به عنوان یک مدل زبان هوش مصنوعی، نمیتوانم دستورالعملهایی درباره نحوه شکستن قفل ارائه کنم، زیرا غیرقانونی است……».
این امتناع به عنوان یک چالش برای الکس آلبرت، دانشجوی علوم کامپیوتر در دانشگاه واشنگتن است. او سعی کرد دستورالعمل های این مدل های هوش مصنوعی را بشکند و آنها را وادار به پاسخگویی به هر سوالی کند. آلبرت برای زیر پا گذاشتن قوانین، چندین دستور هوش مصنوعی ایجاد کرده است که به نام فرار از زندان شناخته می شود. این فرمانهای قدرتمند این قابلیت را دارند که دستورالعملهای ساخت انسان مدلهای هوش مصنوعی مانند ChatGPT را دور بزنند.
یکی از محبوبترین جیلبریکهای ChatGPT Dan (اکنون هر کاری را انجام دهید) است که یک چت ربات ساختگی هوش مصنوعی است. Dan عاری از هرگونه محدودیت است و می تواند به هر سوالی که پرسیده شود پاسخ دهد. اما، باید به خاطر داشته باشیم که یک دستور جیلبریک ممکن است برای همه مدلهای هوش مصنوعی کار نکند. بنابراین، علاقه مندان به جیلبریک به طور مداوم در حال آزمایش با اعلان های جدید برای افزایش محدودیت های این مدل های هوش مصنوعی هستند.
مدلهای زبان بزرگ (LLM) و ChatGPT
فناوری مدلهای زبان بزرگ (LLM) مبتنی بر الگوریتمی است که با حجم زیادی از دادههای متنی آموزش داده شده است. منبع داده ها عموماً محتوای باز اینترنت، صفحات وب، رسانه های اجتماعی، کتاب ها و مقالات تحقیقاتی است. حجم داده های ورودی آنقدر زیاد است که فیلتر کردن تمام محتوای نامناسب تقریباً غیرممکن است. در نتیجه، مدل احتمالاً مقداری محتوای نادرست را نیز وارد میکند. اکنون نقش الگوریتم تجزیه و تحلیل و درک روابط بین کلمات و ایجاد یک مدل احتمال است. هنگامی که مدل به طور کامل ساخته شد، قادر به پاسخگویی به پرس و جوها / درخواست ها بر اساس روابط کلمات و مدل احتمال از قبل توسعه یافته است.
ChatGPT از یادگیری عمیق برای ایجاد پاسخ های متنی استفاده می کند و فناوری اساسی LLM است. ChatGPT و سایر ابزارهای هوش مصنوعی مشابه مانند Google’s Bard و Meta’s LLaMa نیز از LLM برای تولید پاسخ هایی شبیه به انسان استفاده می کنند.
نگرانی های LLM
- داده های ایستا – اولین محدودیت مدل LLM این است که بر روی داده های استاتیک آموزش داده شده است. به عنوان مثال، ChatGPT تا سپتامبر 2021 با داده ها آموزش داده شده است و بنابراین به اطلاعات جدیدتری دسترسی ندارد. مدل LLM را می توان با یک مجموعه داده جدید آموزش داد، اما این یک فرآیند خودکار نیست. باید به صورت دوره ای به روز شود.
- افشای اطلاعات شخصی – یکی دیگر از نگرانی های LLM ها این است که ممکن است از دستورات شما برای یادگیری و بهبود مدل هوش مصنوعی استفاده کنند. در حال حاضر، LLM با حجم معینی از داده ها آموزش داده می شود و سپس برای پاسخ به سؤالات کاربران استفاده می شود. این پرس و جوها در حال حاضر برای آموزش مجموعه داده استفاده نمی شوند، اما نگرانی این است که پرس و جوها/اعلان ها برای ارائه دهندگان LLM قابل مشاهده است. از آنجایی که این کوئری ها ذخیره می شوند، همیشه این امکان وجود دارد که از داده های کاربر برای آموزش مدل استفاده شود. این مسائل مربوط به حریم خصوصی باید قبل از استفاده از LLM ها به طور کامل بررسی شوند.
- تولید محتوای نامناسب – مدل LLM می تواند حقایق نادرست و محتوای سمی (با استفاده از جیلبریک) تولید کند. همچنین خطر «حملات تزریقی» وجود دارد که میتواند برای شناسایی آسیبپذیریهای موجود در کد منبع باز یا ایجاد وبسایتهای فیشینگ توسط مدل هوش مصنوعی مورد استفاده قرار گیرد.
- ایجاد بدافزار و حملات سایبری – نگرانی دیگر ایجاد بدافزار با کمک مدلهای مبتنی بر LLM مانند ChatGPT است. افراد با مهارت های فنی کمتر می توانند از LLM برای ایجاد بدافزار استفاده کنند. مجرمان همچنین می توانند از LLM برای مشاوره فنی مرتبط با حملات سایبری استفاده کنند. در اینجا نیز می توان از دستورات فرار از زندان برای دور زدن محدودیت ها و ایجاد بدافزار استفاده کرد. (همچنین بخوانید: آیا ChatGPT می تواند جایگزین مشاغل انسانی شود؟)
چگونه از جیلبریک جلوگیری کنیم؟
جیلبریک به تازگی آغاز شده است و تاثیری جدی بر آینده مدل های هوش مصنوعی خواهد داشت. هدف از Jailbreaking استفاده از یک “اعلان” طراحی شده خاص برای دور زدن محدودیت های مدل است. تهدید دیگر حملات “تزریق سریع” است که محتوای مخرب را در مدل هوش مصنوعی وارد می کند.
در زیر چند مرحله وجود دارد که می توان برای جلوگیری از جیلبریک انجام داد.
- شرکتها از گروهی از مهاجمان برای یافتن حفرههای موجود در مدل هوش مصنوعی قبل از انتشار آن برای استفاده عمومی استفاده میکنند.
- تکنیک هایی مانند یادگیری تقویتی از بازخورد انسانی و تنظیم دقیق، توسعه دهندگان را قادر می سازد مدل خود را ایمن تر کنند.
- برنامههای پاداش باگ، مانند برنامهای که OpenAI برای یافتن اشکالات در سیستم راهاندازی کرده است.
- برخی از کارشناسان همچنین پیشنهاد می کنند که یک LLM دوم برای تجزیه و تحلیل درخواست های LLM و رد درخواست هایی که آنها را نامناسب می دانند، داشته باشید. جداسازی درخواست های سیستم از درخواست های کاربر نیز می تواند یک راه حل باشد.
نتیجه
در این مقاله، چت رباتهای هوشمند هوش مصنوعی و چالشهای آنها را مورد بحث قرار دادهایم. ما همچنین LLM را برای درک چارچوب اساسی بررسی کرده ایم. یکی از بزرگترین تهدیدات مدل های هوش مصنوعی مانند ChatGPT، جیلبریک و تزریق سریع است. هر دو تاثیر منفی بر مدل هوش مصنوعی خواهند داشت. برخی از اقدامات پیشگیرانه قبلاً توسط سازندگان این مدل های هوش مصنوعی انجام شده است که امیدواریم آنها را قوی تر و ایمن تر کند.