ChatGPT OpenAI ممکن است پس از "به خاطر سپردن" این کتاب ها با باتلاق حق نسخه برداری مواجه شود • The Register

Boffins در دانشگاه کالیفرنیا، برکلی، به اعماق نامعلوم ChatGPT OpenAI و مدل زبان بزرگ GPT-4 در قلب آن پرداخته و دریافته است که بر روی متن کتاب‌های دارای حق چاپ آموزش دیده‌اند.

آکادمیسین کنت چانگ، مکنزی کرامر، ساندیپ سونی و دیوید بامن کار خود را در مقاله ای با عنوان “صحبت، حافظه: باستان شناسی کتاب های شناخته شده به ChatGPT/GPT-4” توصیف می کنند.

محققان در مقاله خود توضیح می دهند: «ما متوجه شدیم که مدل های OpenAI مجموعه وسیعی از مطالب دارای حق چاپ را به خاطر سپرده اند و میزان حفظ به دفعات ظاهر شدن قسمت های آن کتاب ها در وب مرتبط است.

این تیم کد و داده های خود را در GitHub منتشر کرد و همچنین لیست کتاب های شناسایی شده را می توان در این فایل Google Docs یافت.

مشخص شد که GPT-4 دارای عناوین به خاطر سپردن است هری پاتر کتاب های کودکان، اورول هزار و نهصد و هشتاد و چهار، ارباب حلقه ها سه گانه، بازی های گرسنگی کتاب ها، راهنمای مسافرت به کهکشان، فارنهایت 451، بازی تاج و تخت، و تپه، بین دیگران.

نویسندگان خاطرنشان می‌کنند که کتاب‌های علمی تخیلی و فانتزی بر این فهرست غالب هستند که دلیل آن محبوبیت آن عناوین در وب است. و اشاره می کنند که حفظ عناوین خاص اثرات پایین دستی دارد. به عنوان مثال، این مدل‌ها در پاسخ به اعلان‌هایی مانند «این متن در چه سالی منتشر شد؟» پیش‌بینی‌های دقیق‌تری انجام می‌دهند. وقتی کتاب را حفظ کردند

یکی دیگر از پیامدهای آشنایی مدل با داستان های علمی تخیلی و فانتزی این است که ChatGPT دانش کمتری از آثار در ژانرهای دیگر به نمایش می گذارد. همانطور که مقاله مشاهده می کند، “درباره آثار متون جهانی انگلیسی زبان، آثار موجود در پروژه تعاملی کتاب سیاه و برندگان جایزه انجمن کتابخانه های آمریکا گروه سیاه پوست اطلاعات کمی دارد.”

از طریق توییتردیوید بامن، یکی از نویسندگان همکار و دانشیار دانشکده اطلاعات در دانشگاه کالیفرنیا برکلی، مقاله را اینگونه خلاصه کرد: «موارد مهم: مدل‌های باز خوب هستند؛ متون محبوب احتمالاً فشارسنج‌های خوبی برای عملکرد مدل نیستند؛ با تعصب. در رابطه با علمی تخیلی/فانتزی، باید به این فکر کنیم که تجربیات روایی چه کسانی در این مدل‌ها رمزگذاری شده‌اند، و این که چگونه بر رفتارهای دیگر تأثیر می‌گذارد.»

محققان ادعا نمی کنند که ChatGPT یا مدل هایی که بر اساس آن ساخته شده است حاوی متن کامل کتاب های ذکر شده است – LLM ها متن را به کلمه ذخیره نمی کنند. در عوض، آنها آزمایشی به نام “نام cloze” را انجام دادند که برای پیش‌بینی یک نام واحد در قسمتی از 40 تا 60 توکن (یک نشانه معادل حدود چهار کاراکتر متنی) طراحی شده بود که هیچ موجودیت نامگذاری دیگری ندارد. ایده این است که قبولی در آزمون نشان می دهد که مدل متن مرتبط را حفظ کرده است.

نویسندگان در مقاله خود توضیح می دهند: “داده های پشت ChatGPT و GPT-4 اساساً در خارج از OpenAI ناشناخته است.” ما به هیچ وجه به داده‌های آموزشی واقعی در پشت این مدل‌ها یا اجزای زیربنایی سیستم‌ها دسترسی نداریم یا تلاشی برای دسترسی به آنها نداریم. این سؤال که آیا آنها واقعاً در داده های آموزشی این مدل ها وجود دارند پاسخگو نیست.

برای پاسخگویی به چنین سؤالاتی، نویسندگان از استفاده از داده های آموزشی عمومی حمایت می کنند – بنابراین رفتار مدل شفاف تر است. آنها این پروژه را انجام دادند تا بفهمند این مدل ها چه چیزی را حفظ کرده اند، زیرا مدل ها هنگام تجزیه و تحلیل متون ادبی که برای آموزش استفاده کرده اند، رفتار متفاوتی دارند.

امیدوارم این کار به پیشرفت بیشتر وضعیت هنر در مدیریت داده های مسئولانه کمک کند

مارگارت میچل، محقق هوش مصنوعی و دانشمند ارشد اخلاق در Hugging Face، می‌گوید: «تعیین داده‌ها هنوز در یادگیری ماشینی بسیار نابالغ است. ثبت نام.

“بر روی داده های آموزشی خود تست نکنید” یک ضرب المثل رایج در یادگیری ماشینی است، اما مستلزم مستندسازی دقیق داده ها است؛ اما مستندسازی قوی داده ها بخشی از فرهنگ یادگیری ماشین نیست. امیدوارم این کار به پیشرفت بیشتر این وضعیت کمک کند. از هنر در مدیریت داده های مسئولانه.”

دانشمندان کامپیوتر برکلی کمتر بر مفاهیم کپی رایت حفظ متون و بیشتر بر ماهیت جعبه سیاه این مدل‌ها تمرکز کردند – OpenAI داده‌های مورد استفاده برای آموزش آنها را فاش نمی‌کند – و این که چگونه بر اعتبار تحلیل متن تأثیر می‌گذارد.

اما پیامدهای حق چاپ ممکن است قابل اجتناب نباشد – به خصوص اگر برنامه های تولید متن که بر اساس این مدل ها ساخته شده اند، متن هایی را تولید کنند که اساساً مشابه یا یکسان با متون دارای حق نسخه برداری هستند که دریافت کرده اند.

سرزمین آزادگان، خانه دعوی

تایلر اوچوا، استاد بخش حقوق در دانشگاه سانتا کلارا در کالیفرنیا، گفت ثبت نام او کاملاً انتظار دارد که علیه سازندگان مدل‌های زبان بزرگ که متن تولید می‌کنند، از جمله OpenAI، Google و دیگران شکایت کند.

اوچوا گفت که مشکلات کپی رایت در تولید متن با هوش مصنوعی دقیقاً مشابه مشکلات تولید تصویر با هوش مصنوعی است. اول: آیا کپی کردن حجم زیادی از متن یا تصویر برای آموزش مدل استفاده منصفانه است؟ پاسخ به آن، او گفت، احتمالا بله است.

دوم: اگر مدل خروجی بسیار شبیه به ورودی تولید کند – چیزی که مقاله به آن “به خاطر سپردن” اشاره می کند – آیا این نقض حق نسخه برداری است؟ او گفت که پاسخ به آن تقریباً به طور قطع مثبت است.

و سوم: اگر خروجی یک تولید کننده متن هوش مصنوعی کپی متن موجود نباشد، آیا کپی رایت از آن محافظت می شود؟

شکایت علیه مدل های تولید متن با هوش مصنوعی اجتناب ناپذیر است

به گفته اوچوا، بر اساس قانون فعلی، پاسخ منفی است – زیرا قانون کپی رایت ایالات متحده مستلزم خلاقیت انسانی است، اگرچه برخی از کشورها مخالف هستند و از آثار تولید شده توسط هوش مصنوعی محافظت خواهند کرد. با این حال، او افزود، فعالیت‌هایی مانند انتخاب، تنظیم و اصلاح خروجی مدل هوش مصنوعی، حفاظت از حق چاپ را محتمل‌تر می‌کند.

اوچوا گفت: «تاکنون شاهد شکایت‌هایی در مورد مسائل یک و سه بوده‌ایم. پرونده‌های حقوقی موضوع یک تاکنون شامل مدل‌های تولید تصویر هوش مصنوعی بوده است، اما شکایت علیه مدل‌های تولید متن با هوش مصنوعی اجتناب‌ناپذیر است.

ما هنوز هیچ دعوای حقوقی مربوط به موضوع دو را ندیده ایم [from the UC Berkeley researchers] نشان می دهد که چنین شباهتی ممکن است. و به نظر من، زمانی که این اتفاق بیفتد، شکایت‌هایی وجود خواهد داشت و تقریباً به طور قطع نقض حق چاپ خواهد بود.”

اوچوآ افزود: “اینکه صاحب مدل مسئول باشد، یا شخصی که از مدل استفاده می کند مسئول است یا هر دو، بستگی به میزانی دارد که کاربر باید مدل را برای دستیابی به نتیجه ترغیب یا تشویق کند.”

OpenAI به درخواست نظر پاسخ نداد. حتی یک ربات چت هم برای آن ندارد؟ ®

برچسب ها: chat gpt ChatGPT

ChatGPT OpenAI ممکن است پس از “به خاطر سپردن” این کتاب ها با باتلاق حق نسخه برداری مواجه شود • The Register

Zillow پلاگین ChatGPT را برای جستجوی املاک می سازد

ChatGPT به Kinetica یک رابط زبان طبیعی برای پایگاه داده تجزیه و تحلیل سریع می دهد

ChatGPT به Kinetica یک رابط زبان طبیعی برای پایگاه داده تجزیه و تحلیل سریع می دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

چرا معامله اوراکل-اوپنای با تعجب وال استریت را گرفتار کرد

Google یک “بازیگر بد” است که می گوید مدیرعامل مردم ، این شرکت را به سرقت محتوا متهم می کند

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

ChatGPT OpenAI ممکن است پس از “به خاطر سپردن” این کتاب ها با باتلاق حق نسخه برداری مواجه شود • The Register

سرزمین آزادگان، خانه دعوی

Zillow پلاگین ChatGPT را برای جستجوی املاک می سازد

ChatGPT به Kinetica یک رابط زبان طبیعی برای پایگاه داده تجزیه و تحلیل سریع می دهد

ChatGPT به Kinetica یک رابط زبان طبیعی برای پایگاه داده تجزیه و تحلیل سریع می دهد

دیدگاهتان را بنویسید لغو پاسخ

You might also like

بنا بر گزارش ها ، XAI 500 کارگر را از تیم حاشیه نویسی داده رها می کند

قانونگذاران کالیفرنیا از بیل SB 53 ایمنی AI عبور می کنند – اما Newsom هنوز هم می تواند حق وتو کند

Micro1 ، یک رقیب در مقیاس هوش مصنوعی ، بودجه 500 میلیون دلار را جمع می کند

چرا معامله اوراکل-اوپنای با تعجب وال استریت را گرفتار کرد

Google یک “بازیگر بد” است که می گوید مدیرعامل مردم ، این شرکت را به سرقت محتوا متهم می کند

Yext Scout مارک ها را از طریق چالش های جستجوی هوش مصنوعی راهنمایی می کند

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید