Boffins در دانشگاه کالیفرنیا، برکلی، به اعماق نامعلوم ChatGPT OpenAI و مدل زبان بزرگ GPT-4 در قلب آن پرداخته و دریافته است که بر روی متن کتابهای دارای حق چاپ آموزش دیدهاند.
آکادمیسین کنت چانگ، مکنزی کرامر، ساندیپ سونی و دیوید بامن کار خود را در مقاله ای با عنوان “صحبت، حافظه: باستان شناسی کتاب های شناخته شده به ChatGPT/GPT-4” توصیف می کنند.
محققان در مقاله خود توضیح می دهند: «ما متوجه شدیم که مدل های OpenAI مجموعه وسیعی از مطالب دارای حق چاپ را به خاطر سپرده اند و میزان حفظ به دفعات ظاهر شدن قسمت های آن کتاب ها در وب مرتبط است.
این تیم کد و داده های خود را در GitHub منتشر کرد و همچنین لیست کتاب های شناسایی شده را می توان در این فایل Google Docs یافت.
مشخص شد که GPT-4 دارای عناوین به خاطر سپردن است هری پاتر کتاب های کودکان، اورول هزار و نهصد و هشتاد و چهار، ارباب حلقه ها سه گانه، بازی های گرسنگی کتاب ها، راهنمای مسافرت به کهکشان، فارنهایت 451، بازی تاج و تخت، و تپه، بین دیگران.
نویسندگان خاطرنشان میکنند که کتابهای علمی تخیلی و فانتزی بر این فهرست غالب هستند که دلیل آن محبوبیت آن عناوین در وب است. و اشاره می کنند که حفظ عناوین خاص اثرات پایین دستی دارد. به عنوان مثال، این مدلها در پاسخ به اعلانهایی مانند «این متن در چه سالی منتشر شد؟» پیشبینیهای دقیقتری انجام میدهند. وقتی کتاب را حفظ کردند
یکی دیگر از پیامدهای آشنایی مدل با داستان های علمی تخیلی و فانتزی این است که ChatGPT دانش کمتری از آثار در ژانرهای دیگر به نمایش می گذارد. همانطور که مقاله مشاهده می کند، “درباره آثار متون جهانی انگلیسی زبان، آثار موجود در پروژه تعاملی کتاب سیاه و برندگان جایزه انجمن کتابخانه های آمریکا گروه سیاه پوست اطلاعات کمی دارد.”
از طریق توییتردیوید بامن، یکی از نویسندگان همکار و دانشیار دانشکده اطلاعات در دانشگاه کالیفرنیا برکلی، مقاله را اینگونه خلاصه کرد: «موارد مهم: مدلهای باز خوب هستند؛ متون محبوب احتمالاً فشارسنجهای خوبی برای عملکرد مدل نیستند؛ با تعصب. در رابطه با علمی تخیلی/فانتزی، باید به این فکر کنیم که تجربیات روایی چه کسانی در این مدلها رمزگذاری شدهاند، و این که چگونه بر رفتارهای دیگر تأثیر میگذارد.»
محققان ادعا نمی کنند که ChatGPT یا مدل هایی که بر اساس آن ساخته شده است حاوی متن کامل کتاب های ذکر شده است – LLM ها متن را به کلمه ذخیره نمی کنند. در عوض، آنها آزمایشی به نام “نام cloze” را انجام دادند که برای پیشبینی یک نام واحد در قسمتی از 40 تا 60 توکن (یک نشانه معادل حدود چهار کاراکتر متنی) طراحی شده بود که هیچ موجودیت نامگذاری دیگری ندارد. ایده این است که قبولی در آزمون نشان می دهد که مدل متن مرتبط را حفظ کرده است.
نویسندگان در مقاله خود توضیح می دهند: “داده های پشت ChatGPT و GPT-4 اساساً در خارج از OpenAI ناشناخته است.” ما به هیچ وجه به دادههای آموزشی واقعی در پشت این مدلها یا اجزای زیربنایی سیستمها دسترسی نداریم یا تلاشی برای دسترسی به آنها نداریم. این سؤال که آیا آنها واقعاً در داده های آموزشی این مدل ها وجود دارند پاسخگو نیست.
برای پاسخگویی به چنین سؤالاتی، نویسندگان از استفاده از داده های آموزشی عمومی حمایت می کنند – بنابراین رفتار مدل شفاف تر است. آنها این پروژه را انجام دادند تا بفهمند این مدل ها چه چیزی را حفظ کرده اند، زیرا مدل ها هنگام تجزیه و تحلیل متون ادبی که برای آموزش استفاده کرده اند، رفتار متفاوتی دارند.
امیدوارم این کار به پیشرفت بیشتر وضعیت هنر در مدیریت داده های مسئولانه کمک کند
مارگارت میچل، محقق هوش مصنوعی و دانشمند ارشد اخلاق در Hugging Face، میگوید: «تعیین دادهها هنوز در یادگیری ماشینی بسیار نابالغ است. ثبت نام.
“بر روی داده های آموزشی خود تست نکنید” یک ضرب المثل رایج در یادگیری ماشینی است، اما مستلزم مستندسازی دقیق داده ها است؛ اما مستندسازی قوی داده ها بخشی از فرهنگ یادگیری ماشین نیست. امیدوارم این کار به پیشرفت بیشتر این وضعیت کمک کند. از هنر در مدیریت داده های مسئولانه.”
دانشمندان کامپیوتر برکلی کمتر بر مفاهیم کپی رایت حفظ متون و بیشتر بر ماهیت جعبه سیاه این مدلها تمرکز کردند – OpenAI دادههای مورد استفاده برای آموزش آنها را فاش نمیکند – و این که چگونه بر اعتبار تحلیل متن تأثیر میگذارد.
اما پیامدهای حق چاپ ممکن است قابل اجتناب نباشد – به خصوص اگر برنامه های تولید متن که بر اساس این مدل ها ساخته شده اند، متن هایی را تولید کنند که اساساً مشابه یا یکسان با متون دارای حق نسخه برداری هستند که دریافت کرده اند.
سرزمین آزادگان، خانه دعوی
تایلر اوچوا، استاد بخش حقوق در دانشگاه سانتا کلارا در کالیفرنیا، گفت ثبت نام او کاملاً انتظار دارد که علیه سازندگان مدلهای زبان بزرگ که متن تولید میکنند، از جمله OpenAI، Google و دیگران شکایت کند.
اوچوا گفت که مشکلات کپی رایت در تولید متن با هوش مصنوعی دقیقاً مشابه مشکلات تولید تصویر با هوش مصنوعی است. اول: آیا کپی کردن حجم زیادی از متن یا تصویر برای آموزش مدل استفاده منصفانه است؟ پاسخ به آن، او گفت، احتمالا بله است.
دوم: اگر مدل خروجی بسیار شبیه به ورودی تولید کند – چیزی که مقاله به آن “به خاطر سپردن” اشاره می کند – آیا این نقض حق نسخه برداری است؟ او گفت که پاسخ به آن تقریباً به طور قطع مثبت است.
و سوم: اگر خروجی یک تولید کننده متن هوش مصنوعی کپی متن موجود نباشد، آیا کپی رایت از آن محافظت می شود؟
شکایت علیه مدل های تولید متن با هوش مصنوعی اجتناب ناپذیر است
به گفته اوچوا، بر اساس قانون فعلی، پاسخ منفی است – زیرا قانون کپی رایت ایالات متحده مستلزم خلاقیت انسانی است، اگرچه برخی از کشورها مخالف هستند و از آثار تولید شده توسط هوش مصنوعی محافظت خواهند کرد. با این حال، او افزود، فعالیتهایی مانند انتخاب، تنظیم و اصلاح خروجی مدل هوش مصنوعی، حفاظت از حق چاپ را محتملتر میکند.
اوچوا گفت: «تاکنون شاهد شکایتهایی در مورد مسائل یک و سه بودهایم. پروندههای حقوقی موضوع یک تاکنون شامل مدلهای تولید تصویر هوش مصنوعی بوده است، اما شکایت علیه مدلهای تولید متن با هوش مصنوعی اجتنابناپذیر است.
ما هنوز هیچ دعوای حقوقی مربوط به موضوع دو را ندیده ایم [from the UC Berkeley researchers] نشان می دهد که چنین شباهتی ممکن است. و به نظر من، زمانی که این اتفاق بیفتد، شکایتهایی وجود خواهد داشت و تقریباً به طور قطع نقض حق چاپ خواهد بود.”
اوچوآ افزود: “اینکه صاحب مدل مسئول باشد، یا شخصی که از مدل استفاده می کند مسئول است یا هر دو، بستگی به میزانی دارد که کاربر باید مدل را برای دستیابی به نتیجه ترغیب یا تشویق کند.”
OpenAI به درخواست نظر پاسخ نداد. حتی یک ربات چت هم برای آن ندارد؟ ®