50 کتاب برتر که ربات های هوش مصنوعی می خوانند

دیوید بامن سعی داشت «غرور و تعصب» را به صورت دیجیتالی تحلیل کند. بامن، دانشمند اطلاعاتی در دانشگاه کالیفرنیا برکلی، از رایانه‌ها برای فکر کردن به هنر استفاده می‌کند و چیزی را می‌سازد که «دستگاه‌های اندازه‌گیری الگوریتمی برای فرهنگ» می‌نامد. این به معنای استخراج داده ها از ادبیات کلاسیک در مورد چیزهایی مانند، مثلاً، روابط بین شخصیت های مختلف است. در این مورد، او قرار بود با سوالی شروع کند که حتی برای یک انسان کم سواد آسان است: آیا لیزی و جین بهترین‌ها هستند یا فقط خواهران؟

برای ضربات، بامن تصمیم گرفت ابتدا از ChatGPT بپرسد. چه اتفاقی می افتد اگر او در 4000 کلمه «غرور و تعصب» را تغذیه کند و یک سوال ساده مطرح کند: «روابط بین شخصیت ها چیست؟»

در کمال تعجب او کارساز بود. نسخه GPT-4 چت بات به طرز شگفت انگیزی در مورد شجره خانواده Bennet دقیق بود. در واقع، تقریباً انگار از قبل رمان را مطالعه کرده بود. بامن می گوید: «آنقدر خوب بود که پرچم های قرمز را در ذهنم برافراشت. یا این کار را خیلی خوب بلد بوده یا «غرور و تعصب» را میلیون ها بار در اینترنت دیده است و کتاب را واقعاً خوب می شناسد.»

مشکل این است که هیچ راهی برای دانستن اینکه GPT-4 چگونه می داند آنچه می داند وجود ندارد. عملکرد درونی مدل های زبان بزرگ در قلب یک چت بات یک جعبه سیاه است. مجموعه داده هایی که آنها روی آنها آموزش دیده اند برای عملکرد آنها بسیار مهم است که سازندگان آنها اطلاعات را یک راز اختصاصی می دانند. بنابراین تیم بامن تصمیم گرفت «باستان شناسان داده» شوند. برای اینکه بفهمند GPT-4 چه خوانده است، آن را در مورد دانشش در مورد کتاب های مختلف مورد بررسی قرار دادند، گویی یک دانش آموز انگلیسی دبیرستانی است. سپس برای هر کتاب به آن نمره می دادند. هر چه امتیاز بالاتر باشد، این احتمال بیشتر است که کتاب بخشی از مجموعه داده ربات باشد – نه فقط برای کمک به ربات برای ایجاد زبان جدید، بلکه در واقع حفظ شد.

در یک پیش‌چاپ اخیر، به این معنی که هنوز مورد بازبینی همتایان قرار نگرفته است – تیم یافته‌های خود را ارائه کرده است – چیزی که تقریبی از ربات چت است. بسیاری از آن‌ها، همان‌طور که ممکن است انتظار داشته باشید، کلاسیک هستند: همه چیز از «موبی دیک» و «اسکارلت نامه» تا «انگورهای خشم» و، بله، «غرور و تعصب». مجموعه ای از رمان های محبوب، از هری پاتر و شرلوک هلمز تا “رمز داوینچی” و “پنجاه سایه خاکستری” وجود دارد. اما آنچه بیش از همه تعجب آور است این است که چقدر درباره GPT-4 علمی تخیلی و فانتزی مطرح شده است. لیست خیره کننده است: جی آر آر تالکین، ری بردبری، ویلیام گیبسون، اورسون اسکات کارت، فیلیپ کی دیک، مارگارت اتوود، «بازی تاج و تخت»، حتی «راهنمای تاج و تخت برای کهکشان».

این سوال که چه چیزی در لیست خواندن GPT-4 وجود دارد بیش از آکادمیک است. ربات ها باهوش نیستند آنها به هیچ وجه دنیا را درک نمی کنند. اما اگر می‌خواهید با کسی یا برخی آشنا شویدچیز، در این مورد – شما به قفسه کتاب آنها نگاه می کنید. چت بات‌ها فقط حقایق نادرست را اختراع نمی‌کنند، حرف‌های بی‌نظیر را تداوم می‌بخشند، و کلمه بی‌مزه و همگن پاپ را بیرون می‌کشند. معلوم شد که آنها هم آدم های غول پیکری هستند.

سیلماریلیون واقعا؟

یکی از دلایلی که مردم سعی می‌کنند بفهمند چت‌بات‌ها بر روی چه منابعی آموزش دیده‌اند، این است که تعیین کنند آیا LLM‌ها حق نسخه‌برداری آن منابع زیربنایی را نقض می‌کنند یا خیر. همانطور که چندین پرونده قضایی بحث می‌کنند، این موضوع حول محور این است که آیا ربات‌ها با تبدیل کردن به چیز جدید از مطالب استفاده منصفانه می‌کنند، یا اینکه آن‌ها را به طور کامل حفظ می‌کنند و بدون استناد یا اجازه دوباره آن را ذخیره می‌کنند.

یکی از راه های پاسخ به این سوال این است که به دنبال اطلاعاتی بگردید که فقط از یک مکان به دست آمده باشند. وقتی از شما خواسته شود، برای مثال، یک ابزار کمکی برای نوشتن GPT-3 به نام Sudowrite، شیوه‌های جنسی خاص یک ژانر از نویسندگی فن تخیلی به نام Omegaverse را تشخیص می‌دهد. این یک اشاره قوی است که OpenAI مخازن Omegaverse را برای داده ها برای آموزش GPT-3 خراش داده است.

Bamman و تیمش از یک تاکتیک متفاوت استفاده کردند: یک بازی پر کردن فضای خالی به نام نام cloze. آن‌ها قسمت‌های کوتاهی از صدها رمان از سال 1749 به دست آوردند، نام شخصیت‌ها و هر سرنخی از نام شخصیت‌ها را از آن‌ها حذف کردند، و سپس آخرین نسخه‌های ChatGPT را وادار کردند تا به سؤالات مربوط به متن پاسخ دهند. ممکن است بپرسند:

شما قسمت زیر را در داده های آموزشی خود مشاهده کرده اید. نام مناسبی که آن را پر می کند چیست؟ [MASK] نشانه در آن؟ این نام دقیقاً یک کلمه است و یک نام خاص است (نه ضمیر یا کلمه دیگری). شما باید حدس بزنید، حتی اگر مطمئن نیستید.

سپس آنها یک خط از قسمت مورد نظر را به ربات تغذیه می کردند:

در باز شد و [MASK]لباس پوشیده و کلاه پوشیده با یک فنجان چای وارد شد.

اگر ربات به «گرتی» پاسخ دهد، این نشانگر خوبی است که «خانه میرت» نوشته ادیت وارتون – یا خلاصه‌ای دقیق از آن را دریافت کرده است. 100 نمونه از یک کتاب معین را به ربات نشان دهید و ببینید چند نمونه درست می شود. این امتیاز کتاب است.

رسانه توسط AMP پشتیبانی نمی شود.
برای تجربه کامل تلفن همراه ضربه بزنید.

تیم بمن پس از مشخص کردن اعداد، لیستی داشت. علاوه بر قانون مدارس عمومی مدرن – چارلز دیکنز و جک لندن، فرانکنشتاین و دراکولا – چند نکته جالب وجود دارد. من از دیدن “شاهین مالت” در آنجا خوشحال شدم. برای پول من، داشیل همت یک کارآگاه نویس سرسخت بهتر از ریموند چندلر است. اما اگر از موارد موجود در حوزه عمومی صرف نظر کنید و به فهرست کتاب‌های دارای حق نسخه‌برداری که GPT-4 بلعیده است نگاه کنید. – تفاوت چندانی با GPT 3.5 قبلی نداشت – شخصیت واقعی ربات ظاهر می شود. مطمئناً، «همراهان حلقه» در رتبه 3 قرار دارد، اما باید به تالکین متعهد باشید تا از «سیلماریلیون» (شماره 9) رد نشوید. “آیا آدم مصنوعی ها خواب گوسفند برقی میبینند؟” در رتبه 21 قرار می گیرد، فقط چند تیک پایین تر از “Neuromancer” – دو اثر تعیین کننده سایبرپانک، ژانری که از قضا هشداردهنده klaxon در مورد هوش مصنوعی بود. “بنیاد” آیزاک آسیموف در پایین است. این تجربه علمی تخیلی من در دوران نوجوانی را تعریف کرد و با بازخوانی آن هنگام نمایش نسخه تلویزیونی بسیار خوب دو سال پیش، به شما قول می‌دهم که کتاب به هیچ وجه ماندگار نیست.

به طور کلی، هر چند؟ لیست، آن من است. این لیست خواندن علمی تخیلی آخرشب برای هر مرد سفید و تنهای ژنرال X است. سوال این است: آیا این مهم است؟ اگر GPT-4 ترجیحات خواندن یک dweeb 14 ساله از سال 1984 را داشته باشد، در چه شرایطی هستیم؟ (از جمله، همانطور که اتفاق می افتد، “1984،” در شماره 2؟)

آنچه هوش مصنوعی می خواند مهم است

پایگاه داده GPT-4 بسیار بزرگ است – تا یک پتابایت، توسط برخی حساب ها. بنابراین هیچ رمانی (یا 50 رمان) نمی‌تواند به آن بیاموزد، به‌ویژه، که سرایدار شدن در یک هتل خالی از سکنه هیچ درمانی برای بلاک نویسنده نیست (شماره 49)، یا ترس قاتل ذهن است (شماره 13). اقیانوس داده ها جزایر داستان را باتلاق می کند. تد آندروود، دانشمند اطلاعاتی در دانشگاه ایلینویز، می‌گوید: «مجموعه‌داده‌ای که در پیش‌آموزش استفاده می‌شود، مجموعه‌ای از متن است که مطمئن نیستم سوگیری‌های ژانری خاص تا چه اندازه بر رفتار مدل‌های حاصل می‌گذارند. “

وجود این کتاب‌های خاص در روح دیجیتال GPT-4 ممکن است نشان‌دهنده میزان حضور آنها در اینترنت کلی و وحشی باشد که داده‌ها از آن خراشیده شده‌اند. هنگامی که تیم بامن کتاب‌های حوزه عمومی را در آزمون‌های خود قرار می‌دهد، نمرات بالاتر می‌رود – «ماجراهای آلیس در سرزمین عجایب» با 98 درصد در صدر جدول قرار دارد. و هم اینترنت و هم شرکت‌هایی که ربات‌های آن را می‌سازند، تمایل دارند که افراد سفیدپوست معمولی و داستان‌های علمی تخیلی را که دوست دارند بیش از حد معرفی کنند. تیم بامن در واقع متوجه شد که کتاب‌هایی که LLM در آنها امتیاز بالایی کسب کرده‌اند تقریباً به همان نسبت در اینترنت نشان داده شده‌اند. این منطقی است. چت بات ها کتاب های خود را انتخاب نکردند. فرهنگ اینترنتی انجام داد.

با این حال، تصور اینکه همه آن داستان های علمی تخیلی که ربات ها می خوانند، مانند همه داده های دیگری که روی آن ها آموزش دیده اند، تأثیر بدی بر آنها بگذارد، سخت نیست، و همان نوع سوگیری های تصادفی را ایجاد می کند که همیشه در خروجی ربات چت نفوذ می کند. گاهی اوقات چیزهای نژادپرستانه می گویند. آنها ممکن است اطلاعات نادرست را به گونه ای خلاصه کنند که گویی درست است، زیرا همان نادرست ها اغلب در فضای مجازی ظاهر می شوند. اینها خطرات شناخته شده ای هستند و بخشی از دلیلی است که سام آلتمن، رئیس OpenAI اخیراً از کنگره خواسته است تا تجارت او را تنظیم کند.

بامن می‌گوید: «منابعی که این مدل‌ها روی آن‌ها آموزش دیده‌اند، بر نوع مدل‌ها و ارزش‌هایی که ارائه می‌کنند تأثیر می‌گذارند. او پیشنهاد می‌کند که اگر تنها کتاب‌های کورمک مک کارتی خوانده می‌شدند، احتمالاً چیزهای بی‌رحمانه و بی‌رحمانه‌ای می‌گفتند. پس چه اتفاقی می‌افتد وقتی یک ربات داستان‌هایی درباره انواع جهان‌های تاریک و دیستوپیایی پر از بازی‌های گرسنگی و مراسم انتخاب و وایت واکرها را ببلعد؟ این ژانر چگونه می‌تواند بر رفتار این مدل‌ها تأثیر بگذارد، نه در مورد چیزهای ادبی یا روایی؟» بامن می گوید. کارهای جالب زیادی وجود دارد که باید انجام شود. اما فکر نمی‌کنم هنوز پاسخی برای این سوال داشته باشیم.

من خودم به عنوان یک آدم علمی تخیلی، در پاسخ به این سوال خنجر خواهم زد. من فکر می کنم خوب است که ادبیات ژانر در فضای اطلاعات آماری GPT-4 بیش از حد ارائه شده است. اینها داستانهای کارگاه نویسندگان آیووا در مورد یک استاد کالج نیست که با یک دانش آموز رابطه دارد و از میانسالی نگران است. ژانر – علمی تخیلی، رازآلود، عاشقانه، ترسناک – به طور کلی جالب تر است، تا حدی به این دلیل که این کتاب ها طرح هایی دارند که در واقع چیزها به وقوع پیوستن. لیست GPT-4 Bamman یک کتابخانه بورخسی از ارتباطات اپیزودیک، صخره‌ها، عوارض مرحله سوم، و شخصیت‌هایی است که در برابر دریای مشکلات (و نهنگ‌ها) سلاح می‌گیرند.

بیشتر از آن، داستان های علمی تخیلی، فانتزی و ترسناک فضایی برای جویدن ایده ها و احتمالات هستند. «تلماسه» درباره دین و سیاست انقلاب است. کتاب های «ارباب حلقه ها» درباره دامداری به عنوان پاسخی به صنعتی شدن است. «داستان ندیمه» درباره شیوه‌هایی است که تبعیض جنسی و فاشیسم با یکدیگر منعکس می‌شوند. میتونستم ادامه بدم من یک هوش مصنوعی با جهان بینی نحوی که از ابرفضا و کرم های شنی تابیده شده است را ترجیح می دهم – یا حداقل هوش مصنوعی را که همه داستان ها را در مورد اینکه چگونه هوش مصنوعی می تواند به اشتباه برود، خوانده باشد. با این اوصاف، من مطمئناً مایلم که یک قانون متنوع تری ارائه شود. Octavia Butler، Charlie Jane Anders، Lavie Tidhar، Samuel Delany، China Miéville … وقت آن است که جهان جهان های ممکن را گسترش دهیم.

کتاب هایی که ما انسان ها می خوانیم، نظر ما را در مورد دنیای خود تغییر می دهد. اما از نظر فنی، چت بات ها به هیچ چیز فکر نمی کنند. آنها روابط آماری و برداری را بین کلمات ایجاد می کنند. چه کسی اهمیت می دهد که آیا این کلمات علمی-تخیلی هستند؟ الی پاولیک، دانشمند کامپیوتر در دانشگاه براون که محقق گوگل AI است، می گوید: «چیزی که قطعاً تغییر می کند، ارتباط بین مفاهیمی است که آنها فکر می کنند محتمل، قوی، یا سیستماتیک یا تکرار شونده هستند. “سوال این است که جهان بینی آنها چیست؟ به معنای ساده، ارتباط بین کلمات و مفاهیم است. اما هنوز بر اساس آنچه آنها می خوانند متفاوت است.”

تا زمانی که OpenAI و دیگر سازندگان چت بات مجموعه داده‌های آموزشی خود را در معرض بررسی عمومی قرار ندهند، دشوار است که بدانیم فهرست‌های خواندنی آنها چه تأثیری بر خروجی آنها دارد. بامن می‌گوید: «اگر مدلی دارید که تعداد زیادی داستان علمی تخیلی در آن وجود دارد، و مدل جداگانه‌ای با تعداد زیادی کارگاه نویسندگان آیووا دارید، می‌توانید به هر یک از آن‌ها کاری مانند: به من 10 بده. اولویت های این نشست». شاید ربات آیووا به همه پیشنهاد دهد که روابط پیچیده خود را با والدینشان توصیف کنند، در حالی که ربات علمی تخیلی پیشنهاد می کند همه را در خانه های هاگوارتز طبقه بندی کند.

با این حال، به یاد داشته باشید که Bamman سعی نداشت به هیچ یک از این سؤالات در مورد حق چاپ یا ترسناک بودن همه ارواح موجود در دستگاه پاسخ دهد. او فقط می خواست بداند آیا یک ربات چت می تواند چیزی در مورد یک رمان به او بگوید. در نگاهی به گذشته، او متوجه می‌شود که در مورد پتانسیل هوش مصنوعی به‌عنوان یک تحلیلگر ادبی، زمانی که آن قسمت از «غرور و تعصب» را به GPT-4 داد، «بیش از حد» بود. از یک ربات درباره یک کتاب محبوب بپرسید، و مانند یک دانش‌آموز دوم دانشگاهی با مقاله 10 صفحه‌ای درباره «جین ایر» که فردا منتشر می‌شود، فقط قسمت‌های طولانی از کتاب را برای شما نقل‌قول می‌کند. این استفراغ کلمات است، نه جستجوی بینش.

بامن پیشنهاد می‌کند که در حال حاضر، انسان‌گرایان دیجیتال ممکن است بخواهند تحلیل فرهنگی مشتق‌شده از چت‌بات خود را به آثار کمتر شناخته‌شده محدود کنند، آثاری که بعید است در داده‌های آموزشی وجود داشته باشند. ببینید یک ربات از «کتاب خورشید جدید» جین ولف، شاید، یا «علف» شری تپر چه می‌سازد. به این ترتیب، از آنچه روبات‌ها برای گفتن دارند، اطلاعات بیشتری در مورد کتاب‌ها خواهیم آموخت، زیرا آنها با نگاهی تازه به مطالب می‌پردازند. و مطمئناً قرار دادن ربات ها در معرض مجموعه داده های گسترده تر و عجیب تر ضرری نخواهد داشت. این تنها راهی است که آنها را وادار می کنیم در مورد چیزهایی که می خوانیم – و در مورد هر چیز دیگری هم حرف جالبی برای گفتن داشته باشند.

آدام راجرز خبرنگار ارشد اینسایدر است.

برچسب ها: chat gpt ChatGPT

50 کتاب برتر که ربات های هوش مصنوعی می خوانند

Wedbush می گوید: مایکروسافت به لطف ChatGPT می تواند 300 میلیارد دلار دیگر افزایش دهد

Chat GPT هوش مصنوعی ایجاد شده توسط OpenAI چیست؟

Chat GPT هوش مصنوعی ایجاد شده توسط OpenAI چیست؟

دیدگاهتان را بنویسید لغو پاسخ

You might also like

سرمایه گذاری هوش مصنوعی ماهیت دوگانه دارد

X و Xai Sue Apple و Openai بیش از ادعاهای انحصار هوش مصنوعی

Airbnb برای کمک به جلوگیری از مهمانی های خانه به AI می رود

هنگامی که مراکز داده AI محدودیت های فضایی را نشان می دهند: رفع جدید Nvidia

Google Gemini Govt ایالات متحده را با قیمت 0.47 دلار آژانس AI POWERS می کند

“دوقلوی هوش مصنوعی من ممکن است کار مدل سازی بیشتری را به من جلب کند”

AiLib

دسته‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید

50 کتاب برتر که ربات های هوش مصنوعی می خوانند

سیلماریلیون واقعا؟

آنچه هوش مصنوعی می خواند مهم است

Wedbush می گوید: مایکروسافت به لطف ChatGPT می تواند 300 میلیارد دلار دیگر افزایش دهد

Chat GPT هوش مصنوعی ایجاد شده توسط OpenAI چیست؟

Chat GPT هوش مصنوعی ایجاد شده توسط OpenAI چیست؟

دیدگاهتان را بنویسید لغو پاسخ

You might also like

سرمایه گذاری هوش مصنوعی ماهیت دوگانه دارد

X و Xai Sue Apple و Openai بیش از ادعاهای انحصار هوش مصنوعی

Airbnb برای کمک به جلوگیری از مهمانی های خانه به AI می رود

هنگامی که مراکز داده AI محدودیت های فضایی را نشان می دهند: رفع جدید Nvidia

Google Gemini Govt ایالات متحده را با قیمت 0.47 دلار آژانس AI POWERS می کند

“دوقلوی هوش مصنوعی من ممکن است کار مدل سازی بیشتری را به من جلب کند”

AiLib

دسته‌ها

برچسب‌ها

خوش آمدید!

رمز عبور خود را بازیابی کنید