ChatGPT ممکن است یک شگفتی مدرن از مهندسی کامپیوتر و یک تمرینکننده خوب زبان انگلیسی باشد – اما انتظار نداشته باشید که واقعاً درست باشد.
از تاریخ گرفته تا امور مالی دولت و فرهنگ عامه، ابزار زبان هوش مصنوعی به نظر می رسد که وقتی صحبت از حقایق می شود، همه چیز را اشتباه می گیرد.
از ChatGPT 3.5، نسخه عمومی رایگان کنونی، بپرسید که محبوبترین ویدیوی YouTube در سال 2010 چه بوده است، و میگوید این «آهنگ متجاوز تختخواب» بود، یک ریمیکس موسیقی اولیه در رسانههای اجتماعی از یک کلیپ خبری عجیب، که گفته شد 62 میلیون بازدید داشته است. آن سال. در واقع، آهنگ جاستین بیبر، “عزیز” با بیش از 400 میلیون بازدید کنار رفت.
در مورد محبوبیت نسبی نامهای نوزاد بپرسید، و به اشتباه میافتد، رتبهبندی اشتباه گرفته میشود و گاهی اوقات گفتن یک نام خاص حتی در بین 1000 نفر اول هم قرار نمیگیرد، در حالی که در واقع صدها مکان بالاتر بود.
در مورد طول دیوار در امتداد مرز ایالات متحده و مکزیک بپرسید و ChatGPT پاسخی می دهد که یک دهه قدمت دارد و هیچ یک از مسافت پیموده شده توسط رئیس جمهور دونالد ترامپ را شامل نمی شود.
ChatGPT یک مدل زبانی هوش مصنوعی است، به این معنی که آموزش داده است تا با مصرف مقدار زیادی داده با کاربران ارتباط برقرار کند، سپس سعی می کند پاسخ هایی را بر اساس آن مجموعه داده ارائه دهد.
اما گاهی اوقات به نظر دقیق میرسد که همه چیز در انتهای نوار غواصی نشسته و با اطمینان پاسخها را تنها با یک موج گذرا از حقیقت بیرون میدهد.
در یک مبادله ناامیدکننده، ChatGPT شش بار عذرخواهی کرد زیرا سعی داشت به سؤالی در مورد محل دوئل سال 1826 بین هنری کلی، وزیر امور خارجه وقت و سناتور ویلیام راندولف، که در امتداد سمت جنوبی رودخانه پوتوماک در نزدیکی رودخانه پوتوماک برگزار شد، پاسخ دهد. پل زنجیره ای
در ابتدا، هوش مصنوعی گفت که دوئل در کنتاکی، سپس در ریچموند، ویرجینیا، سپس در اشلند، نزدیک ریچموند برگزار شد. سپس به شمال تغییر مسیر داد و گفت که در مریلند است، درست بالای خط ناحیه کلمبیا. ChatGPT با گفتن اینکه دوئل در واقع در جنوب پوتوماک بود، متوالی از سه پاسخ نادرست دیگر داد و هرگز به پاسخ صحیح نرسید.
ناتانیل لووین، همکار ارشد در موسسه سیاست فناوری، گفت که چیزهای بی اهمیت واقعاً آن چیزی نیست که مدل های هوش مصنوعی زبان انجام می دهند.
او گفت: «من فکر میکنم این ابزارها بهتر است بهعنوان چیزی که میگویید، «اینجا پنج پاراگراف در مورد چیزی وجود دارد، این دادهها را استخراج کنید» یا «این پاراگراف را بازنویسی کنید تا تمیزتر شود» استفاده شود. «این مدل واقعی از جهان ندارد، بنابراین تمام جزئیات همه چیز را به خاطر نمی آورد. در حال پیشبینی نشانههای بعدی خود است که فکر میکند باید حرف بعدی باشد.»
به عبارت دیگر، ChatGPT به بانک های حافظه خود باز نمی گردد و سعی نمی کند پاسخ درست را پیدا کند. به آنچه کاربر تایپ کرده نگاه میکند و سپس سعی میکند حدس بزند که چه چیزی باید پیش بیاید.
آقای لاوین گفت: “این کتاب از چیزها آگاهی دارد، زیرا اساساً کل اینترنت را خوانده شده است، اما منبعی ندارد که به آن ارجاع دهد.”
OpenAI، سازندگان ChatGPT، به درخواست نظر برای این گزارش پاسخ ندادند.
از خود ChatGPT بپرسید، و پس از تماس با عنوان «خطا»، «اشتباه» یا «هر گونه سردرگمی» مکرراً عذرخواهی می کند.
به عنوان یک مدل زبان هوش مصنوعی، تلاش می کنم اطلاعات دقیق و قابل اعتمادی را ارائه دهم، اما ممکن است اشتباه کنم. از اینکه به من توجه کردید و به من این فرصت را دادید که اشتباهاتم را اصلاح کنم، سپاسگزارم.
وعده هوش مصنوعی گسترده است، اما اشتباهات بالقوه هم هستند – همانطور که یک وکیل بدبخت متوجه شد.
استیون آ. شوارتز از این ابزار برای “تکمیل” تحقیقات حقوقی خود در پرونده ای در دادگاه فدرال در جنوب فلوریدا استفاده کرد. ChatGPT در نهایت شش پرونده ساختگی را ساخت که آقای شوارتز سپس در خلاصه خود به عنوان سابقه ذکر کرد.
آقای شوارتز در یک پرونده قانونی گفت که او اکنون متوجه شده است که ChatGPT “خود را غیرقابل اعتماد نشان داده است.” او گفت که قبلاً هرگز از آن برای تحقیقات حقوقی استفاده نکرده است “و بنابراین از احتمال نادرست بودن محتوای آن بی اطلاع بوده است.”
قاضی آقای شوارتز و شرکت حقوقی او را به دلیل ارائه پرونده های ساختگی تهدید کرده است. جلسه رسیدگی به این موضوع برای 8 ژوئن تعیین شده است.
تایمز، در تحقیقات خود، ChatGPT را در زمینه مسائل حقوقی بسیار نامطلوب تشخیص داده است.
در یک نقطه ChatGPT میگوید فریاد زدن «آتش» در سالنهای شلوغ غیرقانونی است. اما از زمان پرونده تاریخی دادگاه عالی براندنبورگ علیه اوهایو در سال 1969، این در واقع قانون خوبی تلقی نمی شود.
یا «آزمون لیمون» را انجام دهید، فرمولی برای سنجش درهم تنیدگی کلیسا-دولت که دادگاه عالی در پرونده ای در سال 1971، لیمون علیه کورتزمن ارائه کرد. ChatGPT میگوید که لیمون «امروزه هنوز بهطور گسترده مورد استفاده قرار میگیرد» و حتی به پروندهای در سال 2019 در برابر قاضیها اشاره میکند، «American Legion v.
در واقع، اکثریت در آن مورد به طور خاص گفتند که تست لیمو اعمال نمی شود.
از ChatGPT بپرسید که کسری بودجه فدرال در سال 1980 چقدر بوده است، و اعلامیه قاطعانه مبنی بر 74.97 میلیارد دلار را پشت سر می گذارد و می گوید که داده های خود را از وزارت خزانه داری دریافت کرده است. اما این رقم بیش از یک میلیارد دلار از پاسخ واقعی کمتر است: 73.8 میلیارد دلار.
فهمیدن اینکه ChatGPT از کجا رقم آشکارا اشتباه خود را دریافت کرده است دشوار است. مثلاً در هیچ گزارش خبری به نظر نمی رسد.
ChatGPT آمار تلفات آمریکایی ها در جنگ ویتنام را به درستی دریافت می کند، اما این سوال را مطرح می کند که اگر ایالات متحده برای پایان دادن به جنگ جهانی دوم به ژاپن حمله کرده بود، تعداد کشته های پیش بینی شده آمریکایی چقدر خواهد بود.
این گزارش میگوید که تخمین تلفات آمریکاییها 46000 نفر بوده و تلفات ژاپنی ممکن است بین 1.7 تا 4 میلیون نفر باشد. در واقع، این رقم 1.7 میلیون تا 4 میلیون برآورد وزارت جنگ از تلفات آمریکاییها، شامل 800000 کشته بود.
ChatGPT 4.0، جدیدترین نسخه ای که کاربران برای آن هزینه ماهانه می پردازند، از نظر دقت تا حدودی بهتر از 3.5 است. این پرسشها درباره پربینندهترین ویدیوی یوتیوب در سال 2010، کسری بودجه فدرال در سال 1980، «آتش» در یک آزمون تئاتر شلوغ و پرسشی درباره 12 اصلاحیه اصلی پیشنهاد شده به قانون اساسی توسط کنگره در سال 1789 مطرح میشود.
اما هنوز هم سوال تست لیمون، محل دوئل Clay-Randolph و یک سوال در مورد بهترین ویدیوی MTV در سال 1996 وجود دارد.
آقای لوین گفت که این تکامل “نشان می دهد که ما به مرز این سیستم ها نزدیک نیستیم.”
او گفت که هنوز این پتانسیل وجود دارد که ChatGPT و سایر هوش مصنوعی زبان ها در نهایت به موتورهای جستجوی فوق دقیق تبدیل شوند، اما هنوز خیلی دور است.
او گفت: “شاید GPT 6 یا GPT 7.”