ChatGPT پس از فتح MBA وارتون، آزمون وکالت، 13 دوره از 15 دوره AP و آزمون شفاهی GRE، سرانجام با واترلو خود در قالب یک کلاس حسابداری آشنا شد. چت ربات هوش مصنوعی نیز عملکرد ضعیفی نداشت – با امتیاز 47.4 درصد، کاملاً بمباران شد و حتی نمره D را هم نگرفت.
این نتایج از یک مطالعه اخیر از دانشگاه بریگام یانگ به دست آمد که شامل 327 نویسنده مشترک از 186 موسسه آموزشی در 14 کشور بود که در این تحقیق شرکت کردند و در 25181 سؤال امتحان حسابداری کلاس درس مشارکت داشتند. آنها همچنین دانشجویان BYU را در مقطع کارشناسی استخدام کردند تا 2268 سوال بانکی آزمون کتاب درسی دیگر را به ChatGPT بدهند. سوالات شامل سیستم های اطلاعات حسابداری (AIS)، حسابرسی، حسابداری مالی، حسابداری مدیریتی و مالیاتی می شد و از نظر سختی و نوع (درست/نادرست، چند گزینه ای، پاسخ کوتاه و غیره) متفاوت بود.
دانشآموزان انسانی، در حالی که دقیقاً به سؤالات پاسخ نمیدادند، بسیار بهتر عمل کردند و به طور میانگین 76.7٪ بودند. هوش مصنوعی در 11.3 درصد از سؤالات، عمدتاً در مورد AIS و حسابرسی، عملکرد بهتری از دانش آموزان داشت، اما در ارزیابی های مالیاتی، مالی و مدیریتی عملکرد بدتری نسبت به انسان ها داشت. این احتمالاً به این دلیل است که ChatGPT برای زبان در مقابل ریاضی ساخته شده است. برای نشان دادن این موضوع، در طول آزمایش، ChatGPT همیشه تشخیص نمیداد که عملیات ریاضی را انجام میدهد و خطاهای مزخرفی مانند اضافه کردن دو عدد در یک مسئله تفریق یا تقسیم اعداد اشتباه انجام میداد.
مشاهدات دیگر عبارتند از:
- ChatGPT اغلب برای پاسخ های خود توضیحاتی ارائه می دهد، حتی اگر آنها نادرست باشند. در موارد دیگر، توضیحات ChatGPT دقیق است، اما سپس به انتخاب پاسخ چند گزینه ای اشتباه ادامه می دهد.
- ChatGPT گاهی اوقات حقایق را می سازد. به عنوان مثال، هنگام ارائه یک مرجع، یک مرجع واقعی تولید می کند که کاملاً ساخته شده است. اثر و گاهی نویسندگان حتی وجود ندارند.
- پاسخهای ChatGPT به یک سؤال، گاهی اوقات زمانی که سؤال چندین بار وارد میشد، متفاوت بود، و پاسخهای آن همیشه از نادرست به صحیح پیش نمیرفت.
- پاسخ ربات به سوالاتی که به تفسیر تصاویر بستگی دارد، مانند نمودارهای فرآیند کسب و کار (BPDs) یا داده های جدول بندی شده در قالب تصویر، متفاوت است. ChatGPT گاهی تشخیص میدهد که فاقد تصویر است و از پاسخ دادن خودداری میکند، گاهی اوقات تصویر گمشده را میشناسد اما به هر حال پاسخ میدهد (گاهی درست، گاهی اوقات نه)، و گاهی اوقات تصویر گمشده را نمیشناسد و به هر حال پاسخ میدهد (گاهی درست، گاهی اوقات نه).
- ChatGPT میتواند کد تولید کند و خطاهایی را در کدهای نوشته شده قبلی پیدا کند. به عنوان مثال، با توجه به یک طرح پایگاه داده یا فایل مسطح، ChatGPT می تواند SQL صحیح بنویسد و داده ها را عادی کند.
- ChatGPT برای رسیدگی به سوالات طولانی و نوشتاری با بخشهای مختلف، حتی زمانی که اجازه اشتباهات “انتقال” را میداد، با مشکل مواجه شد.
- در یک زمینه مطالعه موردی، ChatGPT توانست بر اساس ارزیابی اقدامات استراتژیک گذشته شرکت، به سوالات پاسخ دهد. با این حال، در جایی که نیاز به استفاده از دادهها بود، ChatGPT قادر به پاسخگویی به سؤالات غیر از ارائه فرمول نبود.
- ChatGPT در جاهایی که دانشآموزان نیاز به استفاده از دانش داشتند حتی بدتر عمل کرد. این نشان میدهد که ChatGPT یک ابزار همهمنظوره است در مقابل یک ابزار خاص حسابداری. بنابراین، جای تعجب نیست که دانشآموزان در پاسخگویی به سؤالات حسابداری بیشتر در جایی که فناوری هنوز برای پاسخ به سؤالات حسابداری آموزش ندیدهاند، بهتر هستند.
دیوید وود، نویسنده ارشد این مطالعه، استاد حسابداری BYU، میگوید: «زمانی که این فناوری برای اولین بار عرضه شد، همه نگران بودند که دانشجویان اکنون میتوانند از آن برای تقلب استفاده کنند. “اما فرصتهایی برای تقلب همیشه وجود داشته است. بنابراین برای ما، ما سعی میکنیم روی کارهایی که میتوانیم با این فناوری انجام دهیم اکنون که قبلاً نمیتوانستیم برای بهبود فرآیند تدریس برای اساتید و فرآیند یادگیری برای دانشآموزان انجام دهیم تمرکز کنیم. بیرون چشم باز بود.”
اگر ChatGPT نتواند یک کلاس حسابداری را پشت سر بگذارد، ممکن است تصور کنیم که نمی تواند در آزمون CPA نیز قبول شود. حسابداری امروز در حال بررسی این موضوع است و به زودی یافته های خود را منتشر خواهد کرد.