Newswise – مطالعه افراد در تحقیقات تعامل انسان و رایانه (HCI) می تواند کند باشد. به همین دلیل است که محققان مرکز فنلاند برای هوش مصنوعی (FCAI) اخیراً از قدرت مدلهای زبان بزرگ (LLM) بهویژه GPT-3 برای ایجاد پاسخهای باز به سؤالات مربوط به تجربه پخشکننده بازی ویدیویی استفاده کردند.
این پاسخهای تولید شده توسط هوش مصنوعی اغلب قانعکنندهتر بودند، همانطور که توسط انسانها رتبهبندی شدند تا پاسخهای واقعی. این مصاحبههای ترکیبی رویکرد جدیدی برای جمعآوری دادهها به سرعت و با هزینه کم ارائه میدهند، که ممکن است به تکرار سریع و آزمایش اولیه طرحهای مطالعه و خطوط لوله تجزیه و تحلیل دادهها کمک کند. با این حال، هر یافته ای بر اساس داده های تولید شده توسط هوش مصنوعی باید با داده های واقعی نیز تأیید شود.
محققان مستقر در دانشگاه آلتو و دانشگاه هلسینکی، تفاوتهای ظریفی را در نسخههای مختلف GPT-3 کشف کردند که بر تنوع پاسخهای تولید شده توسط هوش مصنوعی تأثیر گذاشت. اما یک مفهوم دلسرد کننده تر این است که داده های پلتفرم های جمع سپاری محبوب اکنون ممکن است به طور خودکار مشکوک شوند، زیرا تشخیص پاسخ های تولید شده توسط هوش مصنوعی از پاسخ های واقعی دشوار است. برای مثال، ترک مکانیکی آمازون (MTurk)، میتواند میزبان نظرسنجیها یا کارهای تحقیقاتی برای HCI، روانشناسی، یا حوزههای علمی مرتبط باشد و به کاربران برای مشارکت پرداخت کند، اما «اکنون که دسترسی به LLMها بسیار آسان است، هر دادهای که خود گزارش میشود از اینترنت دیگر نمی توان اعتماد کرد پروفسور Perttu Hämäläinen، دانشیار دانشگاه آلتو میگوید، انگیزههای اقتصادی میتواند کاربران مخرب را به استفاده از رباتها و LLMها برای تولید پاسخهای جعلی با کیفیت بالا سوق دهد.
پیامدهای داده های مصنوعی برای ناشناس بودن، حریم خصوصی و حفاظت از داده ها در زمینه پزشکی و حوزه های مشابه واضح است. با این حال، در حوزه HCI یا علم به طور گستردهتر، مصاحبههای مصنوعی و آزمایشهای مصنوعی سؤالاتی را در مورد قابلیت اعتماد رویکردهای جمعسپاری که به دنبال جمعآوری دادههای کاربر به صورت آنلاین هستند، ایجاد میکند. Hämäläinen پیشنهاد میکند: «LLMها نمیتوانند و نباید جایگزین شرکتکنندگان واقعی شوند، اما دادههای مصنوعی ممکن است برای کاوش اولیه و اجرای آزمایشی ایدههای تحقیقاتی مفید باشند». ممکن است زمان آن رسیده باشد که پلتفرم هایی مانند Mturk را برای جمع آوری داده های واقعی کنار بگذاریم و به مطالعات آزمایشگاهی برگردیم.
«ارزیابی مدلهای زبان بزرگ در تولید دادههای تحقیقاتی HCI مصنوعی: یک مطالعه موردی» جایزه بهترین مقاله را در CHI، کنفرانس عوامل انسانی در سیستمهای محاسباتی در اواخر آوریل 2023 دریافت کرد.