در این ماه، گوگل از آخرین تلاش خود برای خلع کردن ChatGPT از جایگاهی که از زمان راه اندازی آن به عنوان پادشاه چت ربات های هوش مصنوعی مولد برخوردار بود، رونمایی کرد.
Bard – که اکنون به جمینی تغییر نام داده است – در اوایل سال 2023 و به دنبال رابط چت پیشگامانه OpenAI مبتنی بر LLM منتشر شد. و صادقانه بگویم، اغلب به نظر می رسد که در حال بازی کردن است.
بارد به لطف ادغام آن با فناوری جستجوی گوگل، از روز اول قادر به دسترسی به اینترنت بود. در همین حال، نسخه راهاندازی ChatGPT محدود به دانشی بود که در طول آموزش به آنها داده میشد.
اما OpenAI به زودی اتصال و توانایی دسترسی به اطلاعات خارجی را از طریق ارتباط با Bing مایکروسافت به ChatGPT اضافه کرد. و اتصال به کنار، همیشه اتفاق نظر بر این است که ChatGPT برای طیف وسیع تری از وظایف پردازش زبان مفیدتر است.
اکنون گوگل در حال کنار آمدن است، بارد را با نام مدل زبانی که پشت صحنه کار را انجام میدهد تغییر نام میدهد، و اجازه دسترسی به سرویس پیشرفته خود را از طریق اشتراک، با قیمت رقابت مستقیم با ChatGPT، میدهد.
پس آیا آماده است تا پا به رینگ بگذارد و با قهرمان بی چون و چرای پا به پا شود؟ در اینجا، من یک نمای کلی از هر دو پلتفرم ارائه میدهم و تفاوتهایی را که میخواهید در صورت انتخاب کدام یک از آنها بدانید، برجسته میکنم.
مدل های زبان
ابتدا، شایان ذکر است که جمینی و ChatGPT هر دو بر اساس مدلهای زبان بزرگ (LLM) فوقالعاده وسیع و قدرتمند هستند که بسیار پیشرفتهتر از هر چیزی که در گذشته به صورت عمومی در دسترس بود.
به یاد داشته باشید، ChatGPT فقط رابطی است که از طریق آن کاربران با مدل زبان ارتباط برقرار می کنند – GPT4 (کاربران پرداخت کننده ChatGPT Pro) یا GPT3.5 (کاربران رایگان).
در مورد گوگل، این رابط Gemini نامیده می شود (قبلاً Bard) و برای برقراری ارتباط با مدل زبان استفاده می شود که یک موجودیت جداگانه است اما Gemini نیز نامیده می شود (یا Gemini Ultra اگر برای سرویس Gemini Advanced پرداخت می کنید).
چیزی که باید در نظر گرفته شود این است که اگرچه ما هر دوی آنها را چت بات می نامیم، تجربه کاربری مورد نظر کمی متفاوت است. ChatGPT برای فعال کردن مکالمات و کمک به حل مشکلات به صورت مکالمه طراحی شده است – دقیقاً مانند چت کردن با یک متخصص در مورد یک موضوع.
از سوی دیگر، به نظر می رسد Gemini برای پردازش اطلاعات و خودکارسازی وظایف به گونه ای طراحی شده است که در زمان و تلاش کاربر صرفه جویی می کند.
از دیدگاه فنی، قدرت مدلهای LLM اغلب با تعداد پارامترها (مقادیر قابل آموزش) در شبکه عصبی اندازهگیری میشود. گزارش شده است که شبکههای GPT-4 دارای حدود یک تریلیون پارامتر هستند، اما هیچ واقعیت محکمی در مورد تعداد پارامترهای استفاده شده توسط Gemini شناخته نشده است.
با این حال، این ممکن است مهم نباشد، زیرا ممکن است کافی باشد بدانید که هر دو بسیار بسیار قدرتمند هستند.
استاد هوش مصنوعی در دانشگاه ایالتی آریزونا، سوبارائو کامبامپاتی، اخیراً به Wired گفت: «ما اساساً به نقطهای رسیدهایم که اکثر LLM ها از نظر معیارهای کیفی قابل تشخیص نیستند.
به عبارت دیگر، اندازه فنی و قدرت مدل مهم نیست، بلکه نحوه تنظیم، آموزش و ارائه آن برای کمک به کاربران در حل مشکلاتی است که واقعاً مهم است.
پس از مدتی استفاده از هر دو برای انجام مکالمات مختلف در مورد موضوعات مختلف، به نظر من واضح است که ChatGPT همچنان رابط چت قدرتمندتر است، به لطف خرخر ارائه شده توسط GPT-4. با این حال، جوزا در حال کم کردن فاصله است!
بازیابی اطلاعات
یکی از مزیتهای Gemini این است که بهطور پیشفرض، تمام اطلاعاتی را که در اختیار دارد – از جمله اینترنت، نمودار دانش گسترده Google و دادههای آموزشی آن، در نظر میگیرد.
از سوی دیگر، ChatGPT اغلب هنوز هم سعی می کند به یک سوال تنها با تکیه بر داده های آموزشی خود پاسخ دهد. این می تواند گاهی اوقات منجر به اطلاعات قدیمی شود. با این حال، میتوانید با ترغیب آن به جستجوی وب برای دریافت جدیدترین و بهروزترین دادهها، این موضوع را دور بزنید. اما این هنوز یک مرحله اضافی را معرفی می کند که جمینی نشان داده است که واقعاً مورد نیاز نیست.
در تجربه من از استفاده از هر دو پلتفرم، باید بگویم که Gemini در جستجوی آنلاین و ادغام اطلاعاتی که مییابد در پاسخهای خود کمی ماهرتر از ChatGPT است.
وقتی ChatGPT به صورت آنلاین سر میزند و به دنبال اطلاعات میگردد، پاسخهای آن تا حدودی پویایی خود را از دست میدهند. اغلب به نظر می رسد که به جای انجام تجزیه و تحلیل جامع از تمام اطلاعاتی که می تواند به آن دسترسی داشته باشد و به نتیجه برسد، به سؤالات پاسخ می دهد یا پاسخ هایی را بر اساس یک جستجوی اینترنتی و یک منبع اطلاعاتی واحد ارائه می دهد.
در اینجا یک مثال سریع از معنای این است. من اغلب از چت رباتهای هوش مصنوعی استفاده میکنم تا یک نمای کلی از یک شرکت یا محصولات یا خدمات آن به من بدهم. با استفاده از همان اعلان (“به من در مورد [URL]”)، ChatGPT اغلب به سادگی یک تار بازاریابی را از وب سایت باز می گرداند.
در مدت کوتاهی که برای آزمایش آن داشتم، به نظر میرسد جمینی رویکرد ظریفتری دارد. این اطلاعاتی را که می تواند در حین تلاش برای ایجاد یک نمای کلی متعادل از ویژگی ها پیدا کند، خلاصه می کند.
بنابراین، من میتوانم بگویم که این منطقهای است که Gemini کمی جلوتر از رقیب خود قرار دارد.
اما این با پایان داستان فاصله زیادی دارد. وقتی نوبت به تجزیه هوشمند اطلاعاتی میشود که بر روی آنها آموزش داده شده است تا یک پاسخ را فرموله کند، ChatGPT همچنان به عنوان برنده ظاهر میشود.
و برنده است…
بیایید این یکی را قرعهکشی بنامیم، با جمینی در فرمولبندی پاسخها از متن آنلاین بهتر است و ChatGPT در پرسشهای بدون اینترنت بهتر است.
قابلیت های چند وجهی
هوش مصنوعی چندوجهی آنهایی هستند که توانایی پردازش بیش از یک نوع داده را دارند. نسخه های اولیه ChatGPT فقط متن را می خواند و تولید می کرد. اما از آنجایی که OpenAI “موتور” خود را به GPT-4 ارتقا داد، توانایی پردازش داده های دیداری و صوتی را به دست آورد و آن را چند وجهی کرد. از سوی دیگر، Gemini چند وجهی بود (اگرچه همه ویژگیهای آن بلافاصله فعال نشدند).
ChatGPT با استفاده از مدل DALL-E که توسط OpenAI نیز توسعه داده شده است، تصاویر تولید می کند. از سوی دیگر، Gemini از موتور Imagen 2 گوگل استفاده می کند. هر دو به وضوح بسیار قدرتمند هستند و می توانند نتایج شگفت انگیزی ایجاد کنند. با این حال، میتوانم بگویم که ChatGPT در ایجاد تصویری که دقیقاً مطابق با آنچه که من به دنبال آن بودم، زمانی که آنها را بر اساس همان اعلان مقایسه میکنیم، سازگارتر است.
یکی از تفاوتهایی که دیگران به آن اشاره کردهاند این است که Imagen 2 و Gemini در تولید تصاویر واقعی و با جزئیات بسیار کمی بهتر هستند. از سوی دیگر، ChatGPT در مدیریت روابط فضایی بین اشیاء در تصاویر خود برتر است و در تفسیر خلاقانه اعلان ها بهتر است.
هر دو همچنین قادر به درک و نوشتن کدهای کامپیوتری در طیف وسیعی از زبان های برنامه نویسی هستند. اگرچه تفاوت های جزئی در نحوه انجام این کار وجود دارد.
در حال حاضر، من یک برنامه نویس نیستم – اما نکته مهم این است که با ChatGPT یا Gemini در مقابل شما، نیازی نیست که باشید.
شکی نیست که تواناییهای مکالمه برتر ChatGPT مزایای قابل توجهی به آن میدهد. اگر کاملاً مطمئن نیستید که کد شما باید چه کاری انجام دهد یا در مورد بهترین راه برای ادغام آن نیست، بهتر است هنگام ایجاد راهنمایی روشن و مفید و ارائه پیشنهادات و نکات.
من این یکی را دوباره به ChatGPT می دهم. در حالی که Gemini عکس واقعی بهتری ایجاد می کند، ChatGPT برنده می شود که تصاویری را ایجاد کند که دقیقاً مطابق با آنچه کاربر با درخواست کاربر درخواست می کند مطابقت داشته باشد. Gemini در ایجاد کد فنی کمی بهتر به نظر میرسد، اما نمیتواند با ChatGPT به عنوان یک رابط مکالمه برای استفاده در هنگام ساخت و آزمایش مطابقت داشته باشد.
(فقط یک نکته کوتاه: تولید تصویر Gemini هنوز برای کاربران در اروپا راه اندازی نشده است – امیدواریم که به زودی اضافه شود.)
پس کدام بهترین است؟
خوب، هیچکدام به هیچ وجه کامل نیستند. هر دو هنوز از توهم رنج می برند و اغلب اطلاعاتی را ارائه می دهند که به سادگی اشتباه است. برای مثال، Gemini به من گفت که Dall-E 2 OpenAI از فناوری مدل انتشار استفاده نمیکند (این کار را میکند.) و ChatGPT به من گفت که Gemini قادر به تولید تصاویر نیست (اینطور است).
اما برای پول من، اگر شما فقط می خواهید مشترک یکی شوید، در حال حاضر تمایل دارم به سراغ ChatGPT Pro بروم.
چند نکته وجود دارد – اگر به شدت به اکوسیستم Google علاقه دارید، توانایی Gemini برای ارتباط با Gmail و Google Docs احتمالاً برای شما جذابیت ستاره ای خواهد داشت. به طور مشابه، اگر یک کدنویس با تجربه هستید و نیاز اصلی شما کدنویسی است، حتما جمینی را بررسی کنید (اما نگاهی به Co-Pilot مایکروسافت نیز بیندازید).
برای نوشتن و ایجاد اسناد، خلاصهنویسی، تولید تصویر برای همه منظور و یادگیری از طریق مکالمه، میتوانم بگویم ChatGPT در حال حاضر بهتر است. به همین دلیل، جایگاه خود را به عنوان بهترین موجود در حال حاضر حفظ می کند.