عبارت «داده بزرگ» را به خاطر دارید؟ بسیاری از شرکتهای موفق را در دوران رایانش ابری ایجاد کرد – مانند Snowflake، Databricks، DataStax، Splunk و Cloudera. اما اکنون ما در عصر هوش مصنوعی هستیم و ظاهراً نرم افزار یادگیری ماشینی در حال حاضر در حد “هوش” یا نزدیک به آن است (حتی اگر مستعد توهم باشد – اما پس، آیا همه ما اینطور نیستیم؟).
بنابراین با توجه به رونق فعلی هوش مصنوعی، آیا ما حتی به شرکتهای «داده بزرگ» نیاز داریم که دادههای جهان را مرتب و سازماندهی کنند؟ آیا هوش مصنوعی اکنون نمی تواند این کار را برای ما انجام دهد؟
برای اینکه بفهمم شرکت های داده چگونه با عصر هوش مصنوعی تطبیق می یابند، با آرون کالب، یکی از بنیانگذاران Alation صحبت کردم که خود را به عنوان یک پلتفرم «هوش داده» معرفی می کند و مفهومی را که آن را «کاتالوگ داده» می نامد ترویج می کند. این “یادگیری ماشینی با مراقبت انسانی” را برای ایجاد یک ذخیره سفارشی از داده ها برای شرکت های سازمانی ترکیب می کند.
تفاوت ChatGPT با سیری در دهه 2000
قبل از اینکه Alation را با Satyen Sangani، مدیر اجرایی سابق اوراکل تأسیس کند، Kalb در اپل بر روی نرم افزار Siri کار می کرد. Siri شاید اولین برنامه نرم افزاری اصلی بود که از مدل سازی زبان هوش مصنوعی استفاده کرد. بنابراین از او پرسیدم که نسل فعلی نرم افزارهای مولد هوش مصنوعی (مانند ChatGPT و Google Bard) در مقایسه با آنچه سیری در اواخر دهه 2000 انجام می داد چقدر متفاوت است.
او پاسخ داد: “سیری در ابتدا کار دشواری داشت، زیرا آنها در آن زمان داده های آموزش مکالمه را نداشتند.” آنها اولین دستیار صوتی بودند. مجموعهای که مدلهای زبانی سیری روی آن آموزش داده شدهاند، بسیار کوچکتر از دادههای آموزشی مدلهای زبان بزرگ (LLM) امروزی بود – کالب دادههای آموزشی سیری را «پیشهای روزنامهنگاری» نامید.
سیری علاوه بر داده های آموزشی نسبتا ضعیف، از یادگیری ماشینی زیادی استفاده نمی کرد. کالب می گوید که سیری هنگام استفاده اشتباهات زیادی مرتکب شد، هم در تبدیل صدا به متن و هم در متن به قصد. او افزود: «و من فکر میکنم تا به امروز، سیری، الکسا، کورتانا و دستیار گوگل همه با مشکل مواجه شدهاند.
چرا هوش مصنوعی توهم می کند؟
تمام آنچه گفته شد، اینطور نیست که هوش مصنوعی مولد نیز کامل باشد. من از کالب پرسیدم که او در مورد مسائل فعلی توهمات (ایجاد حقایق) که بر نرم افزارهایی مانند ChatGPT و Bard تأثیر می گذارد، چه می گوید.
Kalb پیشنهاد میکند که این یک «پدیده روانشناختی» برای کاربران انسانی هوش مصنوعی مولد است، بیش از یک مشکل در خود نرمافزار.
او در مورد ChatGPT و نرمافزارهای مشابه گفت: «برای بسیاری از اعلانها، واقعاً به نظر میرسد که اعلان را میفهمد و پاسخی را فرموله میکند و سپس آن را در قالب کلمات بیان میکند. و این خیلی تاثیرگذار است. ما فکر می کنیم که درک و هوش واقعی دارد. چه چیزی است در حقیقت انجام دادن است [that] این اساساً یک مدل مارکوف فوقالعاده پیچیده است، جایی که میگوید، هی، با توجه به کلمات قبلی که گفته شده، دستور قبل از آن، و سپس کل توزیع احتمالی اینترنتی کلمات قبل از آن، کلمه بعدی چیست.
او فکر میکند که توهمات به یک معنا بر روی نرمافزار هوش مصنوعی «اجباری» هستند، گاهی اوقات به این دلیل که درخواستهای انسان به اندازه کافی خوب نبود.
“توهم به نظر می رسد، صبر کنید، شما در میانه منطق خود دیوانه شده اید! اما، در واقع، این فقط یک مصنوع از الگوریتم است […] دارای توزیعی از تمام کلماتی است که احتمالاً می توانند در مرحله بعدی قرار گیرند، و یکی را با کمی تصادفی آماری انتخاب می کند. و توهم زمانی اتفاق می افتد که به نقطه ای می رسد که به اصطلاح بسیار بدشانس می شود. یا با توجه به اعلان، معلوم نیست چه باید گفت. و بنابراین مجبور می شود چیزی را انتخاب کند، کم و بیش یک شات در تاریکی.”
چگونه هوش داده در چشم انداز هوش مصنوعی قرار می گیرد
بنابراین “هوش داده” چیست؟ کالب با ذکر این نکته که هم هوش مصنوعی و هم مخفف رایج سازمانی BI (هوش تجاری) «زباله داخل، زباله بیرون» هستند، شروع به پاسخ به آن کرد.
بنابراین هوش داده این لایه ای است که قبل از هوش مصنوعی و BI قرار دارد و مطمئن می شود که می توانید داده های مناسب را برای قرار دادن در هوش مصنوعی و BI خود پیدا کنید، درک کنید و به آن اعتماد کنید.
او گفت که در این زمینه، گرفتن چیزی مانند ChatGPT از اینترنت عمومی و آوردن آن به شرکت بسیار خطرناک است. او فکر می کند که داده ها باید بیشتر باشد باهوش قبل از اینکه توسط سیستم های هوش مصنوعی در یک شرکت استفاده شود.
همچنین، او فکر نمی کند که “مقیاس اینترنت” ChatGPT و سیستم های مشابه در سازمان مورد نیاز باشد. اینجاست که “کاتالوگ داده” Alation وارد عمل می شود، زیرا داده ها را “تقطیر” می کند و “نقشه برداری خاص” را به آن می دهد.
او گفت که هر سازمانی اصطلاحات خاص خود را دارد – که می تواند اصطلاحات صنعتی یا چیزهایی باشد که بسیار خاص آن شرکت است.
کالب توضیح داد: «بنابراین اینجاست که هوشمندی داده و کاتالوگ داده کمک می کند. این به ترسیم آخرین مایل از نحوه استفاده از زبان توسط افراد در سازمان و نحوه ذخیره داده ها در پایگاه داده کمک می کند.
نرمافزار Alation فرآیند قرار دادن دادههای سازمان را در این «کاتالوگهای داده» خودکار میکند، که سپس میتواند به صورت اختیاری به یک سیستم هوش مصنوعی مولد (اگر شرکت بخواهد این کار را انجام دهد) وارد شود.
روشی که Kalb آن را توضیح میدهد، هوشمندی دادهها «گام صفر برای هر کاری است – چه باشد [data] پیش پردازش، یا آموزش ML، یا فقط ایجاد یک صفحه گسترده و تجزیه و تحلیل آن برای مجمع سهامداران.
به موج بعدی داده های بزرگ خوش آمدید
تاکنون با شرکتهای مولد هوش مصنوعی مانند Cohere و Vectara درباره چشماندازشان برای فناوری اطلاعات سازمانی صحبت کردهام. هر دو مورد استفاده کارمندی را ذکر کرده بودند که میتواند با یک هوش مصنوعی آموزشدیده بر روی مدلهای زبان بزرگ گفتوگو کند – اساساً چیزی که IT به طور سنتی آن را «مدیریت دانش» مینامید، اما اکنون به شکل چتبات است.
با این حال، Kalb به نکته خوبی اشاره میکند: خیلی به کیفیت دادههایی بستگی دارد که هوش مصنوعی مولد روی آنها آموزش دیده است. او هوش داده را “حلقه گمشده” بین ChatGPT و “رویای داشتن یک پورتال سازمانی که در آن بتوانید یک سوال به زبان انگلیسی بپرسید و پاسخی دقیق و قابل اعتماد در مورد کسب و کار خود دریافت کنید” می بیند.
بنابراین، همانطور که رایانش ابری مجموعهای از شرکتهای مفید «دادههای بزرگ» را به وجود آورد، واضح است که هوش مصنوعی مولد کاتالیزوری برای موج بعدی راهحلهای هوشمند داده خواهد بود. همانطور که امسال در رابطه با هوش مصنوعی زیاد گفته ام، این فضا را تماشا کنید!