Kinetica یک پایگاه داده تحلیلی با سرعت بالا برای داده های بزرگ است. ادغام آن با ChatGPT به شما امکان می دهد بدون توجه به مقیاس، یک مکالمه تحلیلی پیچیده با داده های خود به زبان انگلیسی داشته باشید. این وبلاگ نحوه راه اندازی و استفاده از این ادغام را به شما نشان می دهد.
مرحله 1: راه اندازی Kinetica
Kinetica یک نسخه مدیریت شده “رایگان برای همیشه” با 10 گیگابایت فضای ذخیره سازی را ارائه می دهد که در فضای ابری میزبانی می شود. راه اندازی حدود دو دقیقه طول می کشد و فقط برای ثبت نام به آدرس ایمیل نیاز دارد. می توانید از طریق این لینک به آن دسترسی داشته باشید و دستورالعمل های ایجاد حساب کاربری و راه اندازی Kinetica را دنبال کنید.
مرحله 2: کتاب کار راهنمای شروع سریع را باز کنید و اطلاعات سفر تاکسی را بارگیری کنید
Workbench رابط کاربری اصلی Kinetica برای تحلیلگران، دانشمندان داده و مهندسان داده است. این به شما کمک می کند تا داده ها، فایل ها و کتاب های کار SQL را مدیریت کنید و کارهای اداری را انجام دهید. Workbooks محیطی را برای پرس و جو و تجسم داده های شما فراهم می کند. من از کتاب کار راهنمای شروع سریع برای شروع استفاده خواهم کرد. برای کسانی از شما که در گذشته از Kinetica استفاده کردهاید و دوباره وارد سیستم میشوید، قبل از باز کردن کتاب راهنمای شروع سریع، حتماً نمونهها را بهروزرسانی کنید تا آخرین نسخه را که برای ChatGPT پیکربندی شده است، دریافت کنید.
کتاب کار راهنمای شروع سریع از دادههای تاکسی شهر نیویورک برای نشان دادن قابلیتهای تحلیلی Kinetica استفاده میکند. تمام بلوک های پرس و جوی SQL را در “1. کاربرگ داده را بارگیری کنید. دو جدول مورد علاقه ما برای این آموزش عبارتند از:
- دادههای سفر تاکسی (“taxi_data_historical”) که حاوی اطلاعاتی درباره سفرهای تاکسی است.
- مرزهای فضایی محله های مختلف در شهر نیویورک (“nyct2020”).
مرحله 3: یک نمونه درخواست را در برگه ChatGPT امتحان کنید
همه کتابهای کار در Kinetica اکنون دارای یک اعلان چت هستند. می توانید از این فرمان برای ارسال سوالات تحلیلی به زبان انگلیسی ساده به ChatGPT استفاده کنید. این یک پرس و جوی SQL را برمی گرداند که به داده ها در Kinetica ارجاع می دهد، که به عنوان یک بلوک کد اجرایی به کاربرگ شما اضافه می شود.
در مثال بالا، از GPT خواستهایم تا مجموع تاکسیهای خروجی هر فروشنده به فرودگاه JFK در شهر نیویورک را شناسایی کند. یک پرس و جو را برمی گرداند که
- مرز فضایی فرودگاه JFK را با استفاده از جدول nyct2020 شناسایی می کند.
- تمام رکوردهایی را فیلتر می کند که در آن طول و عرض جغرافیایی از داده های سفر تاکسی در محدوده فضایی فرودگاه JFK شناسایی شده در مرحله 1 وجود دارد.
- مجموع سفر توسط شناسه فروشنده را برای محاسبه اسقاط در فرودگاه JFK خلاصه می کند.
“vendor_id”، COUNT را انتخاب کنید
AS num_trips FROM “taxi_data_historical” WHERE ST_CONTAINS((“geom” FROM “nyct2020” WHERE “NTANAame” = “فرودگاه بینالمللی جان اف کندی”)، ST_MAKEPOINT(“dropoff_longitude”، “Bropoff_ROUPid”) انتخاب کنید“vendor_id” ،شمردن مانند num_trips از جانب “تاکسی_داده_تاریخی”جایی که ST_CONTAINS( ( انتخاب کنید “ژئوم” از جانب “nyct2020” جایی که “NTANAname”= “فرودگاه بین المللی جان اف کندی”)ST_MAKEPOINT( “Dropoff_Litude”، “dropoff_latitude” ) ) گروه |
توسط
“vendor_id”
این یک پرس و جو ساده برای اجرا نیست، به ویژه در مجموعه داده های میلیارد ردیفی. اما از آنجایی که Kinetica دارای یک موتور پرسوجو بردار بسیار کارآمد است، میتواند این پرسوجوهای موردی را روی مقادیر زیادی از دادهها بدون هیچ گونه تنظیمات اضافی یا پیش پردازش دادهها اجرا کند. به کاربرگ «ChatGPT» بروید تا چند نمونه از دستورات فهرست شده در آنجا را امتحان کنید.
مرحله 4: متن چت را پیکربندی کنید
هنگام استفاده از قابلیت چت باید به چند نکته توجه داشته باشید. اولین مورد این است که ما باید به ChatGPT زمینه کافی در مورد داده ها ارائه دهیم تا بتواند پرس و جوهایی را ایجاد کند که مختص جداول داخل Kinetica هستند. ما می توانیم این کار را با پیکربندی زمینه چت انجام دهیم.
قسمت اول پیکربندی جداول را به زبان انگلیسی ساده توصیف می کند. راهنمای شروع سریع قبلاً شامل این پیکربندی است، اما اگر میخواهید خودتان آن را با دادههای خود یا جدول دیگری امتحان کنید، باید خودتان زمینه را پیکربندی کنید. در اینجا من جدول سفر تاکسی و محله ها را که همین الان جویا شدیم را شرح می دهم. در پشت صحنه، Kinetica همچنین GPT را با تعریف داده برای هر جدول ارائه می دهد. زبان تعریف داده (DDL) همراه با توضیحات اینجا، زمینه کافی برای GPT را فراهم می کند تا بتواند پرس و جوهای معناداری را که مختص داده ها هستند ایجاد کند. توجه داشته باشید که Kinetica هیچ داده ای را به ChatGPT ارسال نمی کند، فقط ابرداده مربوط به جداول (DDL) مانند نام و انواع ستون ها را ارسال می کند.
علاوه بر توصیف جداول، می توانیم قوانین جدا شده با کاما را نیز مشخص کنیم. قوانین راهی برای اصلاح بیشتر خروجی های پرس و جو از ChatGPT هستند. این موارد می تواند شامل مواردی باشد که مختص Kinetica یا ترجیحات شما برای نحوه ساخت پرس و جوها هستند.
در تجربه من، بهترین راه برای پیکربندی قوانین، آزمون و خطا است. چند دستور مختلف را امتحان کنید و پرس و جوهایی را که برگردانده شده اند بررسی کنید. اگر متوجه شدید که چیزی می تواند بهبود یابد، آن را به عنوان یک قانون اضافه کنید.
برای مثال، اگر قاعدهای را حذف کنیم که از GPT میخواهد از نامهای کامل محلهها استفاده کند و همان درخواستی را که قبلاً ارائه کردهایم را دوباره اجرا کنیم، به جای «John F» با یک نسخه کوتاهشده از نام «فرودگاه JFK»، یک درخواست کمی متفاوت دریافت خواهیم کرد. فرودگاه کندی. این کوئری اجرا خواهد شد، اما نتیجه مورد انتظار را به همراه نخواهد داشت زیرا همسایگی با این نام کوتاه شده در جدول nyct2020 وجود ندارد.
مرحله 5: کتاب های کاری خود را ایجاد کنید، داده های خود را بارگیری کنید و درخواست های خود را بنویسید
اکنون می توانید شروع به نوشتن درخواست های خود برای پرس و جو از داده های خود کنید. با استفاده از نماد بعلاوه در برگه کتاب کار یک کتاب کار ایجاد کنید. از تب import در بالای صفحه (در کنار Explore) برای اتصال به صدها منبع داده مختلف و بارگیری داده ها از آنها در Kinetica استفاده کنید.
حتماً چت خود را به گونهای پیکربندی کنید که ChatGPT از DDL جداولی که میخواهید پرس و جو کنید مطلع باشد.
اعلانات نوشتن بیشتر یک هنر است تا یک علم
همانند مکالمات انسانی، در پاسخهایی که از ChatGPT دریافت میکنیم، تغییراتی وجود دارد. درخواستهای یکسان با زمینه یکسان میتواند نتایج متفاوتی به همراه داشته باشد. به طور مشابه، درخواست هایی با عبارت اندکی تغییر یافته می توانند پرس و جوی SQL را که ChatGPT برمی گرداند تغییر دهند.
بنابراین مطمئن شوید که پرس و جوهای ایجاد شده را بررسی کنید تا مطمئن شوید که آنها منطقی هستند و نتایج همان چیزی است که انتظار داشتید.
Hari Subhash مدیر استراتژی محتوای جامعه و توانمندسازی Kinetica است. او بیش از 15 سال تجربه در فضای تجزیه و تحلیل داده ها در طیف گسترده ای از بخش های صنعتی مانند مدیریت مالی، توسعه بین المللی و فناوری دارد.از هاری سابهاش بیشتر بخوانید