ابتدا ChatGPT بود، یک مدل هوش مصنوعی با توانایی به ظاهر عجیب و غریب برای تقلید زبان انسان. اکنون BloombergGPT ایجاد شده توسط بلومبرگ وجود دارد، اولین مدل زبان بزرگ که به طور خاص برای صنعت مالی ساخته شده است.
مانند ChatGPT و دیگر مدلهای زبان محبوب اخیراً معرفی شده، این سیستم هوش مصنوعی جدید میتواند متنی با کیفیت انسانی بنویسد، به سؤالات پاسخ دهد و طیف وسیعی از کارها را تکمیل کند، و آن را قادر میسازد از مجموعه متنوعی از وظایف پردازش زبان طبیعی منحصر به فرد در صنعت مالی پشتیبانی کند.
Mark Dredze، دانشیار علوم کامپیوتر در دانشکده مهندسی وایتینگ دانشگاه جانز هاپکینز و محقق مدعو در بلومبرگ، بخشی از تیم سازنده آن بود. Dredze همچنین مدیر افتتاحیه تحقیقات (Foundations of AI) در Foundry جدید AI-X در جانز هاپکینز است.
هاب با Dredze در مورد BloombergGPT و پیامدهای گسترده تر آن برای تحقیقات هوش مصنوعی در جان هاپکینز صحبت کرد.
اهداف پروژه BloombergGPT چه بود؟
بسیاری از مردم ChatGPT و دیگر مدلهای زبان بزرگ را دیدهاند که فناوریهای هوش مصنوعی جدید و چشمگیر با قابلیتهای فوقالعاده برای پردازش زبان و پاسخ به درخواستهای مردم هستند. پتانسیل این مدل ها برای دگرگونی جامعه روشن است. تا به امروز، بیشتر مدل ها بر موارد استفاده همه منظوره متمرکز شده اند. با این حال، ما همچنین به مدلهای مخصوص دامنه نیاز داریم که پیچیدگیها و تفاوتهای ظریف یک دامنه خاص را درک کنند. در حالی که ChatGPT برای بسیاری از کاربردها چشمگیر است، ما به مدل های تخصصی برای پزشکی، علم و بسیاری از حوزه های دیگر نیاز داریم. مشخص نیست بهترین استراتژی برای ساخت این مدل ها چیست.
با همکاری بلومبرگ، این سوال را با ساخت یک مدل زبان انگلیسی برای حوزه مالی بررسی کردیم. ما رویکرد جدیدی را در پیش گرفتیم و مجموعه داده عظیمی از متن مرتبط با امور مالی ساختیم و آن را با مجموعه دادهای به همان اندازه بزرگ از متن همه منظوره ترکیب کردیم. مجموعه داده حاصل حدود 700 میلیارد توکن بود که حدود 30 برابر اندازه کل متن ویکی پدیا است.
ما یک مدل جدید را بر روی این مجموعه داده ترکیبی آموزش دادیم و آن را در طیف وسیعی از وظایف زبانی در اسناد مالی آزمایش کردیم. ما دریافتیم که BloombergGPT در کارهای مالی از مدلهای موجود با اندازه مشابه بهتر است – با حاشیههای زیاد! با کمال تعجب، این مدل هنوز هم در معیارهای همه منظوره عمل می کند، حتی اگر ما قصد داشتیم یک مدل خاص دامنه بسازیم.
چرا امور مالی به مدل زبانی خاص خود نیاز دارد؟
در حالی که پیشرفتهای اخیر در مدلهای هوش مصنوعی کاربردهای جدید هیجانانگیزی را برای بسیاری از دامنهها نشان داده است، پیچیدگی و اصطلاحات منحصربهفرد حوزه مالی یک مدل خاص دامنه را تضمین میکند. بی شباهت به سایر حوزه های تخصصی مانند پزشکی نیست که شامل واژگانی است که در متن های همه منظوره نمی بینید. یک مدل خاص مالی میتواند وظایف NLP مالی موجود را بهبود بخشد، مانند تجزیه و تحلیل احساسات، شناسایی موجودیت نامگذاری شده، طبقهبندی اخبار، و پاسخگویی به سؤالات، از جمله. با این حال، ما همچنین انتظار داریم که مدل های خاص دامنه فرصت های جدیدی را باز کنند.
به عنوان مثال، ما BloombergGPT را در نظر می گیریم که پرس و جوهای زبان طبیعی را از متخصصان مالی به زبان معتبر بلومبرگ پرس و جو یا BQL تبدیل کند، ابزاری فوق العاده قدرتمند که به متخصصان مالی امکان می دهد به سرعت داده های مربوط به کلاس های مختلف اوراق بهادار را مشخص کرده و با آنها تعامل داشته باشند. بنابراین اگر کاربر بپرسد: “آخرین قیمت و سقف بازار را برای اپل به من بده”، سیستم get(px_last,cur_mkt_cap) را برای([‘AAPL US Equity’]). این رشته کد آنها را قادر می سازد تا داده های حاصل را به سرعت و به آسانی به علم داده و ابزارهای مدیریت پورتفولیو وارد کنند.
هنگام ساخت مدل جدید چه چیزی یاد گرفتید؟
ساختن این مدلها آسان نیست، و تعداد زیادی جزئیات وجود دارد که برای درست کردن آنها به درستی نیاز دارید. ما از خواندن مقالات سایر گروههای تحقیقاتی که مدلهای زبانی ساختند، چیزهای زیادی آموختیم. برای کمک به جامعه، مقالهای با بیش از 70 صفحه نوشتیم که جزئیات نحوه ساخت مجموعه دادههایمان، انتخابهایی که در معماری مدل انجام میشود، نحوه آموزش مدل و ارزیابی گسترده مدل به دست آمده را توضیح میدهد. ما همچنین “تواریخ آموزشی” مفصلی را منتشر کردیم که حاوی شرح روایی فرآیند آموزش مدل است. هدف ما این است که تا حد امکان درباره نحوه ساخت مدل برای حمایت از سایر گروههای تحقیقاتی که ممکن است به دنبال ساخت مدلهای خود هستند، باز باشیم.
نقش شما چه بود؟
این کار با همکاری تیم مهندسی هوش مصنوعی بلومبرگ و گروه محصولات و تحقیقات ML در دفتر فناوری شرکت، جایی که من یک محقق مهمان هستم، انجام شد. این یک تلاش فشرده بود که در طی آن ما به طور منظم داده ها و تصمیمات مدل را مورد بحث قرار می دادیم و ارزیابی های دقیقی از مدل انجام می دادیم. با هم تمام مقالاتی را که میتوانستیم درباره این موضوع پیدا کنیم، خواندیم تا بینشهایی از گروههای دیگر به دست آوریم، و با هم تصمیمهای مکرر گرفتیم.
تجربه تماشای قطار مدل در طول هفتهها بسیار زیاد است، زیرا ما معیارهای چندگانه مدل را بررسی کردیم تا به بهترین نحو بفهمیم که آیا آموزش مدل کار میکند یا خیر. جمع آوری ارزیابی گسترده و خود مقاله یک تلاش گروهی عظیم بود. من احساس افتخار می کنم که بخشی از این گروه فوق العاده بودم.
آیا جانز هاپکینز از راه های دیگری با این تلاش مرتبط بود؟
این تیم روابط قوی با جان هاپکینز دارد. یکی از مهندسان اصلی این پروژه Shijie Wu است که دکترای خود را در سال 2021 از جانز هاپکینز دریافت کرد. علاوه بر این، Gideon Mann که دکترای خود را در سال 2006 از جانز هاپکینز دریافت کرد، رهبر تیم بود. من فکر میکنم این نشاندهنده ارزش فوقالعاده آموزش جانز هاپکینز است، جایی که فارغالتحصیلان ما مدتها پس از فارغالتحصیلی همچنان به پیشبرد حوزه علمی ادامه میدهند.
جانز هاپکینز چگونه از این کار سود خواهد برد؟
تقاضای زیادی از سوی دانشآموزان ما وجود دارد که در مورد نحوه عملکرد مدلهای زبان بزرگ و چگونگی کمک به ساخت آنها بیاموزند. تنها در سال گذشته، دپارتمان علوم کامپیوتر دانشکده مهندسی وایتینگ سه دوره جدید را معرفی کرده است که تا حدودی مدل های زبان بزرگ را پوشش می دهد.
آخرین پیشرفت ها در این زمینه از صنعت حاصل شده است. از طریق نقش خود در این تیم صنعتی، به بینش های کلیدی در مورد چگونگی ساخت و ارزیابی این مدل ها دست یافته ام. من این بینشها را در تحقیقاتم و کلاس درس آوردهام و به دانشآموزانم صندلی ردیف جلو برای مطالعه این مدلهای هیجانانگیز میدهم. من فکر میکنم این که اعضای هیئت علمی ما در این تلاشها مشارکت دارند، به خوبی درباره رهبری هوش مصنوعی جانز هاپکینز صحبت میکند.
چگونه این کار به نقش شما به عنوان مدیر تحقیقات در ریختهگری جدید AI-X مرتبط میشود؟
هدف AI-X Foundry تغییر نحوه انجام تحقیقات جانز هاپکینز از طریق هوش مصنوعی است. محققان جانز هاپکینز از رهبران جهان در استفاده از هوش مصنوعی برای درک و بهبود وضعیت انسان هستند. ما می دانیم که بخش مهمی از این هدف، همکاری قوی بین دانشکده ما و رهبران صنعت در هوش مصنوعی، مانند بلومبرگ است. ایجاد این روابط با AI-X Foundry به محققان اطمینان می دهد که توانایی انجام تحقیقات واقعاً متحول کننده و فرابخشی هوش مصنوعی را دارند و در عین حال بهترین آموزش ممکن را در زمینه هوش مصنوعی به دانش آموزان ارائه می دهند.