اگر تا به حال به تولیدکنندههای تصویر هوش مصنوعی مانند Dall-E و Midjourney نگاه کردهاید و فکر کردهاید، ای کاش میتوانستم عکسهایم را روی آنها آپلود کنم و آنها را فقط با توضیحات متنی ویرایش کنیم، پس خوش شانس هستید. ابزار جدید ویرایشگر تصویر هوش مصنوعی به نام InstructPix2Pix به شما این امکان را می دهد که این کار را انجام دهید.
در وبسایت ابزار هوش مصنوعی Hugging Face، که میزبان ربات ویروسی Dall-E Mini نیز بود، InstructPix2Pix یک تصویر ورودی میخواهد و دستورالعملهای فوری را درخواست میکند و یک تصویر لمسشده را با تغییراتی که درخواست کردهاید، خروجی میدهد.
برای به دست آوردن داده های آموزشی برای ابزار هوش مصنوعی، سازندگان آن از دانش مدل های زبان GPT-3 و Stable Diffusion برای تولید مجموعه داده بزرگی از نمونه های ویرایش تصویر استفاده کردند. سپس از این مجموعه داده برای آموزش InstructPix2Pix استفاده شد. اما برخلاف Stable Diffusion که یک مدل تولید تصویر (متن به تصویر) است، InstructPix2Pix یک مدل انتشار ویرایش تصویر است.
این مدل برای اولین بار در 17 نوامبر 2022 در مقاله ای توسط تیم بروکس، الکساندر هولینسکی و الکسی ای افروس معرفی شد – چند روز قبل از راه اندازی ChatGPT.
چگونه از InstructPix2Pix برای ویرایش عکس ها استفاده کنیم
همانطور که قبلا ذکر شد ساده ترین راه برای دسترسی به InstructPix2Pix از طریق برنامه وب Hugging Face آن است. می توانید مستقیماً به آن بروید https://huggingface.co/spaces/timbrooks/instruct-pix2pix.
چند مرحله بعدی آسان است:
1. روی بخش Input Image ضربه بزنید و تصویری را که می خواهید ویرایش کنید آپلود کنید
2. دستورالعمل ویرایش خود – یا تغییرات مورد نظر InstructPix2Pix را به تصویر آپلود شده – در قسمت متن در همان صفحه اضافه کنید.
3. دکمه Generate را بزنید و منتظر خروجی خود باشید
توجه داشته باشید که این فرآیند زمان شیرین خود را می گیرد، گاهی اوقات حتی حدود ده دقیقه، بنابراین صبر در اینجا ضروری است. اما با توجه به اینکه انجام این ویرایشها به صورت دستی احتمالاً زمان زیادی طول میکشد، انتظار ارزش آن را دارد.
تست InstructPix2Pix خارج شد
اولین حرکت با InstructPix2Pix ناامید کننده بود. آپلود یک تصویر منظره از خط افق نویدا با اعلان “ساختمان ها را با کوه ها جایگزین کنید” به طرز خنده دار همان تصویر را بازگرداند، با این تفاوت که به شدت تحریف شده بود.
این نتیجه ای که ما انتظارش را داشتیم نبود، بنابراین سعی کردیم وزن CFG و Text CFG را تنظیم کنیم. به طور پیش فرض، آنها به ترتیب روی 7.5 و 1.5 تنظیم شده اند، بنابراین ما آنها را به 8.5 و 1 تغییر دادیم و دوباره برنامه را اجرا کردیم.
این بار، خروجی در واقع قابل استفاده بود. ساختمان ها تقریباً به طور کامل ناپدید شده بودند و طبق درخواست یک رشته کوه مرتب جایگزین شدند. اگر خیلی سخت نگاه نکنید، تنها چیزی که به نظر می رسد جداکننده جاده زرد و سیاه است که به دلایلی اکنون دو ردیف روی هم قرار گرفته است.
با take two، تصویری از یک گربه سفید را امتحان کردیم، و دستور “تغییر رنگ گربه را به سیاه” به ابزار دادیم.
InstructPix2Pix با این یکی حتی بدون تغییر مقادیر CFG کار خوبی انجام داد. این ابزار با دقتی تقریباً عالی، خز سفید گربه را با سیاهی جایگزین کرد، در حالی که سبیل های سفید را حفظ کرد. سبیل های گربه حاوی ملانین نیستند، بنابراین به نظر می رسید این ابزار می دانست که چه کار می کند. تنها چیزی که در تصویر وجود ندارد، مردمکهای ناهنجار است.
نتیجه
در وضعیت فعلی خود، InstructPix2Pix یک ابزار هوش مصنوعی عالی برای به هم ریختن است. قادر به تولید تصاویری به اندازه پاپ Midjourney در یک عکس ژاکت Balenciaga نیست که اینترنت را فریب داد. اما هنوز هم نگاهی اجمالی به آینده ویرایش عکس است، جایی که روش های پیچیده ویرایش شاید روزی با اعلان های ساده مبتنی بر متن جایگزین شوند.