این تصاویر با وارد کردن متن زیر توسط دال-ئی تولید شدهاند: «تصویر حرفهای با کیفیت بالا از زرافه اژدها. زرافه که از اژدها تقلید میکند. زرافه ساخته شده از اژدها.»
دال-ئی (به انگلیسی: DALL-E یا DALL·E) و دال-ئی ۲ مدلهای یادگیری ماشینی از نوع زایا هستند که توسط اوپنایآی برای تبدیل متن به تصویر دیجیتال ساخته شدهاند. اوپنایآی در ژانویه ۲۰۲۱ در یک پست وبلاگ برای اولین بار دال-ئی را معرفی کرد. دال-ئی از نسخهای از جیپیتی-۳ استفاده میکند که برای تولید تصاویر اصلاح شدهاست. در آوریل ۲۰۲۲ دال-ئی ۲ معرفی شد که توانایی تولید تصاویر واقعی تر با وضوح بالاتر را دارد و «میتواند مفاهیم، ویژگیها و سبکها را ترکیب کند».[۱]
نام این نرمافزار ترکیب نام ربات شخصیت کارتونی وال-ئی و هنرمند سوررئالیست اسپانیایی سالوادور دالی است.
فناوری
مدل ترسنفورمر تولیدگر از پیش آموزش دیده (GPT) در ابتدا توسط اوپنایآی در سال ۲۰۱۸ با استفاده از ساختار ترنسفورمرها توسعه یافت. سپس در سال ۲۰۱۹ جیپیتی برای ساخت جیپیتی-۲ توسعه یافت. در سال ۲۰۲۰ مجدداً برای ساختجیپیتی-۳ با ۱۷۵ میلیارد پارامتر بزرگ شد. مدل دال-ئی یک پیادهسازی چندوجهی از جیپیتی-۳ با ۱۲ میلیارد پارامتر است که «متن را با پیکسل تعویض میکند»، که بر روی متن تصاویر در اینترنت آموزش داده شدهاست. دال-ئی ۲ از ۳/۵ میلیارد پارامتر استفاده میکند که عددی کمتر از مدل قبلی خود است.[۲]
تواناییها
از دال ای خواسته شده است که نقش یک پاندا را به صورت لاته آرت ایجاد کند.
دال-ئی میتواند تصاویر را در چندین سبک، از جمله تصاویر فوتورئالیسم، نقاشی و ایموجی تولید کند.
دال-ئی میتواند تصاویری برای طیف گستردهای از توصیفات دلخواه را از دیدهای گوناگون تولید کند.[۳] مارک ریدل، دانشیار دانشکده محاسبات تعاملی جورجیا، دریافت که دال-ئی میتواند مفاهیم را با هم ترکیب کند (که عنصر کلیدی خلاقیت انسان شناخته میشود).
نگرانیهای اخلاقی
اتکای دال-ئی ۲ به مجموعه دادههای عمومی بر نتایج آن تأثیر میگذارد و در برخی موارد منجر به سوگیری الگوریتمی میشود، مانند ایجاد تعداد بیشتری از مردان نسبت به زنان برای درخواستهایی که جنسیت را ذکر نمیکنند.[۴] دادههای آموزشی دال-ئی ۲ برای حذف تصاویر خشونتآمیز و جنسی فیلتر شد، اما مشخص شد که در برخی موارد مانند کاهش دفعات تولید زنان، سوگیری را افزایش میدهد.[۵][۵]
احتمال انتشار دیپ فیک و سایر اشکال اطلاعات نادرست با استفاده از دال-ئی و مدلهای مشابه آن سبب نگرانی شدهاست.[۶] برای کاهش این خطر، نرمافزار درخواستهای مربوط به شخصیتهای مشهور و آپلودهای حاوی چهره انسان را رد میکند.[۷][۸]
نگرانی دیگر در مورد دال-ئی و مدلهای مشابه این است که به دلیل دقت و محبوبیت میتوانند باعث بیکاری هنرمندان، عکاسان و طراحان گرافیک شوند.[۹][۱۰]
محدودیتهای فنی
دال-ئی ۲ در درک زبان محدودیتهایی دارد. برای مثال گاهی نمیتواند یک کتاب زرد و یک گلدان قرمز را از یک کتاب قرمز و یک گلدان زرد یا "یک پاندا که لاته آرت درست میکند را از لاته آرت یک پاندا تشخیص دهد.[۱۱][۱۲]
استقبال
بیشتر پوشش خبری از دال-ئی بر روی بخش کوچکی از خروجیهای سوررئال یا غیرعادی آن انجام میشود. خروجی دال-ئی برای «تصویری از یک بچه ترب که با سگ راه میرود» در بخشهایی از اینپوت، انبیسی، نیچر، و سایر نشریات ذکر شد. خروجی آن برای «یک صندلی راحتی به شکل آووکادو» نیز بهطور گسترده پوشش داده شد.
جایگزین متن باز
تلاشهایی برای ایجاد جایگزین منبع باز آن صورت گرفتهاست.[۱۳]کرایون که در سال ۲۰۲۲ در پلت فرم Hugging Face منتشر شد، (قبلاً دال-ئی مینی نام داشت تا اینکه اوپنایآی در ژوئن ۲۰۲۲ درخواست تغییر نام آن را داد) یک مدل هوش مصنوعی بر پایه دال-ئی اصلی است که روی دادههای فیلتر نشده اینترنت آموزش دیده بود. در اواسط سال ۲۰۲۲ به دلیل تواناییاش در تولید تصاویر طنز، توجه رسانهها را به خود جلب کرد.
↑Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models". arXiv:2102.02503 [cs.CL].