Model teks-ke-gambar

Model teks-ke-gambar adalah sebuah model pembelajaran mesin yang menerima masukan berupa deskripsi bahasa alami dan menghasilkan sebuah gambar sesuai dengan deskripsi tersebut. Model-model tersebut mulai dikembangkan pada pertengahan 2010-an, sebagai hasil dari kemajuan di pemelajaran dalam. Pada tahun 2022, keluaran dari model teks-ke-gambar seperti DALL-E 2 oleh OpenAI, Imagen oleh Google, Stable Diffusion, dan Midjourney mulai mencapai kualitas seperti foto dan karya seni buatan manusia.

Model teks-ke-gambar secara umum menggabungkan sebuah model bahasa, yang mengubah teks masukan kedalam sebuah representasi laten, dan sebuah model gambar generatif, yang menghasilkan sebuah gambar berdasarkan representasi tersebut. Model yang paling efektif umumnya dilatih di data teks dan gambar berskala besar yang diambil dari web.^[1]

Sejarah

Sebelum berkembangnya pemelajaran dalam, langkah-langkah untuk membangun model teks-ke-gambar terbatas hanya pada kolase dengan mengurutkan gambar yang sudah ada, seperti dari basis data clip art.^[2]^[3]

Tugas sebaliknya, pendeskripsian gambar, lebih mudah dibuat dan sejumlah model pemelajaran dalam pendeskripsian gambar muncul sebelum model teks-ke-gambar pertama.^[4]

Model teks-ke-gambar modern pertama, alignDRAW, diperkenalkan pada tahun 2015 oleh peneliti dari Universitas Toronto. alignDRAW memperluas arsitektur DRAW untuk dikondisikan berdasarkan urutan teks.^[4] Gambar yang dihasilkan oleh alignDRAW cenderung blur dan tidak fotorealistis, namun model dapat menghasilkan obyek yang tidak ada pada data latih (seperti bis sekolah berwarna merah), dan menangani perintah yang tidak lazim seperti "sebuah rambu tanda berhenti melayang di langit biru", menunjukan bahwa dia tidak sekedar "menghafal" data dari kumpulan data latih.^[4]^[5]

Delapan gambar yang dihasilkan dari perintah teks "Sebuah rambu tanda berhenti melayang di langit biru." oleh AlignDRAW (2015). Diperbesar untuk memperlihatkan detil.^[6]

Pada tahun 2016, Reed, Akata, Yan et al. berhasil menjadi yang pertama dalam menggunakan jaringan adversarial generatif untuk tugas teks-ke-gambar.^[5]^[7] Dengan model yang dilatih pada kumpulan data yang sempit dan spesifik, mereka dapat menghasilkan gambar dengan "tampilan meyakinkan" seperti gambar burung dan bunga dari deskripsi teks seperti "Sebuah burung berwarna hitam sepenuhnya dengan paruh yang unik dan bulat". Sebuah model yang dilatih pada kumpulan data COCO menghasilkan gambar yang "dipandang dari jauh... meyakinkan", tetapi secara detil kurang koherensi.^[5] Sistem selanjutnya meliputi VQGAN+CLIP,^[8] XMC-GAN, dan GauGAN2.^[9]

Sebuah model teks-ke-gambar pertama yang menarik perhatian publik adalah OpenAI DALL-E, sebuah sistem transformer yang diumumkan pada Januari 2021.^[10] Sebuah penerus yang dapat menghasilkan gambar yang lebih kompleks dan realistis , DALL-E 2, diperkenalkan pada April 2022,^[11] diikuti oleh Stable Diffusion yang dirilis secara publik pada Agustus 2022.^[12]

Mengikuti model teks-ke-gambar lainnya, platform teks-ke-video seperti Runway, Make-A-Video,^[13] Imagen Video,^[14] Midjourney,^[15] dan Phenaki^[16] dapat menghasilkan video dari perintah teks dan/atau teks/gambar.^[17]

Arsitektur dan pelatihan

Model teks-ke-gambar telah dibuat menggunakan berbagai jenis arsitektur. untuk langkah menghasilkan gambar, jaringan adversarial generatif kondisional telah umum digunakan, dengan model difusi juga menjadi populer akhir-akhir ini. Ketimbang melatih secara langsung sebuah model untuk menghasilkan keluaran beresolusi tinggi yang dikondisikan pada sebuah sematan teks, teknik populer adalah dengan melatih sebuah model untuk menghasilkan keluaran beresolusi rendah, dan lalu menggunakan model pemelajaran dalam untuk meningkatkan resolusi, dengan mengisi detil yang lebih dalam.

Model teks-ke-gambar dilatih pada kumpulan data berpasangan (teks, gambar), umumnya diambil dari web. Dengan model Imagen tahun 2022, Google Brain melaporkan hasil yang positif dari penggunaan model bahasa besar yang dilatih secara terpisah pada kumpulan teks saja (dengan bobot yang dibekukan), sebuah perbedaan dari pendekatan standar yang umum digunakan.^[18]

Kumpulan data

Melatih model teks-ke-gambar membutuhkan sebuah kumpulan data yang dipadukan dengan deskripsi teks. Sebuah kumpulan data yang umum digunakan untuk tujuan ini adalah COCO (Common Objects in Context). Dirilis oleh Microsoft pada tahun 2014, COCO berisi kurang lebih 123,000 gambar yang memperlihatkan keanekaragaman obyek, dengan lima deskripsi per gambar, yang dihasilkan oleh manusia. Oxford-120 Flowers dan CUB-200 Birds adalah kumpulan data yang lebih kecil, dimana masing-masing terbatas pada bunga dan burung. Menggunakan kumpulan data tersebut dianggap lebih mudah untuk melatih model teks-ke-gambar berkualitas tinggi, dikarenakan materinya lebih sempit.^[7]

Evaluasi

Melakukan evaluasi dan membandingkan kualitas model teks-ke-gambar adalah tantangan, termasuk didalamnya menilai beberapa kriteria yang dianggap penting. Seperti pada semua model gambar pada umumnya, tentu sangat diharapkan bahwa gambar yang dihasilkan adalah realistis (dalam maksud bahwa gambar tersebut tampil seperti pada kumpulan data latih yang digunakan), dan memiliki gaya yang beragam. Sebuah kriteria penting pada model teks-ke-gambar adalah gambar yang dihasilkan selaras dengan deskripsi teks yang digunakan untuk menghasilkannya. Sejumlah skema telah dirancang untuk menilai hal tersebut, sebagian bersifat otomatis dan lainnya berdasarkan penilaian manusia.^[7]

Lihat pula

Seni kecerdasan buatan

Referensi

^ Vincent, James (May 24, 2022). "All these images were generated by Google's latest text-to-image AI". The Verge. Vox Media. Diakses tanggal May 28, 2022.
^ Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (October 2019), A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis, arXiv:1910.09399 
^ Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "A text-to-picture synthesis system for augmenting communication" (PDF). AAAI. 7: 1590–1595.
^ ^a ^b ^c Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (November 2015). "Generating Images from Captions with Attention". ICLR. arXiv:1511.02793 .
^ ^a ^b ^c Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). "Generative Adversarial Text to Image Synthesis" (PDF). International Conference on Machine Learning.
^ Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention". International Conference on Learning Representations. arXiv:1511.02793 .
^ ^a ^b ^c Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187–209. arXiv:2101.09983 . doi:10.1016/j.neunet.2021.07.019 . PMID 34500257 Periksa nilai |pmid= (bantuan).
^ Rodriguez, Jesus. "🌅 Edge#229: VQGAN + CLIP". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-10.
^ Rodriguez, Jesus. "🎆🌆 Edge#231: Text-to-Image Synthesis with GANs". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-10.
^ Coldewey, Devin (5 January 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". TechCrunch.
^ Coldewey, Devin (6 April 2022). "OpenAI's new DALL-E model draws anything — but bigger, better and faster than before". TechCrunch.
^ "Stable Diffusion Public Release". Stability.Ai (dalam bahasa Inggris). Diakses tanggal 2022-10-27.
^ Kumar, Ashish (2022-10-03). "Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text". MarkTechPost (dalam bahasa Inggris). Diakses tanggal 2022-10-03.
^ Edwards, Benj (2022-10-05). "Google's newest AI generator creates HD video from text prompts". Ars Technica (dalam bahasa Inggris). Diakses tanggal 2022-10-25.
^ Rodriguez, Jesus. "🎨 Edge#237: What is Midjourney?". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-26.
^ "Phenaki". phenaki.video. Diakses tanggal 2022-10-03.
^ Edwards, Benj (9 September 2022). "Runway teases AI-powered text-to-video editing using written prompts". Ars Technica. Diakses tanggal 12 September 2022.
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu et al. (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arΧiv:2205.11487 [cs.CV].

[imagen-verge-1] Vincent, James (May 24, 2022). "All these images were generated by Google's latest text-to-image AI". The Verge. Vox Media. Diakses tanggal May 28, 2022.

[agnese-2] Agnese, Jorge; Herrera, Jonathan; Tao, Haicheng; Zhu, Xingquan (October 2019), A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis, arXiv:1910.09399 

[zhu-2007-3] Zhu, Xiaojin; Goldberg, Andrew B.; Eldawy, Mohamed; Dyer, Charles R.; Strock, Bradley (2007). "A text-to-picture synthesis system for augmenting communication" (PDF). AAAI. 7: 1590–1595.

[mansimov-2015-4] Mansimov, Elman; Parisotto, Emilio; Lei Ba, Jimmy; Salakhutdinov, Ruslan (November 2015). "Generating Images from Captions with Attention". ICLR. arXiv:1511.02793 .

[reed-2016-5] Reed, Scott; Akata, Zeynep; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak (June 2016). "Generative Adversarial Text to Image Synthesis" (PDF). International Conference on Machine Learning.

[6] Mansimov, Elman; Parisotto, Emilio; Ba, Jimmy Lei; Salakhutdinov, Ruslan (February 29, 2016). "Generating Images from Captions with Attention". International Conference on Learning Representations. arXiv:1511.02793 .

[frolov-7] Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (December 2021). "Adversarial text-to-image synthesis: A review". Neural Networks. 144: 187–209. arXiv:2101.09983 . doi:10.1016/j.neunet.2021.07.019 . PMID 34500257 Periksa nilai |pmid= (bantuan).

[8] Rodriguez, Jesus. "🌅 Edge#229: VQGAN + CLIP". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-10.

[9] Rodriguez, Jesus. "🎆🌆 Edge#231: Text-to-Image Synthesis with GANs". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-10.

[tc-dalle-10] Coldewey, Devin (5 January 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". TechCrunch.

[tc-dalle-2-11] Coldewey, Devin (6 April 2022). "OpenAI's new DALL-E model draws anything — but bigger, better and faster than before". TechCrunch.

[12] "Stable Diffusion Public Release". Stability.Ai (dalam bahasa Inggris). Diakses tanggal 2022-10-27.

[13] Kumar, Ashish (2022-10-03). "Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text". MarkTechPost (dalam bahasa Inggris). Diakses tanggal 2022-10-03.

[14] Edwards, Benj (2022-10-05). "Google's newest AI generator creates HD video from text prompts". Ars Technica (dalam bahasa Inggris). Diakses tanggal 2022-10-25.

[15] Rodriguez, Jesus. "🎨 Edge#237: What is Midjourney?". thesequence.substack.com (dalam bahasa Inggris). Diakses tanggal 2022-10-26.

[16] "Phenaki". phenaki.video. Diakses tanggal 2022-10-03.

[17] Edwards, Benj (9 September 2022). "Runway teases AI-powered text-to-video editing using written prompts". Ars Technica. Diakses tanggal 12 September 2022.

[imagen-paper-18] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu et al. (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arΧiv:2205.11487 [cs.CV].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]