Model teks-ke-gambarModel teks-ke-gambar adalah sebuah model pembelajaran mesin yang menerima masukan berupa deskripsi bahasa alami dan menghasilkan sebuah gambar sesuai dengan deskripsi tersebut. Model-model tersebut mulai dikembangkan pada pertengahan 2010-an, sebagai hasil dari kemajuan di pemelajaran dalam. Pada tahun 2022, keluaran dari model teks-ke-gambar seperti DALL-E 2 oleh OpenAI, Imagen oleh Google, Stable Diffusion, dan Midjourney mulai mencapai kualitas seperti foto dan karya seni buatan manusia. Model teks-ke-gambar secara umum menggabungkan sebuah model bahasa, yang mengubah teks masukan kedalam sebuah representasi laten, dan sebuah model gambar generatif, yang menghasilkan sebuah gambar berdasarkan representasi tersebut. Model yang paling efektif umumnya dilatih di data teks dan gambar berskala besar yang diambil dari web.[1] SejarahSebelum berkembangnya pemelajaran dalam, langkah-langkah untuk membangun model teks-ke-gambar terbatas hanya pada kolase dengan mengurutkan gambar yang sudah ada, seperti dari basis data clip art.[2][3] Tugas sebaliknya, pendeskripsian gambar, lebih mudah dibuat dan sejumlah model pemelajaran dalam pendeskripsian gambar muncul sebelum model teks-ke-gambar pertama.[4] Model teks-ke-gambar modern pertama, alignDRAW, diperkenalkan pada tahun 2015 oleh peneliti dari Universitas Toronto. alignDRAW memperluas arsitektur DRAW untuk dikondisikan berdasarkan urutan teks.[4] Gambar yang dihasilkan oleh alignDRAW cenderung blur dan tidak fotorealistis, namun model dapat menghasilkan obyek yang tidak ada pada data latih (seperti bis sekolah berwarna merah), dan menangani perintah yang tidak lazim seperti "sebuah rambu tanda berhenti melayang di langit biru", menunjukan bahwa dia tidak sekedar "menghafal" data dari kumpulan data latih.[4][5] Pada tahun 2016, Reed, Akata, Yan et al. berhasil menjadi yang pertama dalam menggunakan jaringan adversarial generatif untuk tugas teks-ke-gambar.[5][7] Dengan model yang dilatih pada kumpulan data yang sempit dan spesifik, mereka dapat menghasilkan gambar dengan "tampilan meyakinkan" seperti gambar burung dan bunga dari deskripsi teks seperti "Sebuah burung berwarna hitam sepenuhnya dengan paruh yang unik dan bulat". Sebuah model yang dilatih pada kumpulan data COCO menghasilkan gambar yang "dipandang dari jauh... meyakinkan", tetapi secara detil kurang koherensi.[5] Sistem selanjutnya meliputi VQGAN+CLIP,[8] XMC-GAN, dan GauGAN2.[9] Sebuah model teks-ke-gambar pertama yang menarik perhatian publik adalah OpenAI DALL-E, sebuah sistem transformer yang diumumkan pada Januari 2021.[10] Sebuah penerus yang dapat menghasilkan gambar yang lebih kompleks dan realistis , DALL-E 2, diperkenalkan pada April 2022,[11] diikuti oleh Stable Diffusion yang dirilis secara publik pada Agustus 2022.[12] Mengikuti model teks-ke-gambar lainnya, platform teks-ke-video seperti Runway, Make-A-Video,[13] Imagen Video,[14] Midjourney,[15] dan Phenaki[16] dapat menghasilkan video dari perintah teks dan/atau teks/gambar.[17] Arsitektur dan pelatihanModel teks-ke-gambar telah dibuat menggunakan berbagai jenis arsitektur. untuk langkah menghasilkan gambar, jaringan adversarial generatif kondisional telah umum digunakan, dengan model difusi juga menjadi populer akhir-akhir ini. Ketimbang melatih secara langsung sebuah model untuk menghasilkan keluaran beresolusi tinggi yang dikondisikan pada sebuah sematan teks, teknik populer adalah dengan melatih sebuah model untuk menghasilkan keluaran beresolusi rendah, dan lalu menggunakan model pemelajaran dalam untuk meningkatkan resolusi, dengan mengisi detil yang lebih dalam. Model teks-ke-gambar dilatih pada kumpulan data berpasangan (teks, gambar), umumnya diambil dari web. Dengan model Imagen tahun 2022, Google Brain melaporkan hasil yang positif dari penggunaan model bahasa besar yang dilatih secara terpisah pada kumpulan teks saja (dengan bobot yang dibekukan), sebuah perbedaan dari pendekatan standar yang umum digunakan.[18] Kumpulan dataMelatih model teks-ke-gambar membutuhkan sebuah kumpulan data yang dipadukan dengan deskripsi teks. Sebuah kumpulan data yang umum digunakan untuk tujuan ini adalah COCO (Common Objects in Context). Dirilis oleh Microsoft pada tahun 2014, COCO berisi kurang lebih 123,000 gambar yang memperlihatkan keanekaragaman obyek, dengan lima deskripsi per gambar, yang dihasilkan oleh manusia. Oxford-120 Flowers dan CUB-200 Birds adalah kumpulan data yang lebih kecil, dimana masing-masing terbatas pada bunga dan burung. Menggunakan kumpulan data tersebut dianggap lebih mudah untuk melatih model teks-ke-gambar berkualitas tinggi, dikarenakan materinya lebih sempit.[7] EvaluasiMelakukan evaluasi dan membandingkan kualitas model teks-ke-gambar adalah tantangan, termasuk didalamnya menilai beberapa kriteria yang dianggap penting. Seperti pada semua model gambar pada umumnya, tentu sangat diharapkan bahwa gambar yang dihasilkan adalah realistis (dalam maksud bahwa gambar tersebut tampil seperti pada kumpulan data latih yang digunakan), dan memiliki gaya yang beragam. Sebuah kriteria penting pada model teks-ke-gambar adalah gambar yang dihasilkan selaras dengan deskripsi teks yang digunakan untuk menghasilkannya. Sejumlah skema telah dirancang untuk menilai hal tersebut, sebagian bersifat otomatis dan lainnya berdasarkan penilaian manusia.[7] Lihat pulaReferensi
|