Penyulihbentuk praterlatih generatif

Model GPT asli

Penyulihbentuk praterlatih generatif (PPG) atau GPT adalah jenis model bahasa besar (LLM) [1] [2] [3] dan kerangka kerja yang menonjol untuk kecerdasan buatan generatif . [4] [5] Mereka adalah jaringan saraf tiruan yang digunakan dalam tugas pemrosesan bahasa alami . [6] GPT didasarkan pada arsitektur penyulihbentuk, dilatih sebelumnya pada kumpulan data besar berisi teks tak berlabel, dan mampu menghasilkan konten baru yang mirip manusia. [2] [3] Pada tahun 2023, sebagian besar LLM memiliki karakteristik ini [7] dan terkadang disebut secara luas sebagai GPT. [8]

GPT pertama diperkenalkan pada tahun 2018 oleh OpenAI . [9] OpenAI telah merilis model dasar GPT yang sangat berpengaruh yang telah diberi nomor urut, untuk membentuk seri "GPT- n ". [10] Masing-masing secara signifikan lebih mampu dibandingkan sebelumnya, karena peningkatan ukuran (jumlah parameter yang dapat dilatih) dan pelatihan. Yang terbaru, GPT-4, dirilis pada Maret 2023. [11] Model seperti ini telah menjadi dasar bagi sistem GPT mereka yang lebih spesifik tugas, termasuk model yang disesuaikan untuk mengikuti instruksi — yang pada gilirannya mendukung layanan bot percakapan ChatGPT . [1]

Istilah "GPT" juga digunakan dalam nama dan deskripsi model yang dikembangkan oleh orang lain. Misalnya, model fondasi GPT lainnya mencakup serangkaian model yang dibuat oleh EleutherAI, [12] dan tujuh model yang dibuat oleh Cerebras pada tahun 2023. Selain itu, perusahaan di industri yang berbeda telah mengembangkan GPT khusus tugas di bidangnya masing-masing, seperti "EinsteinGPT" dari Salesforce (untuk CRM ) [13] dan "BloombergGPT" dari Bloomberg (untuk keuangan). [14]

Sejarah

Perkembangan awal

Pra-pelatihan generatif (GP) adalah konsep yang sudah lama ada dalam aplikasi pembelajaran mesin. [15] [16] [17] Awalnya digunakan sebagai bentuk pembelajaran semiselia, karena model dilatih terlebih dahulu pada kumpulan data yang tidak berlabel (langkah pra-pelatihan ) dengan mempelajari cara menghasilkan titik data dalam kumpulan data tersebut, lalu dilatih untuk mengklasifikasikan kumpulan data yang diberi label. [18]

Meskipun penyulihbentuk linier yang tidak dinormalisasi sudah ada sejak tahun 1992, [19] arsitektur penyulihbentuk modern baru tersedia pada tahun 2017 ketika dipublikasikan oleh para peneliti di Google dalam makalah " Attention Is All You Need ". [20] Perkembangan tersebut menyebabkan munculnya model bahasa besar seperti BERT pada tahun 2018 [21] yang merupakan transformator terlatih (PT) tetapi tidak dirancang untuk menjadi generatif (BERT adalah model "hanya encoder"). [22] Pada waktu yang sama, pada tahun 2018, OpenAI menerbitkan artikelnya yang berjudul "Meningkatkan Pemahaman Bahasa dengan Pra-Pelatihan Generatif", yang memperkenalkan sistem penyulihbentuk praterlatih generatif (GPT) (" GPT-1 ") yang pertama. [23]

Sebelum arsitektur berbasis penyulihbentuk model neural NLP ( pemrosesan bahasa alami ) dengan kinerja terbaik biasanya menggunakan pembelajaran yang diawasi dari sejumlah besar data yang diberi label secara manual. Ketergantungan pada pembelajaran yang diawasi membatasi penggunaannya pada kumpulan data yang tidak dianotasi dengan baik, dan juga menjadikannya sangat mahal dan memakan waktu untuk melatih model bahasa yang sangat besar. [24]

Pendekatan semi-supervisi yang digunakan OpenAI untuk membuat sistem generatif berskala besar — dan pertama kali dilakukan dengan model penyulihbentuk — melibatkan dua tahap: tahap "pelatihan awal" generatif tanpa pengawasan untuk menetapkan parameter awal menggunakan tujuan pemodelan bahasa, dan tahap yang diawasi. tahap " penyempurnaan " yang diskriminatif untuk menyesuaikan parameter ini dengan tugas target. [25]

Perkembangan selanjutnya

Mengenai model dasar GPT yang lebih baru, OpenAI menerbitkan versi pertama GPT-3 pada bulan Juli 2020. Terdapat tiga model dengan parameter 1B, 6.7B, 175B yang masing-masing diberi nama babbage, curie, dan davinci (memberi inisial B, C, dan D).

Pada bulan Juli 2021, OpenAI menerbitkan Codex, model GPT khusus tugas yang ditargetkan untuk aplikasi pemrograman. Ini dikembangkan dengan menyempurnakan GPT-3 versi parameter 12B (berbeda dari model GPT-3 sebelumnya) menggunakan kode dari GitHub . [26]

Pada bulan Maret 2022, OpenAI menerbitkan dua versi GPT-3 yang telah disesuaikan untuk mengikuti instruksi (instruction-tuned), bernama davinci-instruct-beta (175B) dan text-davinci-001, [27] lalu memulai beta pengujian kode-davinci-002 . [28] text-davinci-002 telah disetel instruksi dari code-davinci-002 . Text-davinci-003 dan ChatGPT dirilis pada November 2022, dan keduanya dikembangkan berdasarkan text-davinci-002 melalui pembelajaran penguatan dari umpan balik manusia (RLHF). text-davinci-003 dilatih untuk mengikuti instruksi (seperti pendahulunya), sedangkan ChatGPT dilatih lebih lanjut untuk interaksi percakapan dengan pengguna manusia. [29] [30]

Model dasar GPT terbaru OpenAI, GPT-4, dirilis pada 14 Maret 2023. Ini dapat diakses langsung oleh pengguna melalui ChatGPT versi premium, dan tersedia bagi pengembang untuk digabungkan ke dalam produk dan layanan lain melalui API OpenAI. Produsen model dasar GPT lainnya termasuk EleutherAI (dengan serangkaian model yang dimulai pada Maret 2021) [31] dan Cerebras (dengan tujuh model yang dirilis pada Maret 2023).

Model dasar

Model dasar adalah model AI yang dilatih pada data luas dalam skala besar sehingga dapat disesuaikan dengan berbagai tugas hilir. Kesalahan pengutipan: Tag <ref> tidak sah atau memiliki nama yang salah.

Sejauh ini, model fondasi GPT yang paling terkenal berasal dari seri GPT-n OpenAI . Yang terbaru adalah GPT-4, dimana OpenAI menolak untuk mempublikasikan ukuran atau rincian pelatihannya (dengan alasan "lanskap persaingan dan implikasi keselamatan dari model skala besar"). [32]

Seri "GPT-n" OpenAI
Model Arsitektur Jumlah parameter Data pelatihan Tanggal rilis Biaya pelatihan
GPT-1 Pengawasandi di penyulihbentuk 12 tingkat, berkepala 12 (tanpa pereksandi), diikuti oleh linear-softmax. 117 juta BookCorpus : Teks 4,5 GB, dari 7000 buku yang belum diterbitkan dari berbagai genre. 02018-06-1111 June 2018 [9] 30 hari pada 8 GPU P600, atau 1 peta FLOP /s-hari. [9]
GPT-2 GPT-1, tetapi dengan normalisasi yang dimodifikasi 1,5 miliar WebText: 40 GB teks, 8 juta dokumen, dari 45 juta halaman web yang diberi suara positif di Reddit . 02019-02-1414 February 2019 (versi awal/terbatas) dan 02019-11-055 November 2019 (versi lengkap) [33] "puluhan petaflop/s-hari", [34] atau 1,5e21 FLOP. [35]
GPT-3 GPT-2, tetapi dengan modifikasi untuk memungkinkan penskalaan yang lebih besar 175 miliar [36] 499 miliar token yang terdiri dari CommonCrawl (570 GB), WebText, Wikipedia bahasa Inggris, dan dua korpora buku (Buku1 dan Buku2). 02020-05-2828 May 2020 [34] 3640 petaflop/s-hari (Tabel D.1 [34] ), atau 3.1e23 FLOP. [35]
GPT-3.5 Tidak diungkapkan 175 miliar [36] Tidak diungkapkan 15 Maret 2022 Tidak diungkapkan
GPT-4 Juga dilatih dengan prediksi teks dan RLHF ; menerima teks dan gambar sebagai masukan. Rincian lebih lanjut tidak bersifat publik. [37] Tidak diungkapkan. Diperkirakan 1,7 triliun [38] Tidak diungkapkan 02023-03-1414 March 2023 Tidak diungkapkan. Diperkirakan 2,1e25 FLOP. [35]

Model serupa lainnya termasuk PaLM Google, model landasan luas yang telah dibandingkan dengan GPT-3 dan baru-baru ini tersedia bagi pengembang melalui API, [39] [40] dan GPT-JT Together, yang dilaporkan sebagai alternatif sumber terbuka yang kinerjanya paling mendekati GPT-3 (dan berasal dari GPT sumber terbuka sebelumnya ). [41] Meta AI (sebelumnya Facebook ) juga memiliki model bahasa besar dasar berbasis penyulihbentuk generatif, yang dikenal sebagai LLaMA . [42]

GPT dasar juga dapat menggunakan modalitas selain teks, untuk masukan dan/atau keluaran. GPT-4 adalah LLM multimodal yang mampu memproses masukan teks dan gambar (meskipun keluarannya terbatas pada teks). [43] Mengenai keluaran multimodal, beberapa model berbasis penyulihbentuk generatif digunakan untuk teknologi teks-ke-gambar seperti difusi [44] dan decoding paralel. [45] Model semacam ini dapat berfungsi sebagai model landasan visual (VFM) untuk mengembangkan sistem hilir yang dapat bekerja dengan gambar. [46]

Referensi

  1. ^ a b Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com. 
  2. ^ a b "Generative AI: a game-changer society needs to be ready for". World Economic Forum. 9 January 2023. 
  3. ^ a b Time.  Tidak memiliki atau tanpa |title= (bantuan)
  4. ^ Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium. 
  5. ^ "CSDL | IEEE Computer Society". www.computer.org. 
  6. ^ "LibGuides: Using AI Language Models : ChatGPT". 
  7. ^ Toews, Rob. "The Next Generation Of Large Language Models". Forbes. 
  8. ^ Mckendrick, Joe (March 13, 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes. 
  9. ^ a b c "Improving language understanding with unsupervised learning". openai.com (dalam bahasa Inggris). June 11, 2018. Diarsipkan dari versi asli tanggal 2023-03-18. Diakses tanggal 2023-03-18.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama "gpt1" didefinisikan berulang dengan isi berbeda
  10. ^ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". MUO. April 11, 2023. 
  11. ^ "GPT-4". openai.com (dalam bahasa Inggris). Diakses tanggal 2023-12-08. 
  12. ^ Alford, Anthony (July 13, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. 
  13. ^ Morrison, Ryan (7 March 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor. 
  14. ^ "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes. 
  15. ^ Schmidhuber, Jürgen (1992). "Learning complex, extended sequences using the principle of history compression" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. 
  16. ^ Hinton (et-al), Geoffrey (October 15, 2012). "Deep neural networks for acoustic modeling in speech recognition" (PDF). IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. 
  17. ^ Deng, Li (2014-01-22). "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Apsipa Transactions on Signal and Information Processing. Cambridge.org. 3: e2. doi:10.1017/atsip.2013.9. 
  18. ^ Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (2010-03-31). "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (dalam bahasa Inggris). JMLR Workshop and Conference Proceedings: 201–208. 
  19. ^ Schmidhuber, Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets". Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131. 
  20. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 
  21. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (May 24, 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Association for Computational Linguistics. arXiv:1810.04805v2alt=Dapat diakses gratis. 
  22. ^ Naik, Amit Raja (September 23, 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine. 
  23. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. hlm. 12. Diarsipkan dari versi asli (PDF) tanggal 26 January 2021. Diakses tanggal 23 January 2021. 
  24. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. hlm. 12. Diarsipkan dari versi asli (PDF) tanggal 26 January 2021. Diakses tanggal 23 January 2021. 
  25. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. hlm. 12. Diarsipkan dari versi asli (PDF) tanggal 26 January 2021. Diakses tanggal 23 January 2021. 
  26. ^ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas (2021-07-01). "Evaluating Large Language Models Trained on Code". Association for Computational Linguistics. arXiv:2107.03374alt=Dapat diakses gratis. 
  27. ^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina (2022-12-06). "Training language models to follow instructions with human feedback". Advances in Neural Information Processing Systems (dalam bahasa Inggris). 35: 27730–27744. arXiv:2203.02155alt=Dapat diakses gratis. 
  28. ^ "New GPT-3 capabilities: Edit & insert". openai.com (dalam bahasa Inggris). Diakses tanggal 2023-06-24. 
  29. ^ Fu, Yao; Peng, Hao; Khot, Tushar (2022). "How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources". Yao Fu's Notion. 
  30. ^ "Model index for researchers". OpenAI API (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 23 Jun 2023. Diakses tanggal 2023-06-23. 
  31. ^ Alford, Anthony (July 13, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ. 
  32. ^ OpenAI (2023). "GPT-4 Technical Report" (PDF). Diarsipkan dari versi asli (PDF) tanggal 2023-03-14. Diakses tanggal 2023-03-16. 
  33. ^ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge. 
  34. ^ a b c Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (May 28, 2020). "Language Models are Few-Shot Learners". NeurIPS. arXiv:2005.14165v4alt=Dapat diakses gratis.  Parameter |dead-url=Ziegler tidak valid (bantuan)
  35. ^ a b c "ML input trends visualization". Epoch (dalam bahasa Inggris). Diakses tanggal 2023-05-02. 
  36. ^ a b Ver Meer, Dave (June 1, 2023). "ChatGPT Statistics". NamePepper (dalam bahasa Inggris). Diakses tanggal 2023-06-09. 
  37. ^ OpenAI (2023). "GPT-4 Technical Report" (PDF). Diarsipkan dari versi asli (PDF) tanggal 2023-03-14. Diakses tanggal 2023-03-16. 
  38. ^ "GPT-4 has more than a trillion parameters – Report". March 25, 2023. 
  39. ^ Vincent, James (March 14, 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. 
  40. ^ "Google Opens Access to PaLM Language Model". 
  41. ^ Iyer, Aparna (November 30, 2022). "Meet GPT-JT, the Closest Open Source Alternative to GPT-3". Analytics India Magazine. 
  42. ^ "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG. 
  43. ^ Islam, Arham (March 27, 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". 
  44. ^ Islam, Arham (November 14, 2022). "How Do DALL·E 2, Stable Diffusion, and Midjourney Work?". 
  45. ^ Saha, Shritama (January 4, 2023). "Google Launches Muse, A New Text-to-Image Transformer Model". Analytics India Magazine. 
  46. ^ Wu (et-al), Chenfei (March 8, 2023). "Visual ChatGPT". MISSING LINK. . 
Kembali kehalaman sebelumnya