DeepSeek

Hangzhou DeepSeek Artificial Intelligence Co., Ltd.
Nama asli
杭州深度求索人工智能基础技术研究有限公司
Swasta
IndustriTeknologi informasi
DidirikanMei 2023; 19 bulan lalu (2023-05)
Pendiri
Kantor pusatHangzhou, Zhejiang, Tiongkok
Tokoh kunci
  • Liang Wenfeng (CEO)
PemilikHigh-Flyer
Situs webwww.deepseek.com Sunting ini di Wikidata
X: deepseek_ai GitHub: deepseek-ai Modifica els identificadors a Wikidata

DeepSeek adalah nama yang diberikan untuk model bahasa besar (LLM) sumber terbuka yang dikembangkan oleh sebuah perusahaan kecerdasan buatan asal Tiongkok bernama Hangzhou DeepSeek Artificial Intelligence Co., Ltd. (Hanzi: 深度求索; Pinyin: Shēndù Qiúsuǒ). Perusahaan tersebut, yang berkantor pusat di Hangzhou, Zhejiang, dimiliki dan didanai sepenuhnya oleh dana lindung nilai High-Flyer, yang salah seorang pendirinya, Liang Wenfeng, mendirikan perusahaan tersebut pada tahun 2023 dan menjabat sebagai CEO-nya.

DeepSeek melakukan tugas pada level yang sama dengan ChatGPT,[1] meskipun dikembangkan dengan biaya yang jauh lebih rendah, yaitu sebesar US$ 6 juta, dibandingkan dengan $100 juta untuk GPT-4 oleh OpenAI pada tahun 2023,[2] dan membutuhkan sepersepuluh dari daya komputasi LLM yang sebanding.[2][3][4][5] Model AI dikembangkan oleh DeepSeek di tengah sanksi AS terhadap Tiongkok atas cip Nvidia, yang dimaksudkan untuk membatasi kemampuan negara tersebut untuk mengembangkan sistem AI tingkat lanjut.[6][7] Pada 10 Januari 2025, perusahaan ini merilis aplikasi bot percakapan gratis pertamanya untuk iOS Apple dan Android; pada 27 Januari, aplikasi ini telah melampaui ChatGPT sebagai aplikasi gratis yang paling banyak diunduh di iOS App Store di Amerika Serikat,[8] dan menyebabkan harga saham Nvidia turun sebesar 18%.[9][10][11] Keberhasilan DeepSeek melawan para pesaing yang lebih besar dan mapan telah digambarkan sebagai "pengubah AI,"[8] yang merupakan "tembakan pertama dalam apa yang berkembang sebagai perlombaan ruang AI global"[12] dan mengawali "era baru dari taktik AI yang penuh tipu daya."[13]

DeepSeek telah menjadikan bot percakapan kecerdasan buatan generatifnya sumber terbuka, menjadikan kodenya tersedia secara bebas untuk digunakan, dimodifikasi, dan dilihat; hal ini termasuk izin untuk mengakses dan memanfaatkan kode sumber dan dokumen desain untuk tujuan pembangunan.[14] Perusahaan ini secara aktif merekrut peneliti muda AI dari universitas-universitas ternama di Tiongkok,[8] dan merekrut orang dari luar bidang ilmu komputer untuk menganekaragamkan pengetahuan dan kemampuan modelnya.[4]

Latar belakang

Pada bulan Februari 2016, High-Flyer didirikan oleh seorang penggemar AI bernama Liang Wenfeng, yang telah berdagang sejak krisis keuangan 2007–2008 saat kuliah di Universitas Zhejiang.[15] Pada tahun 2019, ia mendirikan High-Flyer sebagai dana lindung nilai yang berfokus pada pengembangan dan penggunaan algoritma perdagangan AI. Pada tahun 2021, High-Flyer secara eksklusif menggunakan AI dalam perdagangan.[16] DeepSeek telah menjadikan bot percakapan kecerdasan buatan generatifnya sumber terbuka, yang berarti kodenya tersedia secara bebas untuk digunakan, dimodifikasi, dan dilihat. Hal ini termasuk izin untuk mengakses dan menggunakan kode sumber, serta dokumen desain, untuk tujuan pembangunan.[14]

Per 36Kr, Liang telah membangun penyimpanan 10.000 GPU Nvidia A100 sebelum pemerintah AS memberlakukan pembatasan cip AI di Tiongkok.[16] Beberapa perkiraan menyebutkan jumlahnya mencapai 50.000.[15]

Pada bulan April 2023, High-Flyer memulai laboratorium kecerdasan umum buatan yang didedikasikan untuk meneliti pengembangan alat AI yang terpisah dari bisnis keuangan High-Flyer.[17][18] Pada bulan Mei 2023, dengan High-Flyer sebagai salah satu investor, lab tersebut menjadi suatu perusahaan yang berdiri sendiri, yaitu DeepSeek.[16][19][18] Perusahaan modal ventura enggan memberikan pendanaan karena tidak mungkin menghasilkan keuntungan dalam waktu singkat.[16]

Setelah merilis DeepSeek-V2 pada Mei 2024, yang menawarkan kinerja kuat dengan harga murah, DeepSeek dikenal sebagai katalisator perang harga model AI Tiongkok. Perusahaan ini dengan cepat dijuluki "Pinduoduo AI", dan raksasa teknologi lainnya, seperti ByteDance, Tencent, Baidu, dan Alibaba mulai memangkas harga model AI mereka untuk bersaing dengan perusahaan tersebut. Meskipun harga yang dikenakan DeepSeek rendah, perusahaan ini tetap menguntungkan dibandingkan dengan pesaingnya yang merugi.[20]

DeepSeek berfokus hanya pada penelitian dan tidak memiliki rencana terperinci untuk komersialisasi;[20] Hal ini juga memungkinkan teknologinya menghindari ketentuan paling ketat dari peraturan AI Tiongkok, seperti mengharuskan teknologi yang berhadapan dengan konsumen untuk mematuhi kontrol pemerintah terhadap informasi.[4]

Preferensi perekrutan DeepSeek lebih mengutamakan kemampuan teknis daripada pengalaman kerja sehingga sebagian besar karyawan baru adalah lulusan universitas atau pengembang yang karier AI-nya belum begitu mapan.[18][4] Demikian pula, perusahaan merekrut individu tanpa latar belakang ilmu komputer untuk membantu teknologinya memahami topik dan bidang pengetahuan lainnya, termasuk kemampuan untuk menciptakan puisi dan kemampuan untuk mengerjakan ujian masuk perguruan tinggi Tiongkok yang terkenal sulit.[4]

Riwayat rilis

DeepSeek LLM

Pada tanggal 2 November 2023, DeepSeek merilis seri model pertamanya, DeepSeek-Coder, yang tersedia gratis untuk peneliti dan pengguna komersial. Kode untuk model tersebut dibuat sumber terbuka di bawah lisensi MIT, dengan perjanjian lisensi tambahan ("lisensi DeepSeek") mengenai "penggunaan hilir yang terbuka dan bertanggung jawab" untuk model itu sendiri.[21]

Model-model tersebut memiliki arsitektur yang sama dengan DeepSeek LLM yang dirinci di bawah ini. Seri ini mencakup 8 model, 4 pretrained (Base) dan 4 instruction-finetuned (Instruct). Semuanya memiliki panjang konteks 16K. Pelatihannya adalah sebagai berikut:[22][23][24]

  1. Pretraining (Prapelatihan): token 1,8T (87% kode sumber, 10% kode terkait bahasa Inggris (GitHub Markdown dan Stack Exchange), dan 3% kode terkait bahasa Mandarin).
  2. Long-context pretraining: 200B token. Ini memperluas panjang konteks dari 4K ke 16K. Ini menghasilkan model Base.
  3. Supervised finetuning (SFT): 2B token data instruksi. Ini menghasilkan model Instruct.

Model-model tersebut dilatih pada kluster-kluster GPU Nvidia A100 dan H800, yang dihubungkan oleh InfiniBand, NVLink, NVSwitch.[22]

Properti DeepSeek Coder[22]:Tabel 2[25]
Param.
1.3B 24 2048 5504 16 16
5.7B 32 4096 11008 32 1
6.7B 32 4096 11008 32 32
33B 62 7168 19200 56 7

Perhatikan bahwa number of heads tidak sama dengan number of KV heads untuk 5.6B dan 33B karena Grouped query attention (GQA).

Pada tanggal 29 November 2023, DeepSeek merilis seri model DeepSeek-LLM, dengan parameter 7B dan 67B dalam formulir Base dan Chat (tidak ada Instruct yang dirilis). Program ini dikembangkan untuk bersaing dengan LLM lain yang tersedia saat itu. Makalah ini mengklaim hasil pengujian tolok ukur (benchmark) lebih tinggi daripada kebanyakan LLM sumber terbuka pada saat itu, terutama Llama 2.[26]:section 5  Seperti DeepSeek Coder, kode untuk model tersebut berada di bawah lisensi MIT, dengan lisensi DeepSeek untuk model itu sendiri.[27]

Arsitekturnya pada dasarnya sama dengan seri Llama. Model-model tersebut menggunakan pre-norm decoder-only Transformer dengan RMSNorm sebagai normalisasi, SwiGLU dalam feedforward layers, rotary positional embedding (RoPE), dan grouped-query attention (GQA). Keduanya memiliki ukuran kosakata 102400 (BPE tingkat byte) dan panjang konteks 4096. Model-model tersebut berlatih pada 2 triliun token teks bahasa Inggris dan Mandarin yang diperoleh dengan mendeduplikasi Common Crawl.[26]

Properti DeepSeek LLM[26]:Tabel 2
Param.
7B 30 4096 11008 32 32
67B 95 8192 22016 64 8

Perhatikan bahwa number of heads tidak sama dengan number of KV heads untuk 67B karena Grouped query attention (GQA).

Versi Chat dari dua model Base juga dirilis secara bersamaan, diperoleh dengan melatih Base melalui supervised finetuning (SFT) diikuti oleh direct policy optimization (DPO).[26]

Pada bulan April 2024, mereka merilis 3 model DeepSeek-Math yang dikhususkan untuk mengerjakan soal-soal matematika: Base, Instruct, RL. Pelatihannya sebagai berikut:[28]

  1. Inisialisasi dengan DeepSeek-Coder-Base-v1.5 7B yang sudah pretrained.
  2. Lakukan pretraining lebih lanjut dengan 500B token (6% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% kode GitHub, 10% Common Crawl). Tahap ini menghasilkan model Base.
  3. Latih instruction-following model oleh SFT Base dengan 776K soal matematika dan solusi tool-use-integrated step-by-step. Tahap ini menghasilkan model Instruct.
  4. Reinforcement learning (RL): Model reward-nya adalah process reward model (PRM) yang dilatih dari Base sesuai dengan metode Math-Shepherd.[29] Model reward ini kemudian digunakan untuk melatih Instruct menggunakan group relative policy optimization (GRPO) pada kumpulan data 144K pertanyaan matematika "berkaitan dengan GSM8K dan MATH". Model reward terus diperbarui selama pelatihan untuk menghindari peretasan reward. Tahap ini menghasilkan model RL.

V2

Pada bulan Mei 2024, mereka merilis seri DeepSeek-V2. Seri ini mencakup 4 model, 2 model dasar (DeepSeek-V2, DeepSeek-V2-Lite) dan 2 bot percakapan (-Chat). Kedua model yang lebih besar dilatih sebagai berikut:[30]

  1. Lakukan pretraining pada himpunan data token 8,1T dengan token berbahasa Mandarin 12% lebih banyak daripada token berbahasa Inggris.
  2. Perluas context length dari 4K ke 128K menggunakan YaRN.[31] Tahap ini menghasilkan DeepSeek-V2.
  3. SFT dengan 1,2M instances untuk helpfulness dan 0,3M untuk safety. Tahap ini menghasilkan DeepSeek-V2-Chat (SFT) yang tidak dirilis.
  4. RL menggunakan GRPO dalam dua tahap. Tahap pertama dilatih untuk memecahkan masalah matematika dan pengkodean. Tahap ini menggunakan 1 model reward, dilatih pada compiler feedback (untuk pengkodean) dan ground-truth labels (untuk matematika). Tahap kedua dilatih agar helpful, safe, dan mematuhi aturan. Tahap ini menggunakan 3 model reward. Model reward atas bantuan dan keselamatan dilatih pada data preferensi manusia. Model rule-based reward diprogram secara manual. Semua model reward yang dilatih diinisialisasi dari DeepSeek-V2-Chat (SFT). Tahap ini menghasilkan dirilisnya versi DeepSeek-V2-Chat.

Mereka memilih RL 2-tahap karena mereka menemukan bahwa RL pada data penalaran (reasoning) memiliki "karakteristik unik" yang berbeda dari RL pada data umum. Misalnya, RL pada penalaran dapat ditingkatkan melalui beberapa langkah pelatihan.[30]

Kedua model V2-Lite merupakan model yang lebih kecil, dan dilatih secara serupa, meskipun DeepSeek-V2-Lite-Chat hanya menjalani SFT, bukan RL. Mereka melatih versi Lite untuk membantu "penelitian dan pengembangan lebih lanjut pada MLA dan DeepSeekMoE".[30]

Secara arsitektur, model V2 dimodifikasi secara signifikan dari seri DeepSeek LLM. Mereka mengubah mekanisme atensi standar (standard attention mechanism) dengan low-rank approximation yang disebut multi-head latent attention (MLA), dan menggunakan varian mixture of experts (MoE) yang sebelumnya diterbitkan pada bulan Januari. Dibandingkan dengan standard sparsely-gated MoE, varian mereka memiliki "pakar bersama" (shared experts) yang selalu di-query, dan "pakar yang dirutekan" (routed experts) yang mungkin tidak di-query.[32]

Properti DeepSeek V2 [30]:Section 3.1.2, Appendix B[33] [34]
Nama Param. Param. aktif Panjang konteks
V2-Lite 15,7B 2,4B 27 32K 2 64
V2 236B 21B 60 128K 2 160

Financial Times melaporkan bahwa harga token ini lebih murah dibanding pesaingnya, yaitu 2 RMB per juta token keluaran. Papan peringkat Tiger Lab dari University of Waterloo menempatkan DeepSeek-V2 pada posisi ketujuh dalam peringkat LLM.[19]

Pada bulan Juni, mereka merilis 4 model dalam seri DeepSeek-Coder-V2: V2-Base, V2-Lite-Base, V2-Instruct, V2-Lite-Instruct. Model-model tersebut dilatih sebagai berikut:[35][note 1]

  1. Model Base diinisialisasi dari titik pemeriksaan (checkpoints) intermediate yang sesuai setelah pretraining pada token 4.2T (bukan versi di akhir pretraining), lalu dilatih lebih lanjut untuk token 6T, lalu diperluas konteksnya ke panjang konteks 128K. Tahap menghasilkan model Base.
  2. DeepSeek-Coder dan DeepSeek-Math digunakan untuk menghasilkan 20K data instruksi terkait kode dan 30K data instruksi terkait matematika, lalu digabungkan dengan kumpulan data instruksi sebanyak 300M token. Ini digunakan untuk SFT.
  3. RL dengan GRPO. Reward untuk soal matematika dihitung dengan membandingkannya dengan ground-truth label. Reward untuk masalah kode dihasilkan oleh model reward yang dilatih untuk memprediksi apakah suatu program akan lulus uji unit.

DeepSeek-V2.5 dirilis pada bulan September dan diperbarui pada bulan Desember. Rilisan tersebut dibuat dengan menggabungkan DeepSeek-V2-Chat dan DeepSeek-Coder-V2-Instruct.[36]

V3

Pada bulan Desember 2024, mereka merilis model dasar DeepSeek-V3-Base dan model bot percakapan DeepSeek-V3. Arsitektur modelnya pada dasarnya sama dengan V2. Model-model tersebut dilatih sebagai berikut:[37]

  1. Pretraining pada token 14,8T dari korpus multibahasa, sebagian besar bahasa Inggris dan Mandarin. Dataset ini berisi rasio matematika dan pemrograman yang lebih tinggi daripada dataset untuk pretraining V2.
  2. Perluasan panjang konteks (context length) dua kali, dari 4K ke 32K dan kemudian ke 128K, menggunakan YaRN.[31] Tahap ini menghasilkan DeepSeek-V 3-Base.
  3. SFT selama 2 periode pada 1,5M sampel data penalaran (matematika, pemrograman, logika) dan non-penalaran (penulisan kreatif, permainan peran, jawaban pertanyaan sederhana). Data penalaran dihasilkan oleh "model ahli". Data non-penalaran dihasilkan oleh DeepSeek-V2.5 dan diperiksa oleh manusia.
    • "Model pakar" (expert models) dilatih dengan memulai dengan model dasar yang tidak ditentukan, lalu SFT pada data <problem, original response>, dan data sintetis <system prompt, problem, R1 response> yang dihasilkan oleh model DeepSeek-R1 internal. Perintah sistem meminta R1 untuk berpikir dan memverifikasi selama berpikir. Kemudian, model ahli RL menggunakan fungsi imbalan yang tidak ditentukan.
    • Setiap model ahli dilatih untuk menghasilkan data penalaran sintetis hanya dalam satu domain spesifik (matematika, pemrograman, logika).
    • Model ahli digunakan, bukan R1 itu sendiri, karena keluaran dari R1 sendiri mengalami "pemikiran berlebihan, format buruk, dan panjang sekali".
  4. Model reward berbasis model dibuat dengan memulai dengan checkpoint SFT V3, lalu menyempurnakan data preferensi manusia yang berisi reward akhir dan rangkaian pemikiran yang mengarah ke reward akhir. Model reward menghasilkan sinyal reward untuk pertanyaan dengan jawaban objektif, tetapi berbentuk bebas, dan pertanyaan tanpa jawaban objektif (seperti penulisan kreatif).
  5. Checkpoint SFT V3 dilatih oleh GRPO menggunakan model-based reward dan rule-based reward. Rule-based reward dihitung untuk soal matematika dengan jawaban akhir (dimasukkan ke dalam kotak), dan untuk soal pemrograman dengan uji unit. Tahap ini menghasilkan DeepSeek-V3.
Properti DeepSeek V3 [37]:Section 4.2[38]
Nama Param. Param aktif Panjang konteks
V3 671B 37B 61 128K 1 256

Mereka melakukan rekayasa tingkat rendah yang ekstensif untuk mencapai efisiensi. Mereka menggunakan mixed-precision arithmetic. Sebagian besar pemindahan data ke depan dilakukan dalam bilangan floating point 8-bit (5E2M: eksponen 5-bit dan mantissa 2-bit) dan bukan dalam format standar 32-bit sehingga memerlukan rutinitas GEMM khusus untuk mengakumulasi secara akurat. Mereka menggunakan float 12-bit khusus (E5M6) hanya untuk masukan ke lapisan linier setelah modul atensi. Status pengoptimal berada dalam 16-bit (BF16). Mereka meminimalkan latensi komunikasi dengan melakukan tumpang tindih komputasi dan komunikasi secara ekstensif, seperti mendedikasikan 20 multiprosesor streaming dari 132 per H800 hanya untuk komunikasi antar-GPU. Mereka menurunkan komunikasi dengan mengatur ulang (setiap 10 menit) mesin yang digunakan oleh masing-masing ahli untuk menghindari mesin tertentu yang lebih sering diakses daripada mesin lainnya, menambahkan kerugian penyeimbangan beban tambahan ke fungsi kerugian pelatihan, dan teknik penyeimbangan beban lainnya.[37]

Setelah pelatihan, ia disebarkan pada klaster H800. H800 dalam satu klaster dihubungkan melalui NVLink. Klaster-klaster tersebut dihubungkan oleh InfiniBand.[37]

Total biaya pelatihan model DeepSeek-V3[37]:Tabel 1
Stage Biaya (dalam seribu jam GPU) Biaya (dalam satu juta USD$)
Pre-training 2.664 5.328
Context extension 119 0.24
Fine-tuning 5 0,01
Total 2.788 5.576

Pengujian tolok ukur (benchmark) menunjukkan bahwa DeepSeek-V3 mengungguli Llama 3.1 dan Qwen 2.5 sambil menyamai GPT-4o dan Claude 3.5 Sonnet.[18][39][40][41]

R1

Pada tanggal 20 November 2024, DeepSeek-R1-Lite-Preview dapat diakses melalui API DeepSeek dan situs web chat.deepseek.com.[42] Ia dilatih untuk inferensi logis, penalaran matematika, dan pemecahan masalah real-time. DeepSeek mengklaim bahwa kinerjanya melampaui OpenAI o1 pada pengujian tolok ukur (benchmark) seperti American Invitational Mathematics Examination (AIME) dan MATH. [43] Namun, The Wall Street Journal menyatakan ketika menggunakan 15 masalah dari edisi AIME 2024, model o1 mendapatkan solusi untuk soal matematika lebih cepat daripada DeepSeek-R1-Lite-Preview.[44]

Pada tanggal 20 Januari 2025, DeepSeek-R1 dan DeepSeek-R1-Zero dirilis.[45] Keduanya diinisialisasi dari DeepSeek-V3-Base. Perusahaan ini juga merilis beberapa model "DeepSeek-R1-Distill", yang tidak diinisialisasi pada V3-Base, tetapi diinisialisasi dari model pretrained open-weight lainnya, termasuk LLaMA dan Qwen, kemudian disempurnakan pada data sintetis yang dihasilkan oleh R1.[46]

Templat untuk DeepSeek-R1-Zero

Percakapan antara Pengguna dan Asisten. Pengguna mengajukan pertanyaan, dan Asisten menyelesaikannya. Asisten pertama-tama memikirkan proses penalaran dalam benaknya, lalu memberikan jawaban kepada pengguna. Proses penalaran dan jawaban masing-masing disertakan dalam tag <think> </think> dan <answer> </answer>, yaitu <think> proses penalaran di sini </think> <answer> jawaban di sini </answer>. Pengguna: <prompt>. Asisten:

– <prompt> diganti dengan pertanyaan penalaran spesifik selama pelatihan.

DeepSeek-R1-Zero dilatih secara eksklusif menggunakan GRPO RL tanpa SFT. Tidak seperti versi sebelumnya, mereka tidak menggunakan reward berbasis model. Semua rule-based reward, "terutama" dari dua jenis (jenis lainnya tidak ditentukan): reward akurasi dan reward format. Rewawrd akurasi memeriksa apakah jawaban yang diberikan tanda kotak itu benar (untuk matematika) atau apakah suatu kode lulus uji (untuk pemrograman). Format reward memeriksa penempatan thinking trace model tersebut dalam <think>... </think>.[46]

Oleh karena R1-Zero memiliki masalah terkait keterbacaan (readability) dan pencampuran bahasa, R1 dilatih untuk mengatasi masalah ini dan lebih meningkatkan penalaran:[46]

  1. SFT DeepSeek-V3-Base pada "ribuan" data "cold-start" semuanya dengan format standar |special_token|<reasoning_process>|special_token|summary>.
  2. Terapkan proses RL yang sama seperti R1-Zero, tetapi juga dengan "reward konsistensi bahasa" untuk mendorongnya merespons secara monolingual. Tahap ini menghasilkan model internal yang tidak dirilis.
  3. Mensintesiskan 600K data penalaran dari model internal, dengan pengambilan sampel penolakan (misalnya, jika penalaran yang dihasilkan memiliki jawaban akhir yang salah, maka penalaran tersebut dihapus). Mensintesiskan 200K data non-penalaran (penulisan, tanya jawab faktual, pengenalan diri, penerjemahan) menggunakan DeepSeek-V3.
  4. SFT DeepSeek-V3-Base pada data sintetis 800K selama 2 epoch.
  5. GRPO RL dengan rule-based reward (untuk tugas penalaran) dan model-based reward (untuk tugas non-penalaran, helpfulness, dan harmlessness). Tahap ini menghasilkan DeepSeek-R1.

Distilled models dilatih oleh SFT pada 800K data yang disintesis dari DeepSeek-R1, dengan cara yang sama seperti langkah 3 di atas. Model-model tersebut tidak dilatih dengan RL.

Kesan

DeepSeek merilis Asisten AI-nya, yang menggunakan model V3 sebagai aplikasi bot percakapan untuk iOS Apple dan Android. Pada 27 Januari 2025, aplikasi ini telah melampaui ChatGPT sebagai aplikasi gratis dengan peringkat tertinggi di iOS App Store di Amerika Serikat; bot percakapannya dilaporkan dapat menjawab pertanyaan, memecahkan masalah logika, dan menulis program komputer setara dengan bot percakapan lain di pasaran, menurut pengujian tolok ukur (benchmark) yang digunakan oleh perusahaan AI Amerika.[4] DeepSeek-V3 menggunakan sumber daya yang jauh lebih sedikit dibandingkan dengan pesaingnya; misalnya, sementara perusahaan AI terkemuka di dunia melatih chatbot mereka dengan superkomputer yang menggunakan sebanyak 16.000 sirkuit terpadu ("cip komputer"), jika tidak lebih, DeepSeek mengklaim hanya membutuhkan sekitar 2.000 cip komputer khusus, yaitu seri H800 dari perusahaan teknologi multinasional Amerika Nvidia. Pelatihan ini memakan waktu sekitar 55 hari dengan biaya sebesar US$5,58 juta,[37] yang kira-kira 10 kali lebih sedikit dari jumlah yang dikeluarkan oleh raksasa teknologi AS,Meta, untuk membangun teknologi AI terbarunya.[4]

Performa kompetitif DeepSeek telah diakui berpotensi menantang dominasi global model AI Amerika;[47] sebuah opini oleh The Hill menggambarkan peluncuran bot percakapannya sebagai "momen Sputnik" untuk AI Amerika.[48] Optimalisasi sumber daya terbatas DeepSeek telah menyoroti potensi batasan sanksi AS terhadap pengembangan AI Tiongkok, yang mencakup pembatasan ekspor cip AI canggih ke Tiongkok.[18][49] Keberhasilan model DeepSeek kemudian "memicu kekacauan pasar"[50] dan menyebabkan saham-saham di perusahaan-perusahaan teknologi global jatuh pada tanggal 27 Januari: saham Nvidia jatuh hingga 17–18%,[51] dan begitu pula saham perusahaan pesaingnya, Broadcom. Perusahaan teknologi lain juga mengalami kemerosotan, termasuk Microsoft (turun 2,5%), Alphabet induk Google (turun lebih dari 4%), dan pembuat peralatan cip asal Belanda, ASML (turun lebih dari 7%).[52]

Performa R1 dilaporkan "setara" dengan salah satu model terbaru OpenAI saat digunakan untuk tugas-tugas seperti matematika, pengkodean, dan penalaran bahasa alami;[52] menggemakan opini The Hill tentang V3, kapitalis ventura Lembah Silikon Amerika, Marc Andreessen, juga menggambarkan R1 sebagai "momen Sputnik AI".[52]

Penjualan saham teknologi global di Nasdaq, didorong oleh rilis model R1, telah menyebabkan kerugian rekor sekitar $593 miliar pada kapitalisasi pasar perusahaan AI dan perangkat keras komputer.[53]

The Guardian membandingkan DeepSeek dengan "Sputnik" Perang Dingin yang mengakibatkan nilai saham Amerika merosot hingga $1 triliun, sementara Presiden Amerika, Donald Trump, menyebutnya sebagai peringatan[54] dan perkembangan yang positif.[55][56][57][58]

Pada tanggal 27 Januari, DeepSeek membatasi pendaftaran pengguna baru hanya untuk nomor telepon yang berasal dari daratan Tiongkok setelah adanya laporan serangan siber.[59][60]

Amazon Web Services, Toyota, dan Stripe telah mencoba menggunakan model ini dalam program mereka.[61]

Kekhawatiran

Penyensoran

Tanggapan DeepSeek saat ditanya tentang Xi Jinping dan Narendra Modi.

Beberapa sumber telah mengamati bahwa versi API resmi R1 menggunakan mekanisme penyensoran untuk topik yang dianggap sensitif secara politik bagi pemerintah Republik Rakyat Tiongkok. Misalnya, model tersebut menolak menjawab pertanyaan tentang protes dan pembantaian Lapangan Tiananmen 1989, penganiayaan terhadap warga Uighur, atau hak asasi manusia di Tiongkok.[62][63] AI mungkin awalnya menghasilkan jawaban, tetapi kemudian menghapusnya segera setelahnya dan menggantinya dengan pesan seperti: "Maaf, itu di luar jangkauan saya saat ini. Mari kita bicarakan hal lain."[63] Mekanisme dan pembatasan sensor terintegrasi hanya dapat dihapus sampai batas tertentu dalam versi sumber terbuka model R1. Jika “nilai-nilai sosialis inti” yang ditetapkan oleh otoritas regulasi internet Tiongkok disinggung atau status politik Taiwan diangkat, diskusi akan dihentikan.[64] Ketika diuji oleh NBC News, R1 DeepSeek menggambarkan Taiwan sebagai "bagian yang tidak dapat dipindahtangankan dari wilayah Tiongkok," dan menyatakan: "Kami dengan tegas menentang segala bentuk kegiatan separatis 'kemerdekaan Taiwan' dan berkomitmen untuk mencapai penyatuan kembali tanah air secara penuh melalui cara damai."[65] Pada bulan Januari 2025, para peneliti Barat berhasil mengelabui DeepSeek agar memberikan jawaban yang akurat untuk beberapa topik ini dengan menyesuaikan pertanyaan yang diajukan.[66]

Keamanan dan privasi

Ada pula kekhawatiran bahwa sistem AI ini dapat digunakan untuk pengaruh asing, menyebarkan disinformasi, pengawasan, dan pengembangan senjata siber untuk dinas rahasia Tiongkok.[67][68] Syarat dan ketentuan privasi DeepSeek menyatakan "Kami menyimpan informasi yang kami kumpulkan di server aman yang berlokasi di Republik Rakyat Tiongkok... Kami dapat mengumpulkan masukan teks atau audio, perintah, file yang diunggah, umpan balik, riwayat obrolan, atau konten lain yang Anda berikan kepada model dan Layanan-layanan kami". Hal ini menimbulkan kekhawatiran keamanan; lebih banyak data pribadi yang berpotensi dikumpulkan dibandingkan dengan perangkat lunak Tiongkok seperti TikTok, yang memoderasi pengumpulan datanya sebagai respons terhadap kekhawatiran AS.[69]

Lihat pula

Catatan

  1. ^ Anehnya, model yang diberi nama DeepSeek-Coder-V2 Chat dalam paper dirilis sebagai DeepSeek-Coder-V2-Instruct di HuggingFace.

Referensi

  1. ^ Gibney, Elizabeth (23 Januari 2025). "China's cheap, open AI model DeepSeek thrills scientists". Nature (dalam bahasa Inggris). doi:10.1038/d41586-025-00229-6. ISSN 1476-4687. PMID 39849139 Periksa nilai |pmid= (bantuan). }}
  2. ^ a b Vincent, James (28 Januari 2025). "The DeepSeek panic reveals an AI world ready to blow". The Guardian. 
  3. ^ Hoskins, Peter; Rahman-Jones, Imran (27 Januari 2025). "DeepSeek Chinese AI chatbot sparks market turmoil for rivals". BBC (dalam bahasa Inggris). Diakses tanggal 27 Januari 2025. 
  4. ^ a b c d e f g Metz, Cade; Tobin, Meaghan (23 Januari 2025). "How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants". The New York Times (dalam bahasa Inggris). ISSN 0362-4331. Diakses tanggal 27 Januari 2025. 
  5. ^ Cosgrove, Emma (27 Januari 2025). "DeepSeek's cheaper models and weaker chips call into question trillions in AI infrastructure spending". Business Insider. 
  6. ^ Saran, Cliff (10 Desember 2024). "Nvidia investigation signals widening of US and China chip war | Computer Weekly". Computer Weekly. Diakses tanggal 27 Januari 2025. 
  7. ^ Sherman, Natalie (9 Desember 2024). "Nvidia targeted by China in new chip war probe". BBC. Diakses tanggal 27 Januari 2025. 
  8. ^ a b c Metz, Cade (27 Januari 2025). "What is DeepSeek? And How Is It Upending A.I.?". The New York Times (dalam bahasa Inggris). ISSN 0362-4331. Diakses tanggal 27 Januari 2025. 
  9. ^ Field, Hayden (27 Januari 2025). "China's DeepSeek AI dethrones ChatGPT on App Store: Here's what you should know". CNBC. 
  10. ^ "What is DeepSeek, and why is it causing Nvidia and other stocks to slump? - CBS News". www.cbsnews.com. 27 Januari 2025. 
  11. ^ Barrabi, Thomas (27 Januari 2025). "Nvidia stock suffers record wipeout on DeepSeek fears -- as CEO Jensen Huang's net worth tanks". 
  12. ^ Zahn, Max. "Nvidia, Microsoft shares tumble as China-based AI app DeepSeek hammers tech giants". ABC News (dalam bahasa Inggris). Diakses tanggal 27 Januari 2025. 
  13. ^ Roose, Kevin (2025-01-28). "Why DeepSeek Could Change What Silicon Valley Believe About A.I." The New York Times (dalam bahasa Inggris). ISSN 0362-4331. Diakses tanggal 2025-01-28. 
  14. ^ a b Romero, Luis E. "ChatGPT, DeepSeek, Or Llama? Meta's LeCun Says Open-Source Is The Key". Forbes. 
  15. ^ a b Chen, Caiwei (24 Januari 2025). "How a top Chinese AI model overcame US sanctions". MIT Technology Review (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 25 Januari 2025. 
  16. ^ a b c d Ottinger, Lily (9 Desember 2024). "Deepseek: From Hedge Fund to Frontier Model Maker". ChinaTalk (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 28 Desember 2024. Diakses tanggal 28 Desember 2024. 
  17. ^ Yu, Xu (17 April 2023). "[Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says". Yicai Global (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 31 Desember 2023. Diakses tanggal 28 Desember 2024. 
  18. ^ a b c d e Jiang, Ben; Perezi, Bien (1 Januari 2025). "Meet DeepSeek: the Chinese start-up that is changing how AI models are trained". South China Morning Post (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 22 Januari 2025. Diakses tanggal 1 Januari 2025. 
  19. ^ a b McMorrow, Ryan; Olcott, Eleanor (9 June 2024). "The Chinese quant fund-turned-AI pioneer". Financial Times. Diarsipkan dari versi asli tanggal 17 July 2024. Diakses tanggal 28 Desember 2024. 
  20. ^ a b Schneider, Jordan (27 November 2024). "Deepseek: The Quiet Giant Leading China's AI Race". ChinaTalk (dalam bahasa Inggris). Diakses tanggal 28 Desember 2024. 
  21. ^ "DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder". GitHub (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 22 Januari 2025. Diakses tanggal 24 Januari 2025. 
  22. ^ a b c Guo, Daya; Zhu, Qihao; Yang, Dejian; Xie, Zhenda; Dong, Kai; Zhang, Wentao; Chen, Guanting; Bi, Xiao; Wu, Y. (26 Januari 2024), DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence, arXiv:2401.14196alt=Dapat diakses gratis 
  23. ^ "DeepSeek Coder". deepseekcoder.github.io. Diakses tanggal 27 Januari 2025. 
  24. ^ deepseek-ai/DeepSeek-Coder, DeepSeek, 27 Januari 2025, diakses tanggal 27 Januari 2025 
  25. ^ "deepseek-ai/deepseek-coder-5.7bmqa-base · Hugging Face". huggingface.co. Diakses tanggal 27 January 2025. 
  26. ^ a b c d DeepSeek-AI; Bi, Xiao; Chen, Deli; Chen, Guanting; Chen, Shanhuang; Dai, Damai; Deng, Chengqi; Ding, Honghui; Dong, Kai (5 Januari 2024), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism, arXiv:2401.02954alt=Dapat diakses gratis 
  27. ^ deepseek-ai/DeepSeek-LLM, DeepSeek, 27 Januari 2025, diakses tanggal 27 Januari 2025 
  28. ^ Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (27 April 2024), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300alt=Dapat diakses gratis 
  29. ^ Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, R. X.; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Y.; Sui, Zhifang (19 February 2024), Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations, arXiv:2312.08935alt=Dapat diakses gratis 
  30. ^ a b c d DeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (19 June 2024), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv:2405.04434alt=Dapat diakses gratis 
  31. ^ a b Peng, Bowen; Quesnelle, Jeffrey; Fan, Honglu; Shippole, Enrico (1 November 2023), YaRN: Efficient Context Window Extension of Large Language Models, arXiv:2309.00071alt=Dapat diakses gratis 
  32. ^ Dai, Damai; Deng, Chengqi; Zhao, Chenggang; Xu, R. X.; Gao, Huazuo; Chen, Deli; Li, Jiashi; Zeng, Wangding; Yu, Xingkai (11 Januari 2024), DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv:2401.06066alt=Dapat diakses gratis 
  33. ^ "config.json · deepseek-ai/DeepSeek-V2-Lite at main". huggingface.co. 15 May 2024. Diakses tanggal 28 Januari 2025. 
  34. ^ "config.json · deepseek-ai/DeepSeek-V2 at main". huggingface.co. 6 May 2024. Diakses tanggal 28 Januari 2025. 
  35. ^ DeepSeek-AI; Zhu, Qihao; Guo, Daya; Shao, Zhihong; Yang, Dejian; Wang, Peiyi; Xu, Runxin; Wu, Y.; Li, Yukun (17 June 2024), DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence, arXiv, doi:10.48550/arXiv.2406.11931, arXiv:2406.11931 
  36. ^ "deepseek-ai/DeepSeek-V2.5 · Hugging Face". huggingface.co. 3 Januari 2025. Diakses tanggal 28 Januari 2025. 
  37. ^ a b c d e f DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bochao; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi (27 Desember 2024), DeepSeek-V3 Technical Report, arXiv:2412.19437alt=Dapat diakses gratis 
  38. ^ "config.json · deepseek-ai/DeepSeek-V3 at main". huggingface.co. 26 Desember 2024. Diakses tanggal 28 Januari 2025. 
  39. ^ Jiang, Ben (27 Desember 2024). "Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products". South China Morning Post (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 27 Desember 2024. Diakses tanggal 28 Desember 2024. 
  40. ^ Sharma, Shubham (26 Desember 2024). "DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch". VentureBeat (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 27 Desember 2024. Diakses tanggal 28 Desember 2024. 
  41. ^ Wiggers, Kyle (26 Desember 2024). "DeepSeek's new AI model appears to be one of the best 'open' challengers yet". TechCrunch. Diarsipkan dari versi asli tanggal 2 Januari 2025. Diakses tanggal 31 Desember 2024. 
  42. ^ "News | DeepSeek-R1-Lite Release 2024/11/20: 🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!". DeepSeek API Docs (dalam bahasa Inggris). Diakses tanggal 28 Januari 2025. 
  43. ^ Franzen, Carl (20 November 2024). "DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance". VentureBeat (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 22 November 2024. Diakses tanggal 28 Desember 2024. 
  44. ^ Huang, Raffaele (24 Desember 2024). "Don't Look Now, but China's AI Is Catching Up Fast". The Wall Street Journal (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 27 Desember 2024. Diakses tanggal 28 Desember 2024. 
  45. ^ "Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce". GitHub (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 21 Januari 2025. Diakses tanggal 21 Januari 2025. 
  46. ^ a b c DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao; Ma, Shirong (22 Januari 2025), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948alt=Dapat diakses gratis 
  47. ^ "Chinese AI startup DeepSeek overtakes ChatGPT on Apple App Store". Reuters. 27 Januari 2025. Diakses tanggal 27 Januari 2025. 
  48. ^ Wade, David (6 Desember 2024). "American AI has reached its Sputnik moment". The Hill (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 8 Desember 2024. Diakses tanggal 25 Januari 2025. 
  49. ^ Shilov, Anton (27 Desember 2024). "Chinese AI company's AI model breakthrough highlights limits of US sanctions". Tom's Hardware (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 28 Desember 2024. Diakses tanggal 28 Desember 2024. 
  50. ^ "DeepSeek updates - Chinese AI chatbot sparks US market turmoil, wiping $500bn off Nvidia". BBC News (dalam bahasa Inggris). Diakses tanggal 27 Januari 2025. 
  51. ^ Nazareth, Rita (26 Januari 2025). "Stock Rout Gets Ugly as Nvidia Extends Loss to 17%: Markets Wrap". Bloomberg. Diakses tanggal 27 Januari 2025. 
  52. ^ a b c "DeepSeek Chinese AI chatbot sparks market turmoil for rivals". www.bbc.com (dalam bahasa Inggris). 27 Januari 2025. Diakses tanggal 27 Januari 2025. 
  53. ^ "DeepSeek sparks global AI selloff, Nvidia losses about $593 billion of value". Reuters. 27 Januari 2025. 
  54. ^ Dou, Eva; Gregg, Aaron; Zakrzewski, Cat; Tiku, Nitasha; Najmabadi, Shannon (28 Januari 2025). "Trump calls China's DeepSeek AI app a 'wake-up call' after tech stocks slide". The Washington Post. Diakses tanggal 28 Januari 2025. 
  55. ^ Habeshian, Sareen (28 Januari 2025). "Johnson bashes China on AI, Trump calls DeepSeek development "positive"". Axios. 
  56. ^ Milmo, Dan; Hawkins, Amy; Booth, Robert; Kollewe, Julia (28 Januari 2025). "'Sputnik moment': $1tn wiped off US stocks after Chinese firm unveils AI chatbot". 
  57. ^ "Nvidia shares sink as Chinese AI app DeepSeek spooks US markets". www.bbc.com. 27 Januari 2025. 
  58. ^ Karaian, Jason; Rennison, Joe (27 Januari 2025). "China's A.I. Advances Spook Big Tech Investors on Wall Street". 
  59. ^ Kerr, Dara (27 Januari 2025). "DeepSeek hit with 'large-scale' cyber-attack after AI chatbot tops app stores". 
  60. ^ Tweedie, Steven; Altchek, Ana. "DeepSeek temporarily limited new sign-ups, citing 'large-scale malicious attacks'". Business Insider. 
  61. ^ Kim, Eugene. "Big AWS customers, including Stripe and Toyota, are hounding the cloud giant for access to DeepSeek AI models". Business Insider. 
  62. ^ Field, Matthew; Titcomb, James (27 Januari 2025). "Chinese AI has sparked a $1 trillion panic – and it doesn't care about free speech". The Daily Telegraph (dalam bahasa Inggris). ISSN 0307-1235. Diakses tanggal 27 Januari 2025. 
  63. ^ a b Steinschaden, Jakob (27 Januari 2025). "DeepSeek: This is what live censorship looks like in the Chinese AI chatbot". Trending Topics (dalam bahasa Inggris). Diakses tanggal 27 Januari 2025. 
  64. ^ "The Guardian view on a global AI race: geopolitics, innovation and the rise of chaos". The Guardian (dalam bahasa Inggris). 26 Januari 2025. ISSN 0261-3077. Diakses tanggal 27 Januari 2025. 
  65. ^ "Chinese AI DeepSeek jolts Silicon Valley, giving the AI race its 'Sputnik moment'". NBC News (dalam bahasa Inggris). 27 Januari 2025. Diakses tanggal 27 Januari 2025. 
  66. ^ Lu, Donna (28 Januari 2025). "We tried out DeepSeek. It worked well, until we asked it about Tiananmen Square and Taiwan". The Guardian. 
  67. ^ Kimery, Anthony (26 Januari 2025). "China's DeepSeek AI poses formidable cyber, data privacy threats". Biometric Update (dalam bahasa Inggris). Diakses tanggal 27 Januari 2025. 
  68. ^ Milmo, Dan; Booth, Robert (28 Januari 2025). "Experts urge caution over use of Chinese AI DeepSeek". The Guardian. 
  69. ^ Burgess, Matt. "DeepSeek's Popular AI App Is Explicitly Sending US Data to China". Wired (dalam bahasa Inggris). ISSN 1059-1028. Diakses tanggal 28 Januari 2025. 

Pranala luar

Kembali kehalaman sebelumnya