DeepSeek melakukan tugas pada level yang sama dengan ChatGPT,[1] meskipun dikembangkan dengan biaya yang jauh lebih rendah, yaitu sebesar US$ 6 juta, dibandingkan dengan $100 juta untuk GPT-4 oleh OpenAI pada tahun 2023,[2] dan membutuhkan sepersepuluh dari daya komputasi LLM yang sebanding.[2][3][4][5] Model AI dikembangkan oleh DeepSeek di tengah sanksi AS terhadap Tiongkok atas cipNvidia, yang dimaksudkan untuk membatasi kemampuan negara tersebut untuk mengembangkan sistem AI tingkat lanjut.[6][7] Pada 10 Januari 2025, perusahaan ini merilis aplikasi bot percakapan gratis pertamanya untuk iOS Apple dan Android; pada 27 Januari, aplikasi ini telah melampaui ChatGPT sebagai aplikasi gratis yang paling banyak diunduh di iOS App Store di Amerika Serikat,[8] dan menyebabkan harga saham Nvidia turun sebesar 18%.[9][10][11] Keberhasilan DeepSeek melawan para pesaing yang lebih besar dan mapan telah digambarkan sebagai "pengubah AI,"[8] yang merupakan "tembakan pertama dalam apa yang berkembang sebagai perlombaan ruang AI global"[12] dan mengawali "era baru dari taktik AI yang penuh tipu daya."[13]
DeepSeek telah menjadikan bot percakapan kecerdasan buatan generatifnyasumber terbuka, menjadikan kodenya tersedia secara bebas untuk digunakan, dimodifikasi, dan dilihat; hal ini termasuk izin untuk mengakses dan memanfaatkan kode sumber dan dokumen desain untuk tujuan pembangunan.[14] Perusahaan ini secara aktif merekrut peneliti muda AI dari universitas-universitas ternama di Tiongkok,[8] dan merekrut orang dari luar bidang ilmu komputer untuk menganekaragamkan pengetahuan dan kemampuan modelnya.[4]
Latar belakang
Pada bulan Februari 2016, High-Flyer didirikan oleh seorang penggemar AI bernama Liang Wenfeng, yang telah berdagang sejak krisis keuangan 2007–2008 saat kuliah di Universitas Zhejiang.[15] Pada tahun 2019, ia mendirikan High-Flyer sebagai dana lindung nilai yang berfokus pada pengembangan dan penggunaan algoritma perdagangan AI. Pada tahun 2021, High-Flyer secara eksklusif menggunakan AI dalam perdagangan.[16] DeepSeek telah menjadikan bot percakapankecerdasan buatan generatifnyasumber terbuka, yang berarti kodenya tersedia secara bebas untuk digunakan, dimodifikasi, dan dilihat. Hal ini termasuk izin untuk mengakses dan menggunakan kode sumber, serta dokumen desain, untuk tujuan pembangunan.[14]
Per 36Kr, Liang telah membangun penyimpanan 10.000 GPU Nvidia A100 sebelum pemerintah AS memberlakukan pembatasan cip AI di Tiongkok.[16] Beberapa perkiraan menyebutkan jumlahnya mencapai 50.000.[15]
Pada bulan April 2023, High-Flyer memulai laboratorium kecerdasan umum buatan yang didedikasikan untuk meneliti pengembangan alat AI yang terpisah dari bisnis keuangan High-Flyer.[17][18] Pada bulan Mei 2023, dengan High-Flyer sebagai salah satu investor, lab tersebut menjadi suatu perusahaan yang berdiri sendiri, yaitu DeepSeek.[16][19][18] Perusahaan modal ventura enggan memberikan pendanaan karena tidak mungkin menghasilkan keuntungan dalam waktu singkat.[16]
Setelah merilis DeepSeek-V2 pada Mei 2024, yang menawarkan kinerja kuat dengan harga murah, DeepSeek dikenal sebagai katalisator perang harga model AI Tiongkok. Perusahaan ini dengan cepat dijuluki "Pinduoduo AI", dan raksasa teknologi lainnya, seperti ByteDance, Tencent, Baidu, dan Alibaba mulai memangkas harga model AI mereka untuk bersaing dengan perusahaan tersebut. Meskipun harga yang dikenakan DeepSeek rendah, perusahaan ini tetap menguntungkan dibandingkan dengan pesaingnya yang merugi.[20]
DeepSeek berfokus hanya pada penelitian dan tidak memiliki rencana terperinci untuk komersialisasi;[20] Hal ini juga memungkinkan teknologinya menghindari ketentuan paling ketat dari peraturan AI Tiongkok, seperti mengharuskan teknologi yang berhadapan dengan konsumen untuk mematuhi kontrol pemerintah terhadap informasi.[4]
Preferensi perekrutan DeepSeek lebih mengutamakan kemampuan teknis daripada pengalaman kerja sehingga sebagian besar karyawan baru adalah lulusan universitas atau pengembang yang karier AI-nya belum begitu mapan.[18][4] Demikian pula, perusahaan merekrut individu tanpa latar belakang ilmu komputer untuk membantu teknologinya memahami topik dan bidang pengetahuan lainnya, termasuk kemampuan untuk menciptakan puisi dan kemampuan untuk mengerjakan ujian masuk perguruan tinggi Tiongkok yang terkenal sulit.[4]
Riwayat rilis
DeepSeek LLM
Pada tanggal 2 November 2023, DeepSeek merilis seri model pertamanya, DeepSeek-Coder, yang tersedia gratis untuk peneliti dan pengguna komersial. Kode untuk model tersebut dibuat sumber terbuka di bawah lisensi MIT, dengan perjanjian lisensi tambahan ("lisensi DeepSeek") mengenai "penggunaan hilir yang terbuka dan bertanggung jawab" untuk model itu sendiri.[21]
Model-model tersebut memiliki arsitektur yang sama dengan DeepSeek LLM yang dirinci di bawah ini. Seri ini mencakup 8 model, 4 pretrained (Base) dan 4 instruction-finetuned (Instruct). Semuanya memiliki panjang konteks 16K. Pelatihannya adalah sebagai berikut:[22][23][24]
Pretraining (Prapelatihan): token 1,8T (87% kode sumber, 10% kode terkait bahasa Inggris (GitHub Markdown dan Stack Exchange), dan 3% kode terkait bahasa Mandarin).
Long-context pretraining: 200B token. Ini memperluas panjang konteks dari 4K ke 16K. Ini menghasilkan model Base.
Supervised finetuning (SFT): 2B token data instruksi. Ini menghasilkan model Instruct.
Model-model tersebut dilatih pada kluster-kluster GPU Nvidia A100 dan H800, yang dihubungkan oleh InfiniBand, NVLink, NVSwitch.[22]
Perhatikan bahwa number of heads tidak sama dengan number of KV heads untuk 5.6B dan 33B karena Grouped query attention (GQA).
Pada tanggal 29 November 2023, DeepSeek merilis seri model DeepSeek-LLM, dengan parameter 7B dan 67B dalam formulir Base dan Chat (tidak ada Instruct yang dirilis). Program ini dikembangkan untuk bersaing dengan LLM lain yang tersedia saat itu. Makalah ini mengklaim hasil pengujian tolok ukur (benchmark) lebih tinggi daripada kebanyakan LLM sumber terbuka pada saat itu, terutama Llama 2.[26]:section 5 Seperti DeepSeek Coder, kode untuk model tersebut berada di bawah lisensi MIT, dengan lisensi DeepSeek untuk model itu sendiri.[27]
Arsitekturnya pada dasarnya sama dengan seri Llama. Model-model tersebut menggunakan pre-norm decoder-onlyTransformer dengan RMSNorm sebagai normalisasi, SwiGLU dalam feedforward layers, rotary positional embedding (RoPE), dan grouped-query attention (GQA). Keduanya memiliki ukuran kosakata 102400 (BPE tingkat byte) dan panjang konteks 4096. Model-model tersebut berlatih pada 2 triliun token teks bahasa Inggris dan Mandarin yang diperoleh dengan mendeduplikasi Common Crawl.[26]
Pada bulan April 2024, mereka merilis 3 model DeepSeek-Math yang dikhususkan untuk mengerjakan soal-soal matematika: Base, Instruct, RL. Pelatihannya sebagai berikut:[28]
Inisialisasi dengan DeepSeek-Coder-Base-v1.5 7B yang sudah pretrained.
Lakukan pretraining lebih lanjut dengan 500B token (6% DeepSeekMath Corpus, 4% AlgebraicStack, 10% arXiv, 20% kode GitHub, 10% Common Crawl). Tahap ini menghasilkan model Base.
Latih instruction-following model oleh SFT Base dengan 776K soal matematika dan solusi tool-use-integrated step-by-step. Tahap ini menghasilkan model Instruct.
Reinforcement learning (RL): Model reward-nya adalah process reward model (PRM) yang dilatih dari Base sesuai dengan metode Math-Shepherd.[29] Model reward ini kemudian digunakan untuk melatih Instruct menggunakan group relative policy optimization (GRPO) pada kumpulan data 144K pertanyaan matematika "berkaitan dengan GSM8K dan MATH". Model reward terus diperbarui selama pelatihan untuk menghindari peretasan reward. Tahap ini menghasilkan model RL.
V2
Pada bulan Mei 2024, mereka merilis seri DeepSeek-V2. Seri ini mencakup 4 model, 2 model dasar (DeepSeek-V2, DeepSeek-V2-Lite) dan 2 bot percakapan (-Chat). Kedua model yang lebih besar dilatih sebagai berikut:[30]
Lakukan pretraining pada himpunan data token 8,1T dengan token berbahasa Mandarin 12% lebih banyak daripada token berbahasa Inggris.
Perluas context length dari 4K ke 128K menggunakan YaRN.[31] Tahap ini menghasilkan DeepSeek-V2.
SFT dengan 1,2M instances untuk helpfulness dan 0,3M untuk safety. Tahap ini menghasilkan DeepSeek-V2-Chat (SFT) yang tidak dirilis.
RL menggunakan GRPO dalam dua tahap. Tahap pertama dilatih untuk memecahkan masalah matematika dan pengkodean. Tahap ini menggunakan 1 model reward, dilatih pada compiler feedback (untuk pengkodean) dan ground-truth labels (untuk matematika). Tahap kedua dilatih agar helpful, safe, dan mematuhi aturan. Tahap ini menggunakan 3 model reward. Model reward atas bantuan dan keselamatan dilatih pada data preferensi manusia. Model rule-basedreward diprogram secara manual. Semua model reward yang dilatih diinisialisasi dari DeepSeek-V2-Chat (SFT). Tahap ini menghasilkan dirilisnya versi DeepSeek-V2-Chat.
Mereka memilih RL 2-tahap karena mereka menemukan bahwa RL pada data penalaran (reasoning) memiliki "karakteristik unik" yang berbeda dari RL pada data umum. Misalnya, RL pada penalaran dapat ditingkatkan melalui beberapa langkah pelatihan.[30]
Kedua model V2-Lite merupakan model yang lebih kecil, dan dilatih secara serupa, meskipun DeepSeek-V2-Lite-Chat hanya menjalani SFT, bukan RL. Mereka melatih versi Lite untuk membantu "penelitian dan pengembangan lebih lanjut pada MLA dan DeepSeekMoE".[30]
Secara arsitektur, model V2 dimodifikasi secara signifikan dari seri DeepSeek LLM. Mereka mengubah mekanisme atensi standar (standard attention mechanism) dengan low-rank approximation yang disebut multi-head latent attention (MLA), dan menggunakan varian mixture of experts (MoE) yang sebelumnya diterbitkan pada bulan Januari. Dibandingkan dengan standard sparsely-gated MoE, varian mereka memiliki "pakar bersama" (shared experts) yang selalu di-query, dan "pakar yang dirutekan" (routed experts) yang mungkin tidak di-query.[32]
Financial Times melaporkan bahwa harga token ini lebih murah dibanding pesaingnya, yaitu 2 RMB per juta token keluaran. Papan peringkat Tiger Lab dari University of Waterloo menempatkan DeepSeek-V2 pada posisi ketujuh dalam peringkat LLM.[19]
Pada bulan Juni, mereka merilis 4 model dalam seri DeepSeek-Coder-V2: V2-Base, V2-Lite-Base, V2-Instruct, V2-Lite-Instruct. Model-model tersebut dilatih sebagai berikut:[35][note 1]
Model Base diinisialisasi dari titik pemeriksaan (checkpoints) intermediate yang sesuai setelah pretraining pada token 4.2T (bukan versi di akhir pretraining), lalu dilatih lebih lanjut untuk token 6T, lalu diperluas konteksnya ke panjang konteks 128K. Tahap menghasilkan model Base.
DeepSeek-Coder dan DeepSeek-Math digunakan untuk menghasilkan 20K data instruksi terkait kode dan 30K data instruksi terkait matematika, lalu digabungkan dengan kumpulan data instruksi sebanyak 300M token. Ini digunakan untuk SFT.
RL dengan GRPO. Reward untuk soal matematika dihitung dengan membandingkannya dengan ground-truth label. Reward untuk masalah kode dihasilkan oleh model reward yang dilatih untuk memprediksi apakah suatu program akan lulus uji unit.
DeepSeek-V2.5 dirilis pada bulan September dan diperbarui pada bulan Desember. Rilisan tersebut dibuat dengan menggabungkan DeepSeek-V2-Chat dan DeepSeek-Coder-V2-Instruct.[36]
V3
Pada bulan Desember 2024, mereka merilis model dasar DeepSeek-V3-Base dan model bot percakapan DeepSeek-V3. Arsitektur modelnya pada dasarnya sama dengan V2. Model-model tersebut dilatih sebagai berikut:[37]
Pretraining pada token 14,8T dari korpus multibahasa, sebagian besar bahasa Inggris dan Mandarin. Dataset ini berisi rasio matematika dan pemrograman yang lebih tinggi daripada dataset untuk pretraining V2.
Perluasan panjang konteks (context length) dua kali, dari 4K ke 32K dan kemudian ke 128K, menggunakan YaRN.[31] Tahap ini menghasilkan DeepSeek-V3-Base.
SFT selama 2 periode pada 1,5M sampel data penalaran (matematika, pemrograman, logika) dan non-penalaran (penulisan kreatif, permainan peran, jawaban pertanyaan sederhana). Data penalaran dihasilkan oleh "model ahli". Data non-penalaran dihasilkan oleh DeepSeek-V2.5 dan diperiksa oleh manusia.
"Model pakar" (expert models) dilatih dengan memulai dengan model dasar yang tidak ditentukan, lalu SFT pada data <problem, original response>, dan data sintetis <system prompt, problem, R1 response> yang dihasilkan oleh model DeepSeek-R1 internal. Perintah sistem meminta R1 untuk berpikir dan memverifikasi selama berpikir. Kemudian, model ahli RL menggunakan fungsi imbalan yang tidak ditentukan.
Setiap model ahli dilatih untuk menghasilkan data penalaran sintetis hanya dalam satu domain spesifik (matematika, pemrograman, logika).
Model ahli digunakan, bukan R1 itu sendiri, karena keluaran dari R1 sendiri mengalami "pemikiran berlebihan, format buruk, dan panjang sekali".
Model reward berbasis model dibuat dengan memulai dengan checkpoint SFT V3, lalu menyempurnakan data preferensi manusia yang berisi reward akhir dan rangkaian pemikiran yang mengarah ke reward akhir. Model reward menghasilkan sinyal reward untuk pertanyaan dengan jawaban objektif, tetapi berbentuk bebas, dan pertanyaan tanpa jawaban objektif (seperti penulisan kreatif).
Checkpoint SFT V3 dilatih oleh GRPO menggunakan model-basedreward dan rule-basedreward. Rule-based reward dihitung untuk soal matematika dengan jawaban akhir (dimasukkan ke dalam kotak), dan untuk soal pemrograman dengan uji unit. Tahap ini menghasilkan DeepSeek-V3.
Mereka melakukan rekayasa tingkat rendah yang ekstensif untuk mencapai efisiensi. Mereka menggunakan mixed-precision arithmetic. Sebagian besar pemindahan data ke depan dilakukan dalam bilangan floating point 8-bit (5E2M: eksponen 5-bit dan mantissa 2-bit) dan bukan dalam format standar 32-bit sehingga memerlukan rutinitas GEMM khusus untuk mengakumulasi secara akurat. Mereka menggunakan float 12-bit khusus (E5M6) hanya untuk masukan ke lapisan linier setelah modul atensi. Status pengoptimal berada dalam 16-bit (BF16). Mereka meminimalkan latensi komunikasi dengan melakukan tumpang tindih komputasi dan komunikasi secara ekstensif, seperti mendedikasikan 20 multiprosesor streaming dari 132 per H800 hanya untuk komunikasi antar-GPU. Mereka menurunkan komunikasi dengan mengatur ulang (setiap 10 menit) mesin yang digunakan oleh masing-masing ahli untuk menghindari mesin tertentu yang lebih sering diakses daripada mesin lainnya, menambahkan kerugian penyeimbangan beban tambahan ke fungsi kerugian pelatihan, dan teknik penyeimbangan beban lainnya.[37]
Setelah pelatihan, ia disebarkan pada klaster H800. H800 dalam satu klaster dihubungkan melalui NVLink. Klaster-klaster tersebut dihubungkan oleh InfiniBand.[37]
Total biaya pelatihan model DeepSeek-V3[37]:Tabel 1
Pada tanggal 20 November 2024, DeepSeek-R1-Lite-Preview dapat diakses melalui API DeepSeek dan situs web chat.deepseek.com.[42] Ia dilatih untuk inferensi logis, penalaran matematika, dan pemecahan masalah real-time. DeepSeek mengklaim bahwa kinerjanya melampaui OpenAI o1 pada pengujian tolok ukur (benchmark) seperti American Invitational Mathematics Examination (AIME) dan MATH. [43] Namun, The Wall Street Journal menyatakan ketika menggunakan 15 masalah dari edisi AIME 2024, model o1 mendapatkan solusi untuk soal matematika lebih cepat daripada DeepSeek-R1-Lite-Preview.[44]
Pada tanggal 20 Januari 2025, DeepSeek-R1 dan DeepSeek-R1-Zero dirilis.[45] Keduanya diinisialisasi dari DeepSeek-V3-Base. Perusahaan ini juga merilis beberapa model "DeepSeek-R1-Distill", yang tidak diinisialisasi pada V3-Base, tetapi diinisialisasi dari model pretrainedopen-weight lainnya, termasuk LLaMA dan Qwen, kemudian disempurnakan pada data sintetis yang dihasilkan oleh R1.[46]
Templat untuk DeepSeek-R1-Zero
Percakapan antara Pengguna dan Asisten. Pengguna mengajukan pertanyaan, dan Asisten menyelesaikannya. Asisten pertama-tama memikirkan proses penalaran dalam benaknya, lalu memberikan jawaban kepada pengguna. Proses penalaran dan jawaban masing-masing disertakan dalam tag <think> </think> dan <answer> </answer>, yaitu <think> proses penalaran di sini </think> <answer> jawaban di sini </answer>. Pengguna: <prompt>. Asisten:
– <prompt> diganti dengan pertanyaan penalaran spesifik selama pelatihan.
DeepSeek-R1-Zero dilatih secara eksklusif menggunakan GRPO RL tanpa SFT. Tidak seperti versi sebelumnya, mereka tidak menggunakan reward berbasis model. Semua rule-based reward, "terutama" dari dua jenis (jenis lainnya tidak ditentukan): reward akurasi dan reward format. Rewawrd akurasi memeriksa apakah jawaban yang diberikan tanda kotak itu benar (untuk matematika) atau apakah suatu kode lulus uji (untuk pemrograman). Format reward memeriksa penempatan thinking trace model tersebut dalam <think>...</think>.[46]
Oleh karena R1-Zero memiliki masalah terkait keterbacaan (readability) dan pencampuran bahasa, R1 dilatih untuk mengatasi masalah ini dan lebih meningkatkan penalaran:[46]
SFT DeepSeek-V3-Base pada "ribuan" data "cold-start" semuanya dengan format standar |special_token|<reasoning_process>|special_token|summary>.
Terapkan proses RL yang sama seperti R1-Zero, tetapi juga dengan "reward konsistensi bahasa" untuk mendorongnya merespons secara monolingual. Tahap ini menghasilkan model internal yang tidak dirilis.
Mensintesiskan 600K data penalaran dari model internal, dengan pengambilan sampel penolakan (misalnya, jika penalaran yang dihasilkan memiliki jawaban akhir yang salah, maka penalaran tersebut dihapus). Mensintesiskan 200K data non-penalaran (penulisan, tanya jawab faktual, pengenalan diri, penerjemahan) menggunakan DeepSeek-V3.
SFT DeepSeek-V3-Base pada data sintetis 800K selama 2 epoch.
GRPO RL dengan rule-based reward (untuk tugas penalaran) dan model-based reward (untuk tugas non-penalaran, helpfulness, dan harmlessness). Tahap ini menghasilkan DeepSeek-R1.
Distilled models dilatih oleh SFT pada 800K data yang disintesis dari DeepSeek-R1, dengan cara yang sama seperti langkah 3 di atas. Model-model tersebut tidak dilatih dengan RL.
Kesan
DeepSeek merilis Asisten AI-nya, yang menggunakan model V3 sebagai aplikasi bot percakapan untuk iOS Apple dan Android. Pada 27 Januari 2025, aplikasi ini telah melampaui ChatGPT sebagai aplikasi gratis dengan peringkat tertinggi di iOS App Store di Amerika Serikat; bot percakapannya dilaporkan dapat menjawab pertanyaan, memecahkan masalah logika, dan menulis program komputer setara dengan bot percakapan lain di pasaran, menurut pengujian tolok ukur (benchmark) yang digunakan oleh perusahaan AI Amerika.[4] DeepSeek-V3 menggunakan sumber daya yang jauh lebih sedikit dibandingkan dengan pesaingnya; misalnya, sementara perusahaan AI terkemuka di dunia melatih chatbot mereka dengan superkomputer yang menggunakan sebanyak 16.000 sirkuit terpadu ("cip komputer"), jika tidak lebih, DeepSeek mengklaim hanya membutuhkan sekitar 2.000 cip komputer khusus, yaitu seri H800 dari perusahaan teknologi multinasional Amerika Nvidia. Pelatihan ini memakan waktu sekitar 55 hari dengan biaya sebesar US$5,58 juta,[37] yang kira-kira 10 kali lebih sedikit dari jumlah yang dikeluarkan oleh raksasa teknologi AS,Meta, untuk membangun teknologi AI terbarunya.[4]
Performa kompetitif DeepSeek telah diakui berpotensi menantang dominasi global model AI Amerika;[47] sebuah opini oleh The Hill menggambarkan peluncuran bot percakapannya sebagai "momen Sputnik" untuk AI Amerika.[48] Optimalisasi sumber daya terbatas DeepSeek telah menyoroti potensi batasan sanksi AS terhadap pengembangan AI Tiongkok, yang mencakup pembatasan ekspor cip AI canggih ke Tiongkok.[18][49] Keberhasilan model DeepSeek kemudian "memicu kekacauan pasar"[50] dan menyebabkan saham-saham di perusahaan-perusahaan teknologi global jatuh pada tanggal 27 Januari: saham Nvidia jatuh hingga 17–18%,[51] dan begitu pula saham perusahaan pesaingnya, Broadcom. Perusahaan teknologi lain juga mengalami kemerosotan, termasuk Microsoft (turun 2,5%), Alphabet induk Google (turun lebih dari 4%), dan pembuat peralatan cip asal Belanda, ASML (turun lebih dari 7%).[52]
Performa R1 dilaporkan "setara" dengan salah satu model terbaru OpenAI saat digunakan untuk tugas-tugas seperti matematika, pengkodean, dan penalaran bahasa alami;[52] menggemakan opini The Hill tentang V3, kapitalis ventura Lembah Silikon Amerika, Marc Andreessen, juga menggambarkan R1 sebagai "momen Sputnik AI".[52]
Penjualan saham teknologi global di Nasdaq, didorong oleh rilis model R1, telah menyebabkan kerugian rekor sekitar $593 miliar pada kapitalisasi pasar perusahaan AI dan perangkat keras komputer.[53]
The Guardian membandingkan DeepSeek dengan "Sputnik" Perang Dingin yang mengakibatkan nilai saham Amerika merosot hingga $1 triliun, sementara Presiden Amerika, Donald Trump, menyebutnya sebagai peringatan[54] dan perkembangan yang positif.[55][56][57][58]
Pada tanggal 27 Januari, DeepSeek membatasi pendaftaran pengguna baru hanya untuk nomor telepon yang berasal dari daratan Tiongkok setelah adanya laporan serangan siber.[59][60]
Beberapa sumber telah mengamati bahwa versi API resmi R1 menggunakan mekanisme penyensoran untuk topik yang dianggap sensitif secara politik bagi pemerintah Republik Rakyat Tiongkok. Misalnya, model tersebut menolak menjawab pertanyaan tentang protes dan pembantaian Lapangan Tiananmen 1989, penganiayaan terhadap warga Uighur, atau hak asasi manusia di Tiongkok.[62][63] AI mungkin awalnya menghasilkan jawaban, tetapi kemudian menghapusnya segera setelahnya dan menggantinya dengan pesan seperti: "Maaf, itu di luar jangkauan saya saat ini. Mari kita bicarakan hal lain."[63] Mekanisme dan pembatasan sensor terintegrasi hanya dapat dihapus sampai batas tertentu dalam versi sumber terbuka model R1. Jika “nilai-nilai sosialis inti” yang ditetapkan oleh otoritas regulasi internet Tiongkok disinggung atau status politik Taiwan diangkat, diskusi akan dihentikan.[64] Ketika diuji oleh NBC News, R1 DeepSeek menggambarkan Taiwan sebagai "bagian yang tidak dapat dipindahtangankan dari wilayah Tiongkok," dan menyatakan: "Kami dengan tegas menentang segala bentuk kegiatan separatis 'kemerdekaan Taiwan' dan berkomitmen untuk mencapai penyatuan kembali tanah air secara penuh melalui cara damai."[65] Pada bulan Januari 2025, para peneliti Barat berhasil mengelabui DeepSeek agar memberikan jawaban yang akurat untuk beberapa topik ini dengan menyesuaikan pertanyaan yang diajukan.[66]
Keamanan dan privasi
Ada pula kekhawatiran bahwa sistem AI ini dapat digunakan untuk pengaruh asing, menyebarkan disinformasi, pengawasan, dan pengembangan senjata siber untuk dinas rahasia Tiongkok.[67][68] Syarat dan ketentuan privasi DeepSeek menyatakan "Kami menyimpan informasi yang kami kumpulkan di server aman yang berlokasi di Republik Rakyat Tiongkok... Kami dapat mengumpulkan masukan teks atau audio, perintah, file yang diunggah, umpan balik, riwayat obrolan, atau konten lain yang Anda berikan kepada model dan Layanan-layanan kami". Hal ini menimbulkan kekhawatiran keamanan; lebih banyak data pribadi yang berpotensi dikumpulkan dibandingkan dengan perangkat lunak Tiongkok seperti TikTok, yang memoderasi pengumpulan datanya sebagai respons terhadap kekhawatiran AS.[69]
^ abMcMorrow, Ryan; Olcott, Eleanor (9 June 2024). "The Chinese quant fund-turned-AI pioneer". Financial Times. Diarsipkan dari versi asli tanggal 17 July 2024. Diakses tanggal 28 Desember 2024.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^ abcGuo, Daya; Zhu, Qihao; Yang, Dejian; Xie, Zhenda; Dong, Kai; Zhang, Wentao; Chen, Guanting; Bi, Xiao; Wu, Y. (26 Januari 2024), DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence, arXiv:2401.14196
^"DeepSeek Coder". deepseekcoder.github.io. Diakses tanggal 27 Januari 2025.
^Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (27 April 2024), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300
^Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, R. X.; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Y.; Sui, Zhifang (19 February 2024), Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations, arXiv:2312.08935
^ abcdDeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (19 June 2024), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv:2405.04434
^ abPeng, Bowen; Quesnelle, Jeffrey; Fan, Honglu; Shippole, Enrico (1 November 2023), YaRN: Efficient Context Window Extension of Large Language Models, arXiv:2309.00071
^Dai, Damai; Deng, Chengqi; Zhao, Chenggang; Xu, R. X.; Gao, Huazuo; Chen, Deli; Li, Jiashi; Zeng, Wangding; Yu, Xingkai (11 Januari 2024), DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, arXiv:2401.06066
^Huang, Raffaele (24 Desember 2024). "Don't Look Now, but China's AI Is Catching Up Fast". The Wall Street Journal (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 27 Desember 2024. Diakses tanggal 28 Desember 2024.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Wade, David (6 Desember 2024). "American AI has reached its Sputnik moment". The Hill (dalam bahasa Inggris). Diarsipkan dari versi asli tanggal 8 Desember 2024. Diakses tanggal 25 Januari 2025.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)