DeepSeek
DeepSeek (кит. упр. 深度求索, пиньинь Shēndù Qiúsuǒ) — китайская компания, специализирующаяся на разработке искусственного интеллекта, а также семейство больших языковых моделей. Компания базируется в Ханчжоу, основана и поддерживается китайским хедж-фондом High-Flyer[англ.]. DeepSeek выпустила свои модели с открытым исходным кодом. Версия DeepSeek-V3 считается сравнимой с другими языковыми моделями в 2024 году, такими как Qwen и ChatGPT. Выход модели DeepSeek-R1 в январе 2025 года вызвал резкое снижение курсов акций мировых технологических компаний и дискуссии о переоценке инвестиций в ИИ. ИсторияВ 2015 году три инженера из Чжэцзянского университета основали компанию High-Flyer. Она использовала машинное обучение для торговли акциями[1]. В 2019 году создана компания High-Flyer AI, которая занималась исследованиями алгоритмов искусственного интеллекта[2]. К 2021 году все стратегии High-Flyer использовали ИИ, её сравнивали с Renaissance Technologies[3]. В апреле 2023 года High-Flyer объявила о новом проекте для исследования общего искусственного интеллекта. Он не будет использоваться для торговли акциями и отделится от финансового бизнеса High-Flyer[4][5]. В мае 2023 года компания была запущена под названием DeepSeek, её возглавил один из сооснователей хедж-фонда High-Flyer Лян Вэньфэн[англ.][2][5]. Разработка DeepSeek финансируется High-Flyer[3][5]. Выпуск DeepSeek-V2 в мае 2024 года спровоцировал ценовую войну моделей искусственного интеллекта в Китае, так как предлагалась высокая производительность по низкой цене. Её окрестили «Pinduoduo ИИ», а другим крупным технологическим гигантам, таким как ByteDance, Tencent, Baidu и Alibaba, пришлось начать снижать цены на свои модели ИИ. Несмотря на низкую цену DeepSeek, компания отчиталась о прибыли по сравнению с конкурентами, которые, по-видимому, несли убытки[6]. На конец 2024 года DeepSeek занимается исследованиями и не заявляет подробных планов коммерциализации[6]. Китайская газета South China Morning Post пишет, что при найме новых сотрудников компания DeepSeek отдавала предпочтение способностям, а не опыту, поэтому большинство разработчиков — это либо недавние выпускники, либо находящиеся на ранней стадии своей карьеры в сфере ИИ[5]. К 2025 году DeepSeek смогла создать ИИ с возможностями как у ведущих технологических компаний США, но, как заявлено, на менее мощных чипах и за малую часть стоимости. Сотрудники DeepSeek пишут, что обучали модель V3Nvidia H800, а они значительно менее мощны, чем новые Nvidia Blackwell[англ.][7][8]. Независимые наблюдатели отмечают, что DeepSeek и другие китайские компании имеют преимущество, так как на китайском рынке доступ к ChatGPT и ряду других моделей заблокирован Великим китайским файерволом. DeepSeek, вероятно, цензурирует выдачу. При этом не все деликатные для Китая темы этому подвержены[9][10]. на чипах
Реакция рынков 27 января 2025Запуск новой модели R1, предположительно разработанной многократно дешевле стоимости конкурентов, спровоцировал резкое снижение курсов акций мировых технологических компаний. Так, 27 января 2025 года акции производителя оборудования для изготовления чипов ASML Holding NV упали более чем на 8 %. Nasdaq 100 снизился на 3 %, потеряв почти 1 триллион долларов. В Токио акции упали на 8,5 %. Акции Siemens Energy, производителя энергетического оборудования для ИИ-инфраструктуры, — на 20 %[11]. Упали курсы акций энергетических компаний, в том числе на 21 % у Constellation Energy, так как у них раньше ожидались прибыли от резкого роста спроса из-за ИИ[12][13]. По словам Вей-Серна Линга (Union Bancaire Privée), «DeepSeek показывает, что можно разрабатывать мощные модели ИИ, которые стоят дешевле»[12]. Акции корпорации Nvidia упали за день на 17 %, что привело к потере около $600 млрд капитализации. Такое падение стало крупнейшим за историю американского фондового рынка[14][15]. Многие эксперты прогнозируют сокращение закупок чипов Nvidia и рост недоверия инвесторов к ведущим технологическим компаниям. В то время как некоторые надеются на то, что вырастет доступность ИИ и расширится их использование, что поддержит спрос на чипы[16][17]. 500 самых богатых людей мира потеряли в общей сложности $108 млрд из-за распродаж в технологическом секторе.[18] Общая капитализация криптовалют, связанных с ИИ, сократилась на 22 % за сутки[19]. При этом по состоянию на 27 января мобильное приложение «DeepSeek — AI Assistant» занимало первое место в App Store в США, ОАЭ, Южной Корее, Японии, Великобритании и Китае, потеснив ChatGPT[12][20]. Президент США Дональд Трамп назвал DeepSeek «тревожным звонком» для американских технокомпаний[21]. Релизы2 ноября 2023 года DeepSeek представила свою первую модель DeepSeek Coder, которая была бесплатной, в том числе для коммерческого использования, и имела полностью открытый исходный код[22]. 29 ноября 2023 года DeepSeek запустила DeepSeek LLM (большую языковую модель) с 67 млрд параметров. Она была разработана, чтобы конкурировать с другими LLM того времени, и по производительности приближалась к GPT-4. У неё возникли проблемы с вычислительной эффективностью и масштабируемостью[22]. Также была выпущена чат-версия модели под названием DeepSeek Chat[23]. V2 и V3В мае 2024 года вышла DeepSeek-V2. Financial Times сообщила, что она была дешевле аналогов, стоила 2 юаня за каждый миллион выпущенных токенов. В рейтинге LLM лаборатории Tiger Lab университета Ватерлоо DeepSeek-V2 заняла седьмое место[3]. В декабре 2024 года запущена DeepSeek-V3. Тесты производительности показали, что версия превзошла Llama 3.1 и Qwen 2.5, а также соответствовала GPT-4o и Claude 3.5 Sonnet[5][24][25][26]. На январь 2025 года независимые проверки продолжаются[9]. Случай с DeepSeek показал, что санкции США в отношении развития искусственного интеллекта в Китае, вероятно, не очень эффективны[27][5]. Американский аналитик Рэй Ванг предположил, что из-за отсутствия у Китая свободного доступа к передовым чипам ИИ, китайские учёные внедряют инновации при ограниченных ресурсах[9]. По данным производителя, общая стоимость обучения модели около 5,58 млн долларов США, а само обучение заняло около двух месяцев[5]. DeepSeek-V3 имеет 685 миллиардов параметров и мультиэкспертную архитектуру[англ.] (MoE) с 256 экспертами, из которых 8 активируются для каждого токена. Каждый токен активирует 37 миллиардов параметров[28].
R1В ноябре 2024 года появилась DeepSeek-R1-Lite-Preview для решения задач, требующих логического вывода, математических рассуждений и решения проблем в реальном времени. DeepSeek утверждала, что производительность превзошла OpenAI o1 в таких тестах, как AIME[англ.] и MATH[29]. Однако The Wall Street Journal отметила, что при использовании 15 задач из тестов AIME 2024 года OpenAI o1 нашёл решения быстрее, чем DeepSeek R1-Lite-Preview[30]. В январе 2025 года вышли DeepSeek-R1 и DeepSeek-R1-Zero, основанные на V3. Данные модели более продвинутые, чем ранние. Они генерируют ответы шаг за шагом, аналогично рассуждению человека. По первым тестам, при выполнении определённых задач по математике, химии и программированию производительность R1 находится на одном уровне с o1[31][32][33]. Критика и цензура![]() ![]() Наблюдается, что официальная API-версия модели R1 использует механизмы цензуры для чувствительных тем, особенно тех, которые считаются политически значимыми в Китае. Например, модель отказывается отвечать на вопросы о событиях на площади Тяньаньмэнь в 1989 году. Иногда ИИ изначально генерирует ответ, но вскоре удаляет его и заменяет сообщением: «Извините, это выходит за рамки моих возможностей. Давайте поговорим о чём-нибудь другом»[34][35]. Интегрированные механизмы цензуры и ограничения можно частично обойти только в открытой версии модели R1. Как только затрагиваются «основные социалистические ценности», определённые китайскими интернет-регуляторами, или поднимаются вопросы, связанные с Тайванем, дискуссии прекращаются[36]. Журналист Энтони Кимери пишет, что система искусственного интеллекта потенциально может быть использована для влияния за границей: дезинформации, наблюдения и разработки кибероружия для китайских спецслужб. Или что приложение может передавать персональные данные пользователей в Китай[37]. Газета The Indian Express отмечает, что распространены опасения по поводу времени запуска DeepSeek-R1 как сигнала Китая об уровне развития его ИИ. R1 появилась именно в тот момент, когда Дональд Трамп стал президентом США[7]. Аналитики брокерской компании Bernstein предполагают, что общие затраты на обучение V3 намного выше, чем заявленные $5,58 млн, и не считают модели DeepSeek чудом. Также они обращают внимание на то, что DeepSeek не раскрыла затраты на обучение R1. Генеральный директор компании Scale AI[англ.] Александр Ван сказал в интервью, что якобы у DeepSeek есть 50 000 чипов Nvidia H100, но не привёл доказательств[38][39]. См. такжеПримечания
Ссылки
Information related to DeepSeek |
Portal di Ensiklopedia Dunia