DeepSeek R1: Обзор модели, которая удивила индустрию

В начале 2025 года китайский стартап DeepSeek выпустил модель R1, которая буквально потрясла AI-индустрию. Reasoning-модель с открытым исходным кодом, обученная за долю стоимости конкурентов, показала результаты на уровне OpenAI o1 и Claude 3.5. Акции технологических гигантов упали, а AI-сообщество начало переосмысливать необходимость гигантских бюджетов на обучение. В этом обзоре мы разберём DeepSeek R1 по косточкам: архитектура, бенчмарки, реальные тесты и практические сценарии использования.

Что такое DeepSeek

DeepSeek — это AI-лаборатория из Китая, основанная в 2023 году при поддержке хедж-фонда High-Flyer. В отличие от большинства AI-стартапов, DeepSeek не привлекал венчурных инвестиций, а финансировался за счёт прибыли материнского фонда. Это дало компании свободу фокусироваться на исследованиях, а не на монетизации.

Команда DeepSeek насчитывает несколько сотен исследователей, многие из которых — выпускники ведущих китайских университетов. Компания известна своей открытостью: все модели и исследования публикуются в свободном доступе.

Путь к R1

Хронология ключевых моделей DeepSeek:

DeepSeek Coder (2023) — специализированная модель для программирования
DeepSeek V2 (2024) — базовая модель с архитектурой Mixture of Experts (MoE)
DeepSeek V3 (конец 2024) — значительно улучшенная базовая модель
DeepSeek R1 (январь 2025) — reasoning-модель, построенная поверх V3

Архитектура DeepSeek R1

Mixture of Experts

DeepSeek R1 построена на архитектуре Mixture of Experts (MoE). Общее количество параметров — 671 миллиард, но при каждом inference активируются только 37 миллиардов. Это ключевое инженерное решение, которое объясняет, как модель достигает высокого качества при относительно низких вычислительных затратах.

Входные данные
      │
      ▼
┌─────────────┐
│   Router    │  ← Выбирает 8 из 256 экспертов
└──────┬──────┘
       │
  ┌────┼────┐
  ▼    ▼    ▼
┌───┐┌───┐┌───┐
│E1 ││E5 ││E42│  ← Активные эксперты
└─┬─┘└─┬─┘└─┬─┘
  │    │    │
  └────┼────┘
       │
       ▼
   Результат

Обучение с подкреплением

Главная инновация R1 — использование reinforcement learning (RL) для развития способности к рассуждениям. Вместо классического supervised fine-tuning DeepSeek применили метод GRPO (Group Relative Policy Optimization):

Модели даётся задача (математика, логика, код)
Она генерирует множество решений
Решения проверяются автоматическими верификаторами
Модель получает reward за правильные цепочки рассуждений
Процесс повторяется тысячи раз

Результат: модель самостоятельно «научилась» разбивать сложные задачи на шаги, проверять промежуточные результаты и находить ошибки в своих рассуждениях.

Стоимость обучения

По данным DeepSeek, модель V3 была обучена за приблизительно $5.5 миллионов — в десятки раз дешевле, чем GPT-4 или Claude. Это стало возможным благодаря:

Эффективной архитектуре MoE
Оптимизированному pipeline обучения
Использованию чипов NVIDIA H800 (доступных в Китае, в отличие от H100)
Инновационным алгоритмам обучения

Бенчмарки и сравнения

Стандартные бенчмарки

Бенчмарк	DeepSeek R1	OpenAI o1	Claude 3.5 Sonnet	GPT-4o
MMLU	90.8	91.8	88.7	88.7
MATH-500	97.3	96.4	78.3	76.6
AIME 2024	79.8	83.3	16.0	9.3
Codeforces	96.3	96.6	20.3	23.0
GPQA Diamond	71.5	78.0	65.0	53.6
LiveCodeBench	65.9	63.4	49.0	43.0
HumanEval	92.6	90.2	92.0	90.2

Ключевые наблюдения:

Математика — R1 превосходит o1 на MATH-500 и почти не уступает на AIME
Программирование — сопоставимые результаты с o1, значительно выше GPT-4o
Общие знания — немного уступает o1 на MMLU, но разрыв минимален
Наука — уступает o1 на GPQA, но превосходит все не-reasoning модели

Наши практические тесты

Мы провели серию собственных тестов на задачах, типичных для наших проектов:

Задача 1: Рефакторинг React-компонента

Дали модели запутанный компонент на 200 строк и попросили отрефакторить. DeepSeek R1 разбил задачу на логические шаги, объяснил каждое решение и предложил разделение на 4 компонента. Результат сопоставим с Claude 3.5 Sonnet.

Задача 2: SQL-оптимизация

Дали медленный SQL-запрос и схему базы данных. R1 предложил 3 варианта оптимизации с объяснением плана выполнения. Правильно определил недостающие индексы. Результат — на уровне o1.

Задача 3: Архитектурное решение

Попросили спроектировать систему уведомлений для SaaS-платформы. R1 предложил взвешенное решение, но заметно «размышлял вслух» — цепочка рассуждений заняла несколько тысяч токенов. Качество финального ответа хорошее, но Claude 3.5 дал более структурированный результат.

Дистилляция: маленькие модели R1

Одна из самых ценных особенностей проекта — дистиллированные модели. DeepSeek использовал R1 для обучения компактных моделей на базе Qwen и Llama:

Модель	Параметры	MATH-500	AIME 2024	HumanEval
R1-Distill-Qwen-1.5B	1.5B	83.9	28.9	60.2
R1-Distill-Qwen-7B	7B	92.8	55.5	79.1
R1-Distill-Qwen-14B	14B	93.9	69.7	80.5
R1-Distill-Qwen-32B	32B	94.3	72.6	85.8
R1-Distill-Llama-8B	8B	89.1	50.4	72.6
R1-Distill-Llama-70B	70B	94.5	70.0	82.6

Поразительный факт: R1-Distill-Qwen-32B обходит OpenAI o1-mini на математических бенчмарках. Модель в 32 миллиарда параметров, которую можно запустить локально, конкурирует с облачным API OpenAI.

Как запустить DeepSeek R1 локально

Через Ollama

Самый простой способ попробовать R1 — через Ollama:

# Установка Ollama (macOS)
brew install ollama

# Запуск сервера Ollama
ollama serve

# Загрузка дистиллированной модели (7B — для начала)
ollama pull deepseek-r1:7b

# Запуск чата
ollama run deepseek-r1:7b

Для более мощной модели (требуется 24+ ГБ VRAM или 64+ ГБ RAM для CPU inference):

# 32B модель — лучшее соотношение качества и требований
ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b

Системные требования

Модель	VRAM (GPU)	RAM (CPU)	Качество
R1:1.5b	2 ГБ	4 ГБ	Базовое
R1:7b	6 ГБ	16 ГБ	Хорошее
R1:14b	12 ГБ	32 ГБ	Очень хорошее
R1:32b	24 ГБ	64 ГБ	Отличное
R1:70b	48 ГБ	128 ГБ	Близко к полной R1

Подключение к Open WebUI

После запуска Ollama можно подключить модель к удобному веб-интерфейсу:

docker run -d \
  --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Теперь у вас есть собственный ChatGPT-подобный интерфейс с DeepSeek R1, работающий полностью локально.

Использование через API

Официальный API DeepSeek

DeepSeek предоставляет совместимый с OpenAI формат API:

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "system", "content": "Ты — полезный AI-ассистент."},
        {"role": "user", "content": "Объясни теорему Байеса простым языком"}
    ]
)

print(response.choices[0].message.content)

Работа с reasoning-токенами

R1 генерирует «цепочку размышлений» (Chain of Thought), которую можно получить отдельно:

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "Решите: если 3x + 7 = 22, чему равен x?"}
    ]
)

# Цепочка размышлений
reasoning = response.choices[0].message.reasoning_content
print("Размышления:", reasoning)

# Финальный ответ
answer = response.choices[0].message.content
print("Ответ:", answer)

Ценообразование

Одно из главных преимуществ DeepSeek — стоимость. Сравнение цен API (на миллион токенов):

Модель	Входные токены	Выходные токены
DeepSeek R1	$0.55	$2.19
OpenAI o1	$15.00	$60.00
Claude 3.5 Sonnet	$3.00	$15.00
GPT-4o	$2.50	$10.00

DeepSeek R1 стоит в 27 раз дешевле o1 и в 5-7 раз дешевле GPT-4o. Для задач, где reasoning-модель действительно необходима, это кардинально меняет экономику проекта.

Сильные стороны

Математика и логика

R1 показывает выдающиеся результаты в математических задачах. Модель не просто даёт ответ — она показывает полную цепочку рассуждений, что делает её отличным инструментом для обучения и верификации решений.

Программирование

На задачах алгоритмического программирования (LeetCode, Codeforces) R1 демонстрирует уровень, сопоставимый с o1. Особенно хорошо модель справляется с задачами, требующими пошагового анализа.

Открытость

Полностью открытые веса модели — это:

Возможность запуска на собственном оборудовании
Полный контроль над данными (не нужно отправлять конфиденциальную информацию в облако)
Возможность дообучения под специфические задачи
Отсутствие зависимости от провайдера

Стоимость

Даже при использовании через облачный API DeepSeek стоит в разы дешевле конкурентов. А при локальном запуске стоимость — только электричество и амортизация оборудования.

Слабые стороны

Языковые ограничения

R1 оптимизирована в первую очередь для английского и китайского языков. Работа на русском языке заметно хуже:

Цепочка рассуждений часто переключается на английский или китайский
Генерация текста на русском менее естественная, чем у Claude или GPT-4o
Системные промпты на русском работают менее надёжно

Рекомендация: для задач на русском языке формулируйте запросы на английском и переводите результат, либо используйте Claude/GPT-4o.

Длинный вывод

Reasoning-модель по определению генерирует больше токенов — цепочка рассуждений может быть длиннее финального ответа в 5-10 раз. Это увеличивает:

Время отклика (latency)
Стоимость (при оплате за токены)
Потребление ресурсов при локальном запуске

Цензура

Модель имеет встроенные ограничения на определённые темы, связанные с китайской политикой. Для большинства бизнес-задач это нерелевантно, но стоит иметь в виду.

Мультимодальность

На момент написания статьи R1 — чисто текстовая модель. Если вам нужна работа с изображениями, видео или аудио, придётся использовать другие решения.

Практические рекомендации

Когда использовать DeepSeek R1

Математические вычисления и анализ данных — модель демонстрирует отличную точность
Алгоритмические задачи — уровень, сопоставимый с o1
Бюджетные AI-проекты — стоимость в разы ниже конкурентов
Приватность данных — возможность полностью локального запуска
Исследовательские задачи — открытые веса позволяют изучать и модифицировать модель

Когда лучше выбрать другую модель

Русскоязычный контент — Claude и GPT-4o значительно лучше
Творческое письмо — Claude 3.5 остаётся лидером
Мультимодальные задачи — GPT-4o или Claude с vision
Минимальная задержка — обычные (не-reasoning) модели быстрее
Чат-боты и ассистенты — GPT-4o или Claude лучше подходят для диалога

Влияние на индустрию

Появление DeepSeek R1 стало сигналом для всей индустрии:

Масштабирование — не единственный путь — можно достичь высокого качества без триллионных бюджетов
Open-source побеждает — лучшие модели доступны бесплатно
Конкуренция из Азии — китайские AI-лаборатории не уступают западным
RL — ключ к рассуждениям — reinforcement learning оказался более эффективным, чем масштабирование данных

DeepSeek доказал, что эпоха, когда только компании с миллиардными бюджетами могли создавать state-of-the-art модели, подходит к концу.

Заключение

DeepSeek R1 — это не просто ещё одна модель. Это доказательство того, что AI-исследования демократизируются. Модель, обученная за $5-6 миллионов, конкурирует с продуктами компаний, потративших на порядки больше.

Для практического использования мы рекомендуем начать с дистиллированной модели R1-32B через Ollama — она обеспечивает отличное качество при запуске на потребительском оборудовании. Для production-проектов с большими объёмами — API DeepSeek предлагает непревзойдённое соотношение цены и качества.

Если вам нужна помощь с интеграцией DeepSeek R1 в ваш проект или выбором оптимальной AI-модели под вашу задачу — команда QZX Studio поможет подобрать и настроить правильное решение.

Содержание (33)

Содержание