В начале 2025 года китайский стартап DeepSeek выпустил модель R1, которая буквально потрясла AI-индустрию. Reasoning-модель с открытым исходным кодом, обученная за долю стоимости конкурентов, показала результаты на уровне OpenAI o1 и Claude 3.5. Акции технологических гигантов упали, а AI-сообщество начало переосмысливать необходимость гигантских бюджетов на обучение. В этом обзоре мы разберём DeepSeek R1 по косточкам: архитектура, бенчмарки, реальные тесты и практические сценарии использования.
Что такое DeepSeek
DeepSeek — это AI-лаборатория из Китая, основанная в 2023 году при поддержке хедж-фонда High-Flyer. В отличие от большинства AI-стартапов, DeepSeek не привлекал венчурных инвестиций, а финансировался за счёт прибыли материнского фонда. Это дало компании свободу фокусироваться на исследованиях, а не на монетизации.
Команда DeepSeek насчитывает несколько сотен исследователей, многие из которых — выпускники ведущих китайских университетов. Компания известна своей открытостью: все модели и исследования публикуются в свободном доступе.
Путь к R1
Хронология ключевых моделей DeepSeek:
- DeepSeek Coder (2023) — специализированная модель для программирования
- DeepSeek V2 (2024) — базовая модель с архитектурой Mixture of Experts (MoE)
- DeepSeek V3 (конец 2024) — значительно улучшенная базовая модель
- DeepSeek R1 (январь 2025) — reasoning-модель, построенная поверх V3
Архитектура DeepSeek R1
Mixture of Experts
DeepSeek R1 построена на архитектуре Mixture of Experts (MoE). Общее количество параметров — 671 миллиард, но при каждом inference активируются только 37 миллиардов. Это ключевое инженерное решение, которое объясняет, как модель достигает высокого качества при относительно низких вычислительных затратах.
Входные данные
│
▼
┌─────────────┐
│ Router │ ← Выбирает 8 из 256 экспертов
└──────┬──────┘
│
┌────┼────┐
▼ ▼ ▼
┌───┐┌───┐┌───┐
│E1 ││E5 ││E42│ ← Активные эксперты
└─┬─┘└─┬─┘└─┬─┘
│ │ │
└────┼────┘
│
▼
Результат
Обучение с подкреплением
Главная инновация R1 — использование reinforcement learning (RL) для развития способности к рассуждениям. Вместо классического supervised fine-tuning DeepSeek применили метод GRPO (Group Relative Policy Optimization):
- Модели даётся задача (математика, логика, код)
- Она генерирует множество решений
- Решения проверяются автоматическими верификаторами
- Модель получает reward за правильные цепочки рассуждений
- Процесс повторяется тысячи раз
Результат: модель самостоятельно «научилась» разбивать сложные задачи на шаги, проверять промежуточные результаты и находить ошибки в своих рассуждениях.
Стоимость обучения
По данным DeepSeek, модель V3 была обучена за приблизительно $5.5 миллионов — в десятки раз дешевле, чем GPT-4 или Claude. Это стало возможным благодаря:
- Эффективной архитектуре MoE
- Оптимизированному pipeline обучения
- Использованию чипов NVIDIA H800 (доступных в Китае, в отличие от H100)
- Инновационным алгоритмам обучения
Бенчмарки и сравнения
Стандартные бенчмарки
| Бенчмарк | DeepSeek R1 | OpenAI o1 | Claude 3.5 Sonnet | GPT-4o |
|---|---|---|---|---|
| MMLU | 90.8 | 91.8 | 88.7 | 88.7 |
| MATH-500 | 97.3 | 96.4 | 78.3 | 76.6 |
| AIME 2024 | 79.8 | 83.3 | 16.0 | 9.3 |
| Codeforces | 96.3 | 96.6 | 20.3 | 23.0 |
| GPQA Diamond | 71.5 | 78.0 | 65.0 | 53.6 |
| LiveCodeBench | 65.9 | 63.4 | 49.0 | 43.0 |
| HumanEval | 92.6 | 90.2 | 92.0 | 90.2 |
Ключевые наблюдения:
- Математика — R1 превосходит o1 на MATH-500 и почти не уступает на AIME
- Программирование — сопоставимые результаты с o1, значительно выше GPT-4o
- Общие знания — немного уступает o1 на MMLU, но разрыв минимален
- Наука — уступает o1 на GPQA, но превосходит все не-reasoning модели
Наши практические тесты
Мы провели серию собственных тестов на задачах, типичных для наших проектов:
Задача 1: Рефакторинг React-компонента
Дали модели запутанный компонент на 200 строк и попросили отрефакторить. DeepSeek R1 разбил задачу на логические шаги, объяснил каждое решение и предложил разделение на 4 компонента. Результат сопоставим с Claude 3.5 Sonnet.
Задача 2: SQL-оптимизация
Дали медленный SQL-запрос и схему базы данных. R1 предложил 3 варианта оптимизации с объяснением плана выполнения. Правильно определил недостающие индексы. Результат — на уровне o1.
Задача 3: Архитектурное решение
Попросили спроектировать систему уведомлений для SaaS-платформы. R1 предложил взвешенное решение, но заметно «размышлял вслух» — цепочка рассуждений заняла несколько тысяч токенов. Качество финального ответа хорошее, но Claude 3.5 дал более структурированный результат.
Дистилляция: маленькие модели R1
Одна из самых ценных особенностей проекта — дистиллированные модели. DeepSeek использовал R1 для обучения компактных моделей на базе Qwen и Llama:
| Модель | Параметры | MATH-500 | AIME 2024 | HumanEval |
|---|---|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | 83.9 | 28.9 | 60.2 |
| R1-Distill-Qwen-7B | 7B | 92.8 | 55.5 | 79.1 |
| R1-Distill-Qwen-14B | 14B | 93.9 | 69.7 | 80.5 |
| R1-Distill-Qwen-32B | 32B | 94.3 | 72.6 | 85.8 |
| R1-Distill-Llama-8B | 8B | 89.1 | 50.4 | 72.6 |
| R1-Distill-Llama-70B | 70B | 94.5 | 70.0 | 82.6 |
Поразительный факт: R1-Distill-Qwen-32B обходит OpenAI o1-mini на математических бенчмарках. Модель в 32 миллиарда параметров, которую можно запустить локально, конкурирует с облачным API OpenAI.
Как запустить DeepSeek R1 локально
Через Ollama
Самый простой способ попробовать R1 — через Ollama:
# Установка Ollama (macOS)
brew install ollama
# Запуск сервера Ollama
ollama serve
# Загрузка дистиллированной модели (7B — для начала)
ollama pull deepseek-r1:7b
# Запуск чата
ollama run deepseek-r1:7b
Для более мощной модели (требуется 24+ ГБ VRAM или 64+ ГБ RAM для CPU inference):
# 32B модель — лучшее соотношение качества и требований
ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b
Системные требования
| Модель | VRAM (GPU) | RAM (CPU) | Качество |
|---|---|---|---|
| R1:1.5b | 2 ГБ | 4 ГБ | Базовое |
| R1:7b | 6 ГБ | 16 ГБ | Хорошее |
| R1:14b | 12 ГБ | 32 ГБ | Очень хорошее |
| R1:32b | 24 ГБ | 64 ГБ | Отличное |
| R1:70b | 48 ГБ | 128 ГБ | Близко к полной R1 |
Подключение к Open WebUI
После запуска Ollama можно подключить модель к удобному веб-интерфейсу:
docker run -d \
--name open-webui \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--restart always \
ghcr.io/open-webui/open-webui:main
Теперь у вас есть собственный ChatGPT-подобный интерфейс с DeepSeek R1, работающий полностью локально.
Использование через API
Официальный API DeepSeek
DeepSeek предоставляет совместимый с OpenAI формат API:
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[
{"role": "system", "content": "Ты — полезный AI-ассистент."},
{"role": "user", "content": "Объясни теорему Байеса простым языком"}
]
)
print(response.choices[0].message.content)
Работа с reasoning-токенами
R1 генерирует «цепочку размышлений» (Chain of Thought), которую можно получить отдельно:
response = client.chat.completions.create(
model="deepseek-reasoner",
messages=[
{"role": "user", "content": "Решите: если 3x + 7 = 22, чему равен x?"}
]
)
# Цепочка размышлений
reasoning = response.choices[0].message.reasoning_content
print("Размышления:", reasoning)
# Финальный ответ
answer = response.choices[0].message.content
print("Ответ:", answer)
Ценообразование
Одно из главных преимуществ DeepSeek — стоимость. Сравнение цен API (на миллион токенов):
| Модель | Входные токены | Выходные токены |
|---|---|---|
| DeepSeek R1 | $0.55 | $2.19 |
| OpenAI o1 | $15.00 | $60.00 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| GPT-4o | $2.50 | $10.00 |
DeepSeek R1 стоит в 27 раз дешевле o1 и в 5-7 раз дешевле GPT-4o. Для задач, где reasoning-модель действительно необходима, это кардинально меняет экономику проекта.
Сильные стороны
Математика и логика
R1 показывает выдающиеся результаты в математических задачах. Модель не просто даёт ответ — она показывает полную цепочку рассуждений, что делает её отличным инструментом для обучения и верификации решений.
Программирование
На задачах алгоритмического программирования (LeetCode, Codeforces) R1 демонстрирует уровень, сопоставимый с o1. Особенно хорошо модель справляется с задачами, требующими пошагового анализа.
Открытость
Полностью открытые веса модели — это:
- Возможность запуска на собственном оборудовании
- Полный контроль над данными (не нужно отправлять конфиденциальную информацию в облако)
- Возможность дообучения под специфические задачи
- Отсутствие зависимости от провайдера
Стоимость
Даже при использовании через облачный API DeepSeek стоит в разы дешевле конкурентов. А при локальном запуске стоимость — только электричество и амортизация оборудования.
Слабые стороны
Языковые ограничения
R1 оптимизирована в первую очередь для английского и китайского языков. Работа на русском языке заметно хуже:
- Цепочка рассуждений часто переключается на английский или китайский
- Генерация текста на русском менее естественная, чем у Claude или GPT-4o
- Системные промпты на русском работают менее надёжно
Рекомендация: для задач на русском языке формулируйте запросы на английском и переводите результат, либо используйте Claude/GPT-4o.
Длинный вывод
Reasoning-модель по определению генерирует больше токенов — цепочка рассуждений может быть длиннее финального ответа в 5-10 раз. Это увеличивает:
- Время отклика (latency)
- Стоимость (при оплате за токены)
- Потребление ресурсов при локальном запуске
Цензура
Модель имеет встроенные ограничения на определённые темы, связанные с китайской политикой. Для большинства бизнес-задач это нерелевантно, но стоит иметь в виду.
Мультимодальность
На момент написания статьи R1 — чисто текстовая модель. Если вам нужна работа с изображениями, видео или аудио, придётся использовать другие решения.
Практические рекомендации
Когда использовать DeepSeek R1
- Математические вычисления и анализ данных — модель демонстрирует отличную точность
- Алгоритмические задачи — уровень, сопоставимый с o1
- Бюджетные AI-проекты — стоимость в разы ниже конкурентов
- Приватность данных — возможность полностью локального запуска
- Исследовательские задачи — открытые веса позволяют изучать и модифицировать модель
Когда лучше выбрать другую модель
- Русскоязычный контент — Claude и GPT-4o значительно лучше
- Творческое письмо — Claude 3.5 остаётся лидером
- Мультимодальные задачи — GPT-4o или Claude с vision
- Минимальная задержка — обычные (не-reasoning) модели быстрее
- Чат-боты и ассистенты — GPT-4o или Claude лучше подходят для диалога
Влияние на индустрию
Появление DeepSeek R1 стало сигналом для всей индустрии:
- Масштабирование — не единственный путь — можно достичь высокого качества без триллионных бюджетов
- Open-source побеждает — лучшие модели доступны бесплатно
- Конкуренция из Азии — китайские AI-лаборатории не уступают западным
- RL — ключ к рассуждениям — reinforcement learning оказался более эффективным, чем масштабирование данных
DeepSeek доказал, что эпоха, когда только компании с миллиардными бюджетами могли создавать state-of-the-art модели, подходит к концу.
Заключение
DeepSeek R1 — это не просто ещё одна модель. Это доказательство того, что AI-исследования демократизируются. Модель, обученная за $5-6 миллионов, конкурирует с продуктами компаний, потративших на порядки больше.
Для практического использования мы рекомендуем начать с дистиллированной модели R1-32B через Ollama — она обеспечивает отличное качество при запуске на потребительском оборудовании. Для production-проектов с большими объёмами — API DeepSeek предлагает непревзойдённое соотношение цены и качества.
Если вам нужна помощь с интеграцией DeepSeek R1 в ваш проект или выбором оптимальной AI-модели под вашу задачу — команда QZX Studio поможет подобрать и настроить правильное решение.