Appearance
DeepSeek 模型信息
1. 模型简介
DeepSeek (深度求索) 是一家成立于 2023 年的中国公司,致力于实现通用人工智能 (AGI)。他们以好奇心探索 AGI 的奥秘,并以长远眼光解决核心问题。DeepSeek 开发了一系列大型语言模型,在代码生成、文本生成等领域表现出色。
2025年,DeepSeek 发布了全新的 DeepSeek-V3 和 DeepSeek-R1 模型,在多项基准测试中展现出与国际顶尖模型相媲美的性能,成为AI领域的重要参与者。
2. 模型版本区别
DeepSeek 发布了多个系列的语言模型,主要包括 DeepSeek-V3 和 DeepSeek-R1 系列,以及针对特定任务优化的模型和蒸馏版本。
DeepSeek-V3 系列
这是 DeepSeek 最新的模型系列,于2025年发布,在各项能力上实现了全面进阶。
- DeepSeek-V3-Base: 基础预训练模型,通常作为进一步微调的起点。
- DeepSeek-V3: 在 Base 模型基础上进行指令微调的版本,更擅长遵循指令和进行对话。目前已在网页端、APP 和 API 全面上线。
- 性能特点:
- 在推理、数学、代码生成等方面表现优异
- 支持多种语言任务处理
- 具备强大的上下文理解能力
- 提供免费使用服务
DeepSeek-R1 系列 ⭐
这是 DeepSeek 推出的推理增强模型系列,专注于复杂推理任务,是当前最受关注的版本。
- DeepSeek-R1: 首个推理优化版本,在数学、编程和逻辑推理方面表现优异
- DeepSeek-R1-0528: 2025年5月28日发布的重大升级版本,显著提升了推理深度和能力
- DeepSeek-R1-Zero: R1 系列的轻量级版本,在保持推理能力的同时提升响应速度
- DeepSeek-R1-0528-Qwen3-8B: 基于 Qwen3-8B 架构的蒸馏版本,保持强大推理能力
DeepSeek-R1-0528 重要特性
🎯 推理能力增强
- 在 AIME 2025 测试中准确率从 70% 提升至 87.5%
- 思考深度显著增加:从平均 12K tokens/题 提升至 23K tokens/题
- 整体性能接近 OpenAI o3 和 Gemini 2.5 Pro 等国际顶尖模型
💻 编程能力突破
- 在 LiveCodeBench (2408-2505) 上达到 73.3% pass@1
- Codeforces-Div1 评分达到 1930,接近专业竞赛水平
- SWE-Verified 解决率提升至 57.6%
🛠️ 功能改进
- 支持 Function Calling 和 JSON 输出
- 幻觉率降低 45-50%
- 创意写作能力显著提升
- 支持系统提示词(System Prompt)
应用场景: 适用于需要深度思考和逐步推理的复杂任务,特别是数学、编程和科学问题解决
蒸馏版本 (Distilled Versions)
DeepSeek 还提供了一系列蒸馏模型,这些模型通常参数量更小,推理速度更快,同时尽可能保持原模型的性能。这些模型通常基于其他知名模型(如 Llama, Qwen)的架构进行蒸馏。
- DeepSeek-R1-Distill-Llama-70B / 8B: 基于 Llama 架构蒸馏的 R1 模型。
- DeepSeek-R1-Distill-Qwen-32B / 14B / 7B / 1.5B: 基于 Qwen 架构蒸馏的 R1 模型。
其他模型
- DeepSeek Coder: 专注于代码生成的模型系列,例如
DeepSeek Coder 33B。 - DeepSeek-VL: 视觉语言模型,能够理解图像和文本输入,例如
DeepSeek-VL2-small。 - Janus / JanusFlow: 多模态模型,统一了理解和生成能力,例如
Janus-Pro-7B,JanusFlow 1.3B。
3. 使用方式
目前可以通过多种方式使用 DeepSeek 模型:
- DeepSeek 官网/平台: DeepSeek 可能提供自己的在线平台或 API 服务供用户直接使用(尽管之前的访问尝试失败,但这通常是主要途径)。
- Hugging Face:
- 模型下载: 可以从 Hugging Face Hub 下载开源的模型权重,在本地或自己的服务器上部署使用。
- Spaces: Hugging Face Spaces 上提供了多个 DeepSeek 模型的在线体验应用,例如
Chat with DeepSeek-VL2-small,Chat With Janus-Pro-7B,Chat with DeepSeek Coder 33B等。
- API 集成: 对于商业用户或开发者,DeepSeek 可能提供 API 接口,方便将模型集成到自己的应用或服务中。