《DeepSeek入门宝典》第1册.技术解析篇 (51CTO)（Z-Library）

Name: 《DeepSeek入门宝典》第1册.技术解析篇 (51CTO)（Z-Library）
Availability: InStock
Rating: 5 (88 reviews)
Author: 51CTO

Author: 51CTO

No Description

📄 File Format: PDF

💾 File Size: 2.1 MB

Views

Downloads

0.00

Total Donations

📖 Read Online ⬇️ Download

📄 Text Preview (First 20 pages)

ℹ️

Registered users can read the full content for free

📄 Page 1

(This page has no text content)

📄 Page 2

DeepSeek是什么？ • DeepSeek 是什么？ • DeepSeek R1的三大特点 • 使用DeepSeek的五种方式对比

📄 Page 3

DeepSeek 是什么？ • DeepSeek是幻方量化于2023年创立的大模型子公司，创始人为梁文锋 • 2024年1月5日，其发布第一个同名A I大模型 DeepSeek LLM • 2025年1月20日，DeepSeek R 1正式发布，为对 标 O p e n A I o 1 正式版的高性能推理模型； R 1上线后火速出圈，其应用创造了全球 A P P 历 史 上 增 长 最 快 的记录 图片来源：AI产品榜图片来源：DeepSeek官网

📄 Page 4

推理表现媲美OpenAI o1正式版 R1开源，并公开训练技术，允许开发者 访问和学习 R1开发成本仅为OpenAI o1的2%左右 图注：DeepSeek与OpenAI各版本的准确率对比（图片来源：DeepSeek官网） DeepSeek R1的三大特点 高性能 开源 低成本

📄 Page 5

使用DeepSeek的五种方式对比 普通用户 作为生产力工具及技术尝鲜 https://chat.deepseek.com/ 开发者、企业用户 保障访问稳定性和可扩展性 https://deepseekapi.io/ 可借助Ollama、vLLM 和 MNN等工具 硅基流动、腾讯云、阿里云等 https://chat.deepseek.com/ 官网 APP API 本地部署 云平台

📄 Page 6

DeepSeek R1核心 技术揭秘 • R1的基座模型——V3 • R1的三种变体 • R1训练的技术路径 • R1的核心技术解析 • R1的关键技术贡献

📄 Page 7

R1的基座模型：V3 V3模型的特征 • V3是去年12月发布的自研 MoE 模型 • 参数与GPT-4大致在同一数量级： V3 有671B 参数，每个Token的计算激活约37B • 在 14.8T token 上进行了预训练 R1在DeepSeek V3基础上进行了开发 图注：DeepSeek V3与发布时其他主流大模型的准确率对比（图片来源：DeepSeek官网） • V3：对标GPT-4o ，通过指令微调和偏好微调 提升性能 • R1：专注于推理能力

📄 Page 8

R1的三种变体 DeepSeek V3 R1-Zero R1 DeepSeek-R1- Distill 基座模型 变体 1 变体2 变体3 直接强化学习训练 多阶段渐进训练 模型蒸馏

📄 Page 9

R1训练的技术路径 原图作者：Sebastian Raschka

📄 Page 10

R1的核心技术解析：强化学习 图片来源：《基于场景动力学和强化学习的自动驾驶边缘测试场景生成方法》 R1采用了多种奖励的强化学习，相当于模型的“综合评分系统”，模型在完成任务时根据多个标准获 得不同的奖励信号。

📄 Page 11

R1的核心技术解析：冷启动数据 R1 策略性地将少量高质量数据作为冷启动。这相当于训练开始前的“入门教程”，帮助模型更快地学 会如何进行清晰、有逻辑的推理。 R1-Zero生成 的 长 思 维 链 (CoT)数据 挑选示例 R1的冷启动数据

📄 Page 12

R1的核心技术解析：监督微调 图片来源：《PORT: Preference Optimization on Reasoning Traces》 R1训练包括两个监督微调 (SFT) 阶段。模型通过学习标注数据来调整模型，以在特定任务上表现得 更精准。

📄 Page 13

R1的核心技术解析：蒸馏 图片来源：https://devopedia.org/knowledge-distillation R1-Distill采用蒸馏技术。大模型（老师）把自己的知识和推理能力教给小模型（学生），通过高质 量的数据和训练方法，让小模型学会大模型的推理技巧。

📄 Page 14

关键贡献1： “纯RL”技术路线的可行性 首个公开研究，验证了LLMs的推理能力可以仅通过强化学习激励，而无需监督微调。 图注：随着RL训练逐步推进，R1-Zero的性能稳定且持续提升（图片来源： DeepSeek官方论文）

📄 Page 15

关键贡献2 ：R1的“啊哈时刻” 图注：在处理复杂的数学问题时，模型突然停下来说“等等、等等、 这是个值得标记的啊哈时刻”（图片来源： DeepSeek官方论文） DeepSeek R1在推理时使用诸如“啊哈时刻”的高度拟人化语言，在解题找到突破口时产生了顿悟，被视 为走向AGI的重要一步。 图注： DeepSeek R1 的推理过程

📄 Page 16

关键贡献3： 蒸馏小模型超越 OpenAI o1-mini 图注：通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区（图片来源： DeepSeek官方论文） 蒸馏小模型的高性能，证明了该策略的经济和有效，但想要突破当前智能的边界，或仍需要更大规模的 基础模型与强化学习。

📄 Page 17

DeepSeek技术贡献 及未来进化 • R1与OpenAI o1的三大区别 • R1的四大进化方向 • 附录：DeepSeek产品家族全梳理

📄 Page 18

DeepSeek R1 与 OpenAI o1 的三大区别 架构不同 训练方式不同 生态不同 R1：基于已有模型DeepSeek V3 R1：证明可以仅通过强化学习激励， 无需监督微调 R1：开源，免费使用 o1：不同于GPT-4o的新模型 o1：监督微调和强化学习结合 o1：闭源，ChatGPT Plus会员才 可访问o1及o1 mini

📄 Page 19

R1的四大进化方向 通用能力 R1在一些复杂任务上的表现不如V3， 未来可以通过长链推理来提升 语言混合 优化R1处理中英文以外语言的能力， 避免现在的语言混合问题 提示工程 R1对提示很敏感，少量示例提示会 降低性能 软件工程任务 从软件工程数据、强化学习的异步 评估入手，缩短评估时长，保障强 化学习过程的效率

📄 Page 20

附：DeepSeek产品家族全梳理 图表来源：国海证券

The above is a preview of the first 20 pages. Register to read the complete e-book.

💝 Support Author

0.00

Total Amount (¥)

Donation Count

Recommended for You

Loading recommended books...

Failed to load, please try again later

← Back to List

《DeepSeek入门宝典》第1册.技术解析篇 (51CTO)（Z-Library）

📄 Text Preview (First 20 pages)

Registered users can read the full content for free

💝 Support Author

Recommended for You

{{title}}