Support Statistics
¥.00 ·
0times
Text Preview (First 20 pages)
Registered users can read the full content for free
Register as a Gaohf Library member to read the complete e-book online for free and enjoy a better reading experience.
Page
1
(This page has no text content)
Page
2
(This page has no text content)
Page
3
人 民 邮 电 出 版 社 北 京 Hands-On Large Language Models Language Understanding and Generation [沙特] 杰伊·阿拉马尔(Jay Alammar) [荷] 马尔滕·格鲁滕多斯特(Maarten Grootendorst) 著 李博杰 译 生成式AI原理与实战 图解大模型 Beijing • Boston • Farnham • Sebastopol • Tokyo O’Reilly Media, Inc.授权人民邮电出版社有限公司出版 图解大模型:生成式AI原理与实战(全).indd 1 2025/4/22 13:37:21
Page
4
内 容 提 要 本书全程图解式讲解,通过大量全彩插图拆解概念,让读者真正告别学习大模型的枯燥和 复杂。 全书分为三部分,依次介绍语言模型的原理、应用及优化。第一部分“理解语言模型” (第 1~3 章),解析语言模型的核心概念,包括词元、嵌入及 Transformer 架构,帮助读者建立 基础认知。第二部分“使用预训练语言模型”(第 4~9 章),介绍如何使用大模型进行文本分类、 聚类、语义搜索、文本生成及多模态扩展,提升模型的应用能力。第三部分“训练和微调语言 模型”(第 10~12 章),探讨大模型的训练与微调方法,包括嵌入模型的构建、分类任务的优化 及生成模型的微调,以适应特定需求。 本书适合对大模型感兴趣的开发者、研究人员和行业从业者。读者无须具备深度学习基础 知识,只要会用 Python,就可以通过本书深入理解大模型的原理并上手大模型应用开发。书中 示例还可以一键在线运行,让学习过程更轻松。 定价:159.80元 读者服务热线:(010)84084456-6009 印装质量热线:(010)81055316 反盗版热线:(010)81055315 著 [沙特] 杰伊·阿拉马尔(Jay Alammar) [荷] 马尔滕·格鲁滕多斯特(Maarten Grootendorst) 译 李博杰 责任编辑 刘美英 责任印制 胡 南 人民邮电出版社出版发行 北京市丰台区成寿寺路11号 邮编 100164 电子邮件 315@ptpress.com.cn 网址 https://www.ptpress.com.cn 北京 印刷 开本:800×1000 1/16 印张:23.75 2025 年 5 月第 1 版 字数:548 千字 2025 年 5 月北京第 1 次印刷 著作权合同登记号 图字:01-2024-5494 号 ◆ ◆ ◆ 图书在版编目(CIP)数据 图解大模型 : 生成式 AI 原理与实战 / ( 沙特 ) 杰伊 •阿拉马尔 (Jay Alammar), ( 荷 ) 马尔滕 •格鲁滕多斯 特 (Maarten Grootendorst) 著 ; 李博杰译 . -- 北京 : 人民邮电出版社 , 2025. -- ISBN 978-7-115-67083-0 Ⅰ . TP18 中国国家版本馆 CIP 数据核字第 2025FB3467 号 图解大模型:生成式AI原理与实战(全).indd 2 2025/4/22 13:37:21
Page
5
版权声明 Copyright © 2024 Jay Alammar and Maarten Pieter Grootendorst. All rights reserved. Simplified Chinese edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom Press, 2025. Authorized translation of the English edition, 2024 O’Reilly Media, Inc., the owner of all rights to publish and sell the same. All rights reserved including the rights of reproduction in whole or in part in any form. 英文原版由 O’Reilly Media, Inc. 出版,2024。 简体中文版由人民邮电出版社有限公司出版,2025。英文原版的翻译得到 O’Reilly Media, Inc. 的授权。此简体中文版的出版和销售得到出版权和销售权的所有者——O’Reilly Media, Inc. 的许可。 版权所有,未得书面许可,本书的任何部分和全部不得以任何形式重制。 图解大模型:生成式AI原理与实战(全).indd 3 2025/4/22 13:37:21 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
6
图解大模型:生成式AI原理与实战(全).indd 4 2025/4/22 13:37:22 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
7
v 目录 对本书的赞誉 ........................................................................................................................................xi 对本书中文版的赞誉.........................................................................................................................xiii 译者序 ....................................................................................................................................................xv 中文版序...............................................................................................................................................xxi 前言......................................................................................................................................................xxiii 第一部分 理解语言模型 第 1 章 大语言模型简介 ..................................................................................................................3 1.1 什么是语言人工智能 .................................................................................................................4 1.2 语言人工智能的近期发展史 .....................................................................................................4 1.2.1 将语言表示为词袋模型 ................................................................................................5 1.2.2 用稠密向量嵌入获得更好的表示 ................................................................................7 1.2.3 嵌入的类型 ....................................................................................................................9 1.2.4 使用注意力机制编解码上下文 ..................................................................................10 1.2.5 “Attention Is All You Need” .........................................................................................13 1.2.6 表示模型:仅编码器模型 ..........................................................................................16 1.2.7 生成模型:仅解码器模型 ..........................................................................................18 1.2.8 生成式 AI 元年 ............................................................................................................20 1.3 “LLM”定义的演变 ................................................................................................................22 1.4 LLM 的训练范式 .....................................................................................................................22 1.5 LLM 的应用 .............................................................................................................................23 1.6 开发和使用负责任的 LLM .....................................................................................................24 1.7 有限的资源就够了 ...................................................................................................................25 1.8 与 LLM 交互 ............................................................................................................................25 图解大模型:生成式AI原理与实战(全).indd 5 2025/4/22 13:37:22 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
8
1.8.1 专有模型 ......................................................................................................................26 1.8.2 开源模型 ......................................................................................................................26 1.8.3 开源框架 ......................................................................................................................27 1.9 生成你的第一段文本 ...............................................................................................................28 1.10 小结 .........................................................................................................................................30 第 2 章 词元和嵌入 .........................................................................................................................31 2.1 LLM 的分词 .............................................................................................................................32 2.1.1 分词器如何处理语言模型的输入 ..............................................................................32 2.1.2 下载和运行 LLM .........................................................................................................33 2.1.3 分词器如何分解文本 ..................................................................................................36 2.1.4 词级、子词级、字符级与字节级分词 ......................................................................37 2.1.5 比较训练好的 LLM 分词器 ........................................................................................39 2.1.6 分词器属性 ..................................................................................................................47 2.2 词元嵌入 ...................................................................................................................................48 2.2.1 语言模型为其分词器的词表保存嵌入 ......................................................................49 2.2.2 使用语言模型创建与上下文相关的词嵌入 ..............................................................49 2.3 文本嵌入(用于句子和整篇文档) .........................................................................................52 2.4 LLM 之外的词嵌入 .................................................................................................................53 2.4.1 使用预训练词嵌入 ......................................................................................................53 2.4.2 word2vec 算法与对比训练 ..........................................................................................54 2.5 推荐系统中的嵌入 ...................................................................................................................57 2.5.1 基于嵌入的歌曲推荐 ..................................................................................................57 2.5.2 训练歌曲嵌入模型 ......................................................................................................58 2.6 小结 ...........................................................................................................................................60 第 3 章 LLM 的内部机制 ..............................................................................................................61 3.1 Transformer 模型概述 ..............................................................................................................62 3.1.1 已训练 Transformer LLM 的输入和输出 ...................................................................62 3.1.2 前向传播的组成 ..........................................................................................................64 3.1.3 从概率分布中选择单个词元(采样 / 解码) .............................................................66 3.1.4 并行词元处理和上下文长度 ......................................................................................68 3.1.5 通过缓存键 − 值加速生成过程 ..................................................................................70 3.1.6 Transformer 块的内部结构 ..........................................................................................71 3.2 Transformer 架构的最新改进 ..................................................................................................79 3.2.1 更高效的注意力机制 ..................................................................................................79 3.2.2 Transformer 块 ..............................................................................................................83 3.2.3 位置嵌入:RoPE .........................................................................................................85 3.2.4 其他架构实验和改进 ..................................................................................................87 3.3 小结 ........................................................................................................................................... vi | 目录 87 图解大模型:生成式AI原理与实战(全).indd 6 2025/4/22 13:37:22 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
9
目录 | vii 第二部分 使用预训练语言模型 第 4 章 文本分类 ..............................................................................................................................91 4.1 电影评论的情感分析 ...............................................................................................................92 4.2 使用表示模型进行文本分类 ...................................................................................................93 4.3 模型选择 ...................................................................................................................................94 4.4 使用特定任务模型 ...................................................................................................................96 4.5 利用嵌入向量的分类任务 .......................................................................................................99 4.5.1 监督分类 ......................................................................................................................99 4.5.2 没有标注数据怎么办 ................................................................................................102 4.6 使用生成模型进行文本分类 .................................................................................................105 4.6.1 使用 T5 .......................................................................................................................106 4.6.2 使用 ChatGPT 进行分类 ...........................................................................................110 4.7 小结 .........................................................................................................................................113 第 5 章 文本聚类和主题建模......................................................................................................114 5.1 ArXiv 文章:计算与语言 ......................................................................................................115 5.2 文本聚类的通用流程 .............................................................................................................116 5.2.1 嵌入文档 ....................................................................................................................116 5.2.2 嵌入向量降维 ............................................................................................................117 5.2.3 对降维后的嵌入向量进行聚类 ................................................................................119 5.2.4 检查生成的簇 ............................................................................................................120 5.3 从文本聚类到主题建模 .........................................................................................................122 5.3.1 BERTopic:一个模块化主题建模框架 ....................................................................124 5.3.2 添加特殊的“乐高积木块” ......................................................................................131 5.3.3 文本生成的“乐高积木块” ......................................................................................135 5.4 小结 .........................................................................................................................................138 第 6 章 提示工程 ............................................................................................................................140 6.1 使用文本生成模型 .................................................................................................................140 6.1.1 选择文本生成模型 ....................................................................................................140 6.1.2 加载文本生成模型 ....................................................................................................141 6.1.3 控制模型输出 ............................................................................................................143 6.2 提示工程简介 .........................................................................................................................145 6.2.1 提示词的基本要素 ....................................................................................................145 6.2.2 基于指令的提示词 ....................................................................................................147 6.3 高级提示工程 .........................................................................................................................149 6.3.1 提示词的潜在复杂性 ................................................................................................149 6.3.2 上下文学习:提供示例 .............................................................................................152 6.3.3 链式提示:分解问题 ................................................................................................153 图解大模型:生成式AI原理与实战(全).indd 7 2025/4/22 13:37:22
Page
10
viii | 目录 6.4 使用生成模型进行推理 .........................................................................................................155 6.4.1 思维链:先思考再回答 ............................................................................................156 6.4.2 自洽性:采样输出 ....................................................................................................159 6.4.3 思维树:探索中间步骤 ............................................................................................160 6.5 输出验证 .................................................................................................................................161 6.5.1 提供示例 ....................................................................................................................162 6.5.2 语法:约束采样 ........................................................................................................164 6.6 小结 .........................................................................................................................................167 第 7 章 高级文本生成技术与工具 .............................................................................................168 7.1 模型输入 / 输出:基于 LangChain 加载量化模型 ..........................................................................169 7.2 链:扩展 LLM 的能力 ..........................................................................................................171 7.2.1 链式架构的关键节点:提示词模板 ........................................................................172 7.2.2 多提示词链式架构 ....................................................................................................174 7.3 记忆:构建 LLM 的对话回溯能力 ......................................................................................177 7.3.1 对话缓冲区 ................................................................................................................178 7.3.2 窗口式对话缓冲区 ....................................................................................................180 7.3.3 对话摘要 ....................................................................................................................181 7.4 智能体:构建 LLM 系统 ......................................................................................................185 7.4.1 智能体的核心机制:递进式推理 ............................................................................186 7.4.2 LangChain 中的 ReAct 实现 .....................................................................................187 7.5 小结 .........................................................................................................................................190 第 8 章 语义搜索与 RAG .............................................................................................................191 8.1 语义搜索与 RAG 技术全景 ..................................................................................................191 8.2 语言模型驱动的语义搜索实践 .............................................................................................193 8.2.1 稠密检索 ....................................................................................................................193 8.2.2 重排序 ........................................................................................................................204 8.2.3 检索评估指标体系 ....................................................................................................207 8.3 RAG ........................................................................................................................................211 8.3.1 从搜索到 RAG ...........................................................................................................212 8.3.2 示例:使用 LLM API 进行基于知识的生成 ...........................................................213 8.3.3 示例:使用本地模型的 RAG ...................................................................................213 8.3.4 高级 RAG 技术 ..........................................................................................................215 8.3.5 RAG 效果评估 ...........................................................................................................217 8.4 小结 .........................................................................................................................................218 第 9 章 多模态 LLM ......................................................................................................................219 9.1 视觉 Transformer ....................................................................................................................220 9.2 多模态嵌入模型 .....................................................................................................................222 9.2.1 CLIP:构建跨模态桥梁 ............................................................................................224 图解大模型:生成式AI原理与实战(全).indd 8 2025/4/22 13:37:22
Page
11
目录 | ix 9.2.2 CLIP 的跨模态嵌入生成机制 ...................................................................................224 9.2.3 OpenCLIP ...................................................................................................................226 9.3 让文本生成模型具备多模态能力 .........................................................................................231 9.3.1 BLIP-2:跨越模态鸿沟 ............................................................................................231 9.3.2 多模态输入预处理 ....................................................................................................235 9.3.3 用例 1:图像描述 .....................................................................................................237 9.3.4 用例 2:基于聊天的多模态提示词 .........................................................................240 9.4 小结 .........................................................................................................................................242 第三部分 训练和微调语言模型 第 10 章 构建文本嵌入模型 .......................................................................................................247 10.1 嵌入模型 ...............................................................................................................................247 10.2 什么是对比学习 ...................................................................................................................249 10.3 SBERT ...................................................................................................................................251 10.4 构建嵌入模型 .......................................................................................................................253 10.4.1 生成对比样本.........................................................................................................253 10.4.2 训练模型.................................................................................................................254 10.4.3 深入评估.................................................................................................................257 10.4.4 损失函数.................................................................................................................258 10.5 微调嵌入模型 .......................................................................................................................265 10.5.1 监督学习.................................................................................................................265 10.5.2 增强型 SBERT .......................................................................................................267 10.6 无监督学习 ...........................................................................................................................271 10.6.1 TSDAE ....................................................................................................................272 10.6.2 使用 TSDAE 进行领域适配 ..................................................................................275 10.7 小结 .......................................................................................................................................276 第 11 章 为分类任务微调表示模型 ..........................................................................................277 11.1 监督分类 ...............................................................................................................................277 11.1.1 微调预训练的 BERT 模型 .....................................................................................279 11.1.2 冻结层 .....................................................................................................................281 11.2 少样本分类 ...........................................................................................................................286 11.2.1 SetFit:少样本场景下的高效微调方案 ...............................................................286 11.2.2 少样本分类的微调 .................................................................................................290 11.3 基于掩码语言建模的继续预训练 .......................................................................................292 11.4 命名实体识别 .......................................................................................................................297 11.4.1 数据准备 .................................................................................................................298 11.4.2 命名实体识别的微调 .............................................................................................303 11.5 小结 .......................................................................................................................................305 图解大模型:生成式AI原理与实战(全).indd 9 2025/4/22 13:37:22
Page
12
第 12 章 微调生成模型 ................................................................................................................306 12.1 LLM 训练三步走:预训练、监督微调和偏好调优 ..........................................................306 12.2 监督微调 ...............................................................................................................................308 12.2.1 全量微调.................................................................................................................308 12.2.2 参数高效微调.........................................................................................................309 12.3 使用 QLoRA 进行指令微调 ................................................................................................317 12.3.1 模板化指令数据.....................................................................................................317 12.3.2 模型量化.................................................................................................................318 12.3.3 LoRA 配置..............................................................................................................319 12.3.4 训练配置.................................................................................................................320 12.3.5 训练.........................................................................................................................321 12.3.6 合并权重.................................................................................................................322 12.4 评估生成模型 .......................................................................................................................322 12.4.1 词级指标.................................................................................................................323 12.4.2 基准测试.................................................................................................................323 12.4.3 排行榜.....................................................................................................................324 12.4.4 自动评估.................................................................................................................325 12.4.5 人工评估.................................................................................................................325 12.5 偏好调优、对齐 ...................................................................................................................326 12.6 使用奖励模型实现偏好评估自动化 ...................................................................................327 12.6.1 奖励模型的输入和输出.........................................................................................328 12.6.2 训练奖励模型.........................................................................................................329 12.6.3 训练无奖励模型.....................................................................................................332 12.7 使用 DPO 进行偏好调优 .....................................................................................................333 12.7.1 对齐数据的模板化.................................................................................................333 12.7.2 模型量化.................................................................................................................334 12.7.3 训练配置.................................................................................................................335 12.7.4 训练.........................................................................................................................336 12.8 小结 .......................................................................................................................................337 附录 图解 DeepSeek-R1 ............................................................................................................338 后记....................................................................................................................................................... x | 目录 349 图解大模型:生成式AI原理与实战(全).indd 10 2025/4/22 13:37:22 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
13
xi 对本书的赞誉 这本书堪称探索大模型技术与行业实践应用的权威指南。全书通过高度可视化的方式解析 大模型的生成、表示与检索应用,帮助读者快速理解技术原理、落地实践并优化大模型。 强烈推荐! ——Nils Reimers,Cohere 机器学习总监、sentence-transformers 库创建者 这本书延续了 Jay 和 Maarten 一贯的风格,通过精美的插图搭配深入浅出的文字,将复杂 概念讲解得形象生动。书中不仅配备可一键运行的代码,还梳理了技术发展脉络,并引用 核心论文,为想要深入理解大模型底层技术的读者提供了宝贵的学习资源。 ——吴恩达(Andrew Ng),DeepLearning.AI 创始人 在大模型时代,想不出还有哪本书比这本更值得一读!不要错过书中任何一页,你会从中 学到至关重要的知识。 ——Josh Starmer,YouTube 热门频道 StatQuest 作者 若想快速、全面地掌握大模型知识,阅读这本书就够了!在书中,Jay 与 Maarten 将带你 从零起步,深入了解大模型的历史与前沿,最终成为领域专家。凭借直观的阐释、生动的 案例、清晰的图解和完整的代码实践,这本书揭开了 Transformer 模型、分词器、语义搜 索、RAG 等尖端技术的神秘面纱,实乃 AI 前沿探索者的必读之作! ——Luis Serrano 博士,Serrano Academy 创始人兼 CEO 图解大模型:生成式AI原理与实战(全).indd 11 2025/4/22 13:37:22
Page
14
在快速演进的生成式 AI 领域,这本书是不可或缺的指南。书中聚焦文本嵌入与视觉嵌入 技术,完美融合算法演进、理论深度与实践智慧。无论学者、研究员还是从业者,都将从 xii | 对本书的赞誉 中获得提升认知的实战方案。精湛之作! ——Chris Fregly,AWS 前生成式 AI 首席解决方案架构师 在这场生成式 AI 革命的核心地带,这本书以精妙的“理论 - 实践”平衡艺术,引领读者 穿越大模型的广袤版图,赋予读者在 AI 领域实现突破性创新的知识储备。 ——Tarun Narayanan Venkatachalam,华盛顿大学 AI 研究员 获取语言模型实战经验的及时指南。 ——Emir Muñoz,Genesys 高级经理 这本书通过清晰的讲解和真实案例帮助读者破除 AI 泡沫,聚焦真正重要和实际可用的知 识。书中配有丰富的图示,帮助读者形象地理解知识,辅以示例和代码将抽象概念具象 化,便于读者实践。读者将从简单的入门知识开始,循序渐进,到最后,能够信心满满地 完成大模型的微调和构建。 ——Leland McInnes,Tutte 数学与计算研究所研究员 终于有一本书,避开了对大模型的泛泛之谈,深入探讨了相关技术的来龙去脉,可谓通俗 易懂、引人入胜!两位作者打造了一部权威指南——纵使领域日新月异,此书仍将长驻 经典之列。 ——Roman Egger,SmartVisions CEO、维也纳模都尔大学教授 图解大模型:生成式AI原理与实战(全).indd 12 2025/4/22 13:37:22 图灵社区会员 starberry(13795898237) 专享 尊重版权
Page
15
xiii 对本书中文版的赞誉 这本书以“图解”为特色,将复杂的大模型技术转化为直观易懂的视觉语言,让抽象概念 一目了然,堪称技术人的“视觉化学习手册”!书中既剖析语言模型和 Transformer 的核 心原理,又涵盖提示工程和微调等实战技巧,兼具深度与实用性,是掌握生成式 AI 的绝 佳指南!无论是初学者还是从业者,都能基于本书快速构建知识框架并落地实践。译者李 博杰博士是业界一线专家,有趣的是,他在翻译这本书的过程中就适当借助了前沿大模型 的能力,真正践行了“绝知此事要躬行”的理念。 ——袁进辉(@ 老师木),硅基流动(SiliconFlow)创始人 这是一本少见的将原理讲解、实践操作与直观图示融合得如此出色的入门书。中文版由技 术功底深厚的李博杰老师精心翻译,并特别补充了 DeepSeek 原理介绍的内容,展现出对 技术本质与时代脉搏的双重把握,是理解生成式 AI 这一核心技术变革的重要起点。 ——周礼栋,微软亚洲研究院院长 这本书深入浅出地介绍了与大模型相关的基础知识(包括 NLP 以及当前大模型的核心技 术),并用通俗易懂的方式引导读者学习和使用大模型。书中提供了丰富的插图和案例, 帮助读者掌握大模型基础知识,了解不同类型的大模型及其在不同场景中的典型用法。不 论对于大模型初学者还是行业专家,这都是一本不可多得的好教材,推荐阅读! ——林俊旸,阿里巴巴 Qwen 算法负责人 图解大模型:生成式AI原理与实战(全).indd 13 2025/4/22 13:37:23
Page
16
xiv | 对本书中文版的赞誉 这本书结合丰富的代码示例和清晰的图解,以通俗易懂的方式深入剖析了大模型的核心技 术,可帮助读者快速理解并动手实践大模型,是非常适合入门的优秀教材。原作者思路清 晰、逻辑严密,善于将复杂的原理抽丝剥茧、层层展开;译者则用准确而流畅的语言再现 了原作的精髓,确保中文读者同样能够轻松理解并掌握这些前沿技术。 ——李国豪,CAMEL-AI 社区创始人 这本书不仅内容全面,而且脉络清晰,还配有丰富的插图和大量代码示例——从大模型的 核心理论到实战,通过一本书就能学透。对于“大模型训练师”这样的热门职业,这本书 堪称经典入门教材,强烈推荐! ——仲泰,特工宇宙(AgentUniverse)创始人 图解大模型:生成式AI原理与实战(全).indd 14 2025/4/22 13:37:23
Page
17
xv 译者序 既然翻开这本书,你就已经是时代的幸运儿。大模型是近 10 年来最大的技术浪潮,机器 第一次能够掌握世界知识,像人一样思考。遇到这样大的技术浪潮是我人生最幸运的事 情,在 GPT-4 发布之后,我就果断投身创业。 如今,大模型已经走进千行百业——程序员用 Cursor 可以提升一倍以上的开发效率;不懂 编程的人也可以用 Lovable 开发产品原型;OpenAI Deep Research 生成的调研报告比大部 分实习生做的专业;只需两小时,我就能使用 AI 根据录音整理出 5 万字的访谈稿;有了 AI,一名运营人员就可以管理几十个网站、上百个社交媒体账号;在公司举行会议的过程 中,项目管理工具中的工作项就能实时更新相关信息……一些公司已经开始组建 AI 原生 团队,每名真人员工带几名数字员工,真人员工将大多数时间用于思考和讨论,烦冗的执 行工作则交给 24 小时不休息的数字员工。大模型也已经走进普通人的日常生活——餐厅 服务员教我用 Kimi 写点评,家里的老人和亲戚用 DeepSeek-R1 写拜年短信,小区里的小 孩天天“抱着”豆包聊天…… 大模型发展迅速,可谓 “AI 一天,人间一年”。很多人在百花齐放的模型花园中迷失了方 向,不知道手头的应用场景应该用什么模型,也无法预判未来一年模型的发展方向,时常 陷入焦虑。其实,如今几乎所有大模型都是基于 Transformer 架构的,万变不离其宗。 而你手里的这本书正是帮你系统了解 Transformer 和大模型的基本原理和能力边界的绝 佳资料。当图灵公司找到我翻译这本书时,我看到作者的名字就第一时间答应了,因为 我当年就是读了 Jay Alammar 的“The Illustrated Transformer”这篇博客文章才真正弄懂 Transformer 的(本书第 3 章就是由这篇博客文章扩展而来的)。如今讲解大模型的图书和 文章浩如烟海,但本书的插图之精美、讲解之深入浅出是罕见的。本书从词元和嵌入讲 起,不局限于生成模型,还包括很多人忽视的表示模型。此外,书中还包括文本分类、文 本聚类、提示工程、RAG、模型微调等实用内容。 花些时间读一下本书,系统地了解 Transformer 和大模型的基本原理和能力边界,就如同 图解大模型:生成式AI原理与实战(全).indd 15 2025/4/22 13:37:23
Page
18
xvi | 译者序 在大模型的探险之旅中拥有了地图和指南针。这样,我们不但不会担心新发布的模型一夜 之间让长期的工程积累变得无用,还可以为未来的模型开发产品。模型能力一旦就绪,产 品就可以马上起量。 配套阅读:大模型面试题60问1 我在面试候选人和参加业内研讨会时,常常发现很多人有大量实战经验,但对模型的基本 原理知之甚少。为了帮助大家更好地理解本书,也为了方便部分有面试需求的朋友更有针 对性地阅读本书,围绕本书各章主题,我系统梳理了大模型领域常见的面试题,其中的大 多数问题可以在书中直接找到答案,部分进阶问题可以从本书的参考文献或网络上的最新 论文中找到答案。希望所有的朋友都能够带着这些问题阅读本书。 第 1 章 大语言模型简介 Q1:仅编码器(BERT 类)、仅解码器(GPT 类)和完整的编码器 -解码器架构各有什么优缺点? Q2:自注意力机制如何使大模型能够捕捉长距离依赖关系,它跟 RNN 有什么区别? Q3:大模型为什么有上下文长度的概念?为什么它是指输入和输出的总长度? 第 2 章 词元和嵌入 Q4:大模型的分词器和传统的中文分词有什么区别?对于指定的词表,一句话是不是只有唯一的分 词方式? Q5:大模型是如何区分聊天历史中用户说的话和 AI 说的话的? Q6:传统的静态词嵌入(如 word2vec)与大模型产生的上下文相关的嵌入相比,有什么区别?有了 与上下文相关的嵌入,静态词嵌入还有什么价值? Q7:在 word2vec 等词嵌入空间中,存在 king – man + woman ≈ queen 的现象,这是为什么?大模型 的词元嵌入空间是否也有类似的属性? 第 3 章 LLM 的内部机制 Q8:注意力机制是如何计算上下文各个词元之间的相关性的?每个注意力头只关注一个词元吗? Q9:如果需要通过修改尽可能少的参数值,让模型忘记某一特定知识,应该修改注意力层还是前馈 神经网络层的参数? Q10:为什么注意力机制需要多个头?跟简单地减少注意力头的数量相比,多查询注意力和分组查询 注意力优化有什么不同?它们优化的是训练阶段还是推理阶段? Q11:Flash Attention 并不能减少计算量,为什么能提升推理速度? Flash Attention 是如何实现增量计 算 softmax 的? 注 1: 这里的试题是一个精华版,李博杰老师为本书整理了大模型面试题 200 问,作为免费的配套阅读资料, 具体请前往 https://www.ituring.com.cn/book/3285 页面的“随书下载”下载阅读。——编者注 图解大模型:生成式AI原理与实战(全).indd 16 2025/4/22 13:37:23
Page
19
译者序 | xvii Q12:跟原始 Transformer 论文中的绝对位置编码相比,RoPE(旋转位置嵌入)有什么优点? RoPE 在长上下文外推时会面临什么挑战? 第 4 章 文本分类 Q13:在本章中,嵌入模型 + 逻辑回归的分类方式获得了 0.85 的 F1 分数,而零样本分类方式获得了 0.78 的 F1 分数。如果有标注数据,什么情况下会选择零样本分类? Q14:与 BERT 的掩蔽策略相比,掩码语言建模有何不同?这种预训练方式如何帮助模型在下游的文 本分类任务中获得更好的性能? Q15:假设你有一个包含 100 万条客户评论的数据集,但只有 1000 条带有标签的数据,请同时利用 有标签和无标签的数据,结合表示模型和生成模型的优势,构建一个分类系统。 第 5 章 文本聚类和主题建模 Q16:有了强大的生成式大模型,嵌入模型还有什么用?(提示:推荐系统) Q17:词袋法和文档嵌入在实现原理上有什么区别?词袋法是不是一无是处了? Q18:BERTopic 中的 c-TF-IDF 与传统的 TF-IDF 有何不同?这种差异如何帮助改进主题表示的质量? Q19:基于质心和基于密度的文本聚类算法有什么优缺点? Q20:在一个主题建模项目中,你发现生成的主题中有大量重叠的关键词,如何使用本章介绍的技术 来提高主题之间的区分度? 第 6 章 提示工程 Q21:针对翻译类、创意写作类、头脑风暴类任务,分别如何设置 temperature 和 top_p? Q22:一个专业的提示词模板由哪几部分构成?为什么提示词中需要描述角色定义? Q23:为了尽可能防止提示词注入,如何设计提示词模板?如何在系统层面检测提示词注入攻击? Q24:在没有推理模型之前,如何让模型先思考后回答?思维链、自洽性、思维树等几种技术各有什 么优缺点? Q25:如何保证模型的输出一定是合法的 JSON 格式?将大模型用于分类任务时,如何保证其输出一 定是几个类别之一,而不会输出无关内容?如果开发一个学习英语的应用,如何确保其输出的语言始 终限定在指定的词汇表中? 第 7 章 高级文本生成技术与工具 Q26:如果我们需要生成小说的标题、角色描述和故事梗概,当单次模型调用生成效果不佳时,如何 分步生成? Q27:如果用户跟模型对话轮次过多,超出了模型的上下文限制,但我们又希望尽可能保留用户的对 话信息,该怎么办? Q28:如何编写一个智能体,帮助用户规划一次包含机票预订、酒店安排和景点游览的旅行?需要配 置哪些工具?如何确保系统在面对不完整或矛盾的信息时仍能提供合理建议? 图解大模型:生成式AI原理与实战(全).indd 17 2025/4/22 13:37:23
Page
20
xviii | 译者序 Q29:如果单一智能体的提示词过长,导致性能下降,如何将其拆分为多个智能体,并在合适的时机 调用不同的智能体? 第 8 章 语义搜索与 RAG Q30:在 RAG 中,为什么要把文档划分成多个块进行索引?如何解决文档分块后内容上下文缺失的 问题?如何处理跨片段的依赖关系? Q31:向量相似度检索不能实现关键词的精确匹配,基于倒排索引的关键词检索不能匹配语义相近的 词,如何解决这对矛盾?为什么需要重排序模型? Q32:为什么要在向量相似度检索前,对用户输入的话进行改写? Q33:如果需要根据某长篇小说的内容回答问题,而小说的长度远远超出了上下文限制,应该如何综 合利用摘要和 RAG 技术,使其能同时回答故事梗概和故事细节? 第 9 章 多模态 LLM Q34:在 CLIP 训练过程中,为什么需要同时最大化匹配图文对的相似度和最小化非匹配图文对的相 似度? Q35:BLIP-2 为何不直接将视觉编码器的输出连接到语言模型,而要引入 Q-Former 这一中间层结 构? Q36:现有一个能力较弱的多模态模型和一个能力较强的文本模型(如 DeepSeek-R1),如何结合两者 的能力来回答与多模态相关的问题? Q37:如何构建一个 AI 照片助手,能够对用户的上万张照片进行索引,根据用户的查询高效地检 索相关照片? 第 10 章 构建文本嵌入模型 Q38:相比交叉编码器,为什么双编码器在大规模相似度搜索中更受欢迎? Q39:在训练嵌入模型时,MNR(多负例排序)损失、余弦相似度损失和 softmax 损失各有哪些优缺 点?在哪些场景下,余弦相似度损失可能比 MNR 损失更合适? Q40:如何生成负例以提升模型性能?如何构建高质量的难负例? Q41:为什么 TSDAE 选择使用特殊词元而非平均池化作为句子表征? Q42:相比 STSB,MTEB 有哪些改进?其中包括哪些类别的嵌入任务? 第 11 章 为分类任务微调表示模型 Q43:如果标注的训练数据很少,如何扩增训练数据的数量?(提示:SetFit) Q44:在继续预训练时,如何在保证模型获得特定领域知识的同时,最大限度地保留其通用能力? Q45:请比较以下三种方案在医疗领域文本分类任务上的优缺点:(a) 直接使用通用 BERT 模型微调; (b) 在医疗文本上继续预训练 BERT 后再微调;(c) 从头开始用医疗文本预训练模型再微调。 Q46:在命名实体识别任务中,当 BERT 将单词拆分成多个词元时,如何解决标签对齐问题? 图解大模型:生成式AI原理与实战(全).indd 18 2025/4/22 13:37:23
The above is a preview of the first 20 pages. Register to read the complete e-book.
Comments 0
Loading comments...
Reply to Comment
Edit Comment