北京大学：DeepSeek在教育和学术领域的应用场景与案例

语言	格式	评分
中文（简体）	.pdf	3
概览
第1页 DeepSeek在教育和学术领域的应用场景与案例（上） AI肖睿团队（张惠军、孙苹、周嵘） 2025年5月20日 • 北大青鸟人工智能研究院 • 北大计算机学院元宇宙技术研究所 • 北大教育学院学习科学实验室第1页 DeepSeek在教育和学术领域的应用场景与案例（上） AI肖睿团队（张惠军、孙苹、周嵘） 2025年5月20日 • 北大青鸟人工智能研究院 • 北大计算机学院元宇宙技术研究所 • 北大教育学院学习科学实验室学习交流可加AI肖睿团队助理微信号（ABZ2829）第2页摘要一、本讲座为DeepSeek原理和应用系列研讨的讲座之一，面向教育工作者、学校管理人员、学术研究人员、教育技术专家、学生、及关注教育和学术创新的社会各界人士，系统阐述DeepSeek技术如何赋能教育和学术全流程。本讲座不仅提供理论指导，更注重提供实操模板与案例，强调无需依赖专门AI系统，普通教育和学术工作者也能便捷应用通用模型与开放工具实现专业功能，具有广泛实用性和迁移价值。二、教育和学术领域是一个知识密度极高的领域，也是受大语言模型技术影响较大的领域。本讲座共包括五个部分，逐层递进、环环相扣，从技术概述到教学应用、学习辅助、科研支持再到管理赋能，通过教-学-研-管四个教育环节构建了 DeepSeek教育应用的立体图景。本讲座内容比较多，分为上中下三部分课件，学习和讨论三天时间： n 第一天：DeepSeek技术重塑教育。 n 第二天：教-DeepSeek贯通教学流程。学-DeepSeek实现个性化学习。 n 第三天：研-DeepSeek赋能学术科研。管-DeepSeek提效学校管理。三、在技术学习的道路上，优质学习资源至关重要。推荐大家参考《人工智能通识教程（微课版）》这本系统全面的入门教材，结合B站“思睿观通”栏目的配套视频进行学习。此外，欢迎加入ai.kgc.cn社区，以及“AI肖睿团队”的视频号和微信号，与志同道合的AI爱好者交流经验、分享心得。学习交流可加AI肖睿团队助理微信号（ABZ2829）第3页一、今天的讲座分两大部分，聚焦于Deepseek与AI认知和DeepSeek对教育行业的影响。第一部分通过深度解析DeepSeek的核心技术来追溯AI的整体演进，旨在为教育者构建一个适应未来的认知新框架与人才培养视角。第二部分在阐明AI如何引领教育范式革命的基础上，通过实践案例探索教育者利用新技术进行教学创新的具体路径与普适性方法。二、DeepSeek与AI认知此部分从DeepSeek的历史开始，逐步讲解AI的演进及认知： 1. DeepSeek解密：详细介绍DeepSeek技术历程、核心优势及其算法在理解、推理、知识应用上的提升。解析V3、R1等模型特性，旨在为听众构建对这一前沿技术价值的坚实理解基础。 2. AI技术演进与认知框架：梳理AI从规则系统到大模型的技术演进，探讨AI时代的认知升级与人才观变革。为教育者提供认知框架，指明人才培养方向，促进技术与教育融合。这部分内容旨在为教育工作者提供一个科学的认知框架，明确未来人才培养的方向，并搭建起先进技术与教育实践有效融合的桥梁三、DeepSeek对教育行业的影响此部分从教育变革的驱动力开始，进一步讲解AI对教育的影响： 1、教育行业的AI范式革命：探讨AI如何引领教育及相关领域的范式革命。阐述AI教育范式革命五大核心环节（智慧备课、沉浸教学、自适应学习、智能考试、全维评测）及其对教育流程的重构。分析DeepSeek应用场景、优势、各教育阶段适配性及选择理由。 2、DeepSeek在教育中的应用：展示K12与高校AI人才培养及教学实践的创新案例。对比专业AI平台与通用模型（如 DeepSeek）的应用路径。强调利用通用大模型及开放工具赋能教育者，突出方法原理的通用性与可迁移性。第一天的摘要：DeepSeek技术重塑教育学习交流可加AI肖睿团队助理微信号（ABZ2829）第4页目录 1. DeepSeek解密 2. AI技术演进与认知框架 01 DeepSeek和AI认知 1. 教育行业的AI范式革命 2. DeepSeek的教育应用 02 DeepSeek对教育行业的影响学习交流可加AI肖睿团队助理微信号（ABZ2829）第5页现象： DeepSeek快速出圈，全民硬控 n 2024年12月26日， DeepSeek推出对标OpenAI GPT-4o的语言模型DeepSeek V3，随后在美国AI行业内部引起轰动。 n 2025年1月20日， DeepSeek发布对标OpenAI o1 的DeepSeek R1大语言模型，并于1月24日引起美国投资界KOL关注。 n 2025年1月26日，关于DeepSeek颠覆了大模型的商业模式（堆算力、拼资本），引发英伟达股价大跌， DeepSeek首先在美国出圈，引发国际社会讨论。 n 2025年1月底（春节前后）， DeepSeek在中国出圈，并上升到中美竞争高度，同时纷纷接入DeepSeek， DeepSeek成为AI和大模型的代名词。 n DeepSeek让AI跨越了鸿沟。学习交流可加AI肖睿团队助理微信号（ABZ2829）第6页到底谁是DeepSeek？公司、产品、模型 n 于2023年5月成立北京公司， 2023年7月成立杭州公司，是幻方量化孵化出的一家大模型研究机构（企业目标是实现AGI），200人的团队分布在杭州和北京，是中国AI2.0（大模型）时代的七小龙之一。 • AI1.0（深度学习）时代的四小龙：商汤、旷世、云从、依图 • 除了DeepSeek公司之外，其它六家也被投资界称为中国大模型企业六小虎（智谱AI、百川智能、月之暗面、阶跃星辰、MiniMax、零一万物）。学习交流可加AI肖睿团队助理微信号（ABZ2829）第7页到底谁是DeepSeek？公司、产品、模型 IaaS 硬件服务（设备/电脑/服务器/GPU、网络、操作系统） PaaS 平台服务（存储、计算、数据、安全、中间件） MaaS 模型服务（数据工程、推理加速、训练框架、API调用） SaaS 应用服务（网页、APP、桌面软件、设备软件） Ø 私有化部署 • 本地：个人设备或电脑、企业服务器 • 数据中心（IDC）：企业服务器、服务器集群（私有云） Ø 公有云服务：阿里云、火山云、腾讯云、金山云、华为云等；AWS、Azure等 Ø 开源模型：DeepSeek、Qwen、Llama、SD、微调模型等 • 向上提供：私有化部署，公有云服务（DeepSeek官网、硅基流动、火山引擎等） Ø 闭源模型：OpenAI、Claude、Gemini、Kimi、百度等 • 向上提供：公有云服务（OpenAI官网） Ø 生产办公系统：目前多数为定制开发（RAG、Agent等） Ø 对话机器人：目前多数为标准产品，使用云服务 • 免费：DeepSeek、豆包、Kimi、元宝、Monica、秘塔搜索、问小白、Molly R1等 • 收费（月费；充值）：文小言、通义、可灵、即梦、Vidu、Liblib、ChatGPT等系统组成部署方案学习交流可加AI肖睿团队助理微信号（ABZ2829）第8页到底谁是DeepSeek？公司、产品、模型公司、模型、产品 n 引起中美AI行业内部关注的是：模型 n 引起美国关注的是：模型和公司 n 春节前后在中国出圈的是：产品 n 思考过程展示 n 中文好有情商 n 容易获得，使用简单 n 联网和来源引用 n 速度快 n 免费产品优势（用户可感受到）学习交流可加AI肖睿团队助理微信号（ABZ2829）第9页到底谁是DeepSeek？公司、产品、模型学习交流可加AI肖睿团队助理微信号（ABZ2829）第10页到底谁是DeepSeek？公司、产品、模型 Model Base Model DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B 蒸馏模型，能力稍弱 n 实际上是增加了推理能力的Qwen模型和 Llama模型，不能称为DeepSeek模型。 n 市场上有误解，厂商有误导，甚至Ollama工具的模型选项中也有误导。 DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct DeepSeek-R1-671B DeepSeek-V3-Base 满血版，能力最强学习交流可加AI肖睿团队助理微信号（ABZ2829）第11页 ! 8 9 8 PEKING UNIVERSITY N I V 模型参数量 1. 模型能力：通常来说，参数量越大，模型就有更强的理解和生成能力，但是需要更多计算资源。 2. 硬件需求：参数越多，对内存（RAM）和显存（VRAM）的需求就越高。 3. 运行速度：参数量大的模型，推理速度更慢，尤其是资源不足的时候。 4. 知识密度百日定律：参数量每3.3个月降低一半。 1. 本地部署DeepSeek时，需根据硬件配置选择合适模型版本。如1.5B模型适合资源受限设备， 671B模型需服务器集群支持。 2. 合理匹配参数量与硬件，可优化模型性能，提升运行效率，避免资源浪费或性能瓶颈。学习交流可加AI肖睿团队助理微信号（ABZ2829）第12页模型蒸馏的定义通俗解释：模型蒸馏就像是让一个“老师”（大模型）把知识传授给一个“学生”（小模型），让“学生” 变成“学霸”。正式定义：模型蒸馏是一种将大型复杂模型（教师模型）的知识迁移到小型高效模型（学生模型）的技术。模型蒸馏的原理教师模型的训练：先训练一个性能强大但计算成本高的教师模型。生成软标签：教师模型对数据进行预测，得到每个样本的概率分布，这些就是软标签。训练学生模型：用软标签和硬标签共同训练学生模型。优化与调整：通过调整超参数，优化学生模型的性能。蒸馏技术的优势模型压缩：学生模型参数少，计算成本低，更适合在资源受限的环境中部署。性能提升：学生模型通过学习教师模型的输出概率分布，能够更好地理解数据的模式和特征。效率提高：学生模型训练所需的样本数量可能更少，训练成本降低。蒸馏模型学习交流可加AI肖睿团队助理微信号（ABZ2829）第13页 DeepSeek V3/R1模型的优势 DeepSeek以“推理能力+第一梯队性能”为核心基础，叠加：开源开放、超低成本、国产自主研发三大优势，不仅实现技术代际跨越，更推动AI技术普惠化与国产化生态繁荣，成为全球大模型赛道的重要领跑者。多Token预测 MTP 混合精度训练 FP8 混合专家 MOE 多头潜注意力 MLA 通讯优化 DualPipe 并行训练框架 HAI 强化学习 GRPO 直接硬件编程 PTX 测试时计算 TTC 能力突破开源、低成本、国产自主 n 基础能力：进入推理模型阶段，并跻身全球第一梯队 1. 推理能力跃升： DeepSeek大模型核心技术突破，实现复杂推理任务的精准处理与高效执行，覆盖多模态场景应用。 2. 国际竞争力对标：模型综合性能跃居全球第一梯队，技术指标与国际顶尖水平（如GPT系列、Claude等）直接对标，奠定国产大模型的行业标杆地位。 n 核心加分项：开源、低成本、国产自主 1. 开源：技术共享，生态共建 • 全量开源训练代码、数据清洗工具及微调框架 • 开发者可快速构建教育、金融、医疗等垂直领域应用，推动协同创新。 2. 低成本：普惠企业级AI应用 • 针对H系列芯片做了大量的模型架构优化和系统工程优化。 • 最后一次训练成本仅$557w ：显著低于行业同类模型，打破高价壁垒。 • 推理成本降低83%：千亿参数模型适配中小企业需求，加速商业化落地。 3. 国产自主：技术自主，缩短差距 • 将国产模型与美国的代际差距从1-2年缩短至3-5个月，突破“卡脖子” 技术瓶颈。 • 构建多行业专属模型矩阵，全面支持国内产业智能化升级。学习交流可加AI肖睿团队助理微信号（ABZ2829）第14页 DeepSeek R1模型的能力突破学习交流可加AI肖睿团队助理微信号（ABZ2829）第15页 DeepSeek R1模型的能力突破学习交流可加AI肖睿团队助理微信号（ABZ2829）第16页 DeepSeek R1模型的能力突破学习交流可加AI肖睿团队助理微信号（ABZ2829）第17页 DeepSeek V3/R1模型的创新一、基础架构： 1. 混合专家模型（MoE）： DeepSeek采用MoE架构，通过动态选择最适合输入数据的专家模块进行处理，提升推理能力和效率。 2. 无辅助损失的专家负载均衡策略（EP）：该策略使 DeepSeekMoE在不对优化目标产生干扰的前提下，实现各个专家的负载均衡，避免了某些专家可能会被过度使用，而其他专家则被闲置的现象。 3. 多头潜在注意力机制（MLA）： MLA通过低秩压缩减少Key- Value缓存，显著提升推理效率。 4. 强化学习（RL）： DeepSeek-R1在训练中大规模应用强化学习( 让模型自我探索和训练)，将传统的PPO替换为GRPO训练算法，显著提升推理能力。 5. 多Token预测（MTP）：通过多Token预测， Deepseek不仅提高了推理速度，还降低了训练成本。二、训练及框架： 1. FP8混合精度训练（FP8）：在关键计算步骤使用高精度，其他模型层使用FP8低精度进一步降低训练成本。这一点，是DeepSeek团队非常有价值的创新和突破。 2. 长链推理技术（TTC）：模型支持数万字的长链推理，可逐步分解复杂问题并进行多步骤逻辑推理。 3. 并行训练系统（HAI）： 16 路流水线并行(Pipeline Parallelism, PP)、跨 8 个节点的 64 路专家并行(Expert Parallelism, EP)，以及数据并行 (Data Parallelism, DP) ，大幅提升模型训练速度。 4. 通讯优化（DualPipe）：高效的跨节点通信内核，充分利用 IB 和 NVLink 带宽特点，减少通信开销，提高模型推理性能。 5. 混合机器编程（PTX）：部分代码直接使用PTX编程提高GPU运行效率。 6. 算子库优化（GEMM等Op）：针对H800计算卡的特点，优化了一部分CUDA的算子库。学习交流可加AI肖睿团队助理微信号（ABZ2829）第18页 DeepSeek V3/R1模型的创新三、社会价值： 1. 开源生态：使用最为开放的MIT开源协议，吸引了大量研究人员和应用厂商，推动了AI技术的发展。 2. 模型蒸馏支持： DeepSeek-R1同时发布了多个模型蒸馏。 • 虽然这些蒸馏模型的生产初衷是为了验证蒸馏效果，但客观上帮助用户有机会使用移植了 DeepSeek-R1满血版模型的能力的更小的模型，以满足不同应用场景需求。 • 副作用是：给市场和用户造成了很多困扰。 3. AI产品和技术的普及： • 对于大模型研发企业，更加重视infra工程的价值了。 • 对于大模型应用企业，有了更多高效低成本解决方案。 • 对于社会大众，认识到AI是一个趋势，不是昙花一现。 • 对于市场，用户开始主动引入AI，不再怀疑了。 • 对于国家，大幅缩小了中美的核心技术差距。 • 对于全人类，技术平权，造福一方。学习交流可加AI肖睿团队助理微信号（ABZ2829）第19页 DeepSeek R1 对大模型行业的重大影响 DeepSeek-R1以低成本和开源特性打破以往头部企业巨头割据局面 DeepSeek-R1的API定价仅为行业均价的1/10,推动了中小型企业低成本接入AI,对行业产生了积极影响 DeepSeek-R1促使行业开始从 “ 唯规模论 ” 转向更加注重 “性价比”和“高效能”方向 01 02 03 打破垄断价格下调推动创新学习交流可加AI肖睿团队助理微信号（ABZ2829）第20页目录 1. DeepSeek解密 2. AI技术演进与认知框架 01 DeepSeek和AI认知 1. 教育行业的AI范式革命 2. DeepSeek的教育应用 02 DeepSeek对教育行业的影响学习交流可加AI肖睿团队助理微信号（ABZ2829）第21页人工智能：古代（1956-2006，从规则到学习）人工智能：让机器具备人类智能，让机器具备非人类智能（超人类智能） Ø 传统（知识+规则）：专家系统（知识库+推理机） Ø 现代（数据+学习）：机器学习（模型、目标、策略），数据模型（IID，用数学模型模拟世界） • 常规统计学习方法：逻辑回归，决策森林，支持向量机，马尔科夫链，…… • 人工神经网络：与人脑最大的共同点是名字（原理、机制和架构并不一样），用神经网络表达数学模型传统神经网络：霍普菲尔德网络，玻尔兹曼机，….. 深度神经网络：深度学习（Hinton，2006）学习交流可加AI肖睿团队助理微信号（ABZ2829）第22页人工智能：近代（2006-2020，深度学习） Ø 2006：传统架构：DBN，CNN，RNN，ResNet，Inception，RWKV， …… • ImageNet（超过人眼） • AlphaGO（超过人类棋手） • AlphaFold（超过人类科学家） Ø 2017：Transformer架构：注意力机制（Attention） n 预训练模型架构： • 编码器（BERT）：embedding，Ernie1.0， …… • 混合网络： T5、GLM（早期） • 解码器（GPT）：生成式人工智能（AIGC）深度学习：深度神经网络 n 预训练模型架构： • 并行矩阵计算（GPU） • 堆叠架构，容易扩展，大力出奇迹学习交流可加AI肖睿团队助理微信号（ABZ2829）第23页人工智能：现代（2020-，大模型）大模型（预训练大模型）：大（数据多、参数多、算力多），模型（语言、视觉、多模态） Ø GPT架构：解码器（GPT），生成式人工智能（AIGC），生成-理解-决策（RL） • Transformer：大