2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告以需要寻找额外的 Scaling Laws [1]。 [1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168 [2] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 天然 契合;此外,GRPO直接将策略模型与参考模型的KL散度作为正则项加入损失函数,而非将其混入 奖励计算,简化了优势值的计算。 DeepSeekMath https://arxiv.org/pdf/2402.03300 24 DeepSeek-R1 技术剖析:GRPO 赋能RL-Scale ➢From PPO to GRPO: ➢ 基于结果监督的GRPO: 对于每个问题q,从旧策略模型𝜋𝜃𝑜𝑙𝑑采样一组输出 其中𝑖𝑛𝑑𝑒𝑥 𝑗 是第 𝑗步的末 尾词元索引, 𝐾𝑖是第 𝑖 个输出的总步数。归一化后,优势值为后续步骤归一化奖励的累加和 DeepSeekMath https://arxiv.org/pdf/2402.03300 基于结果监督的GRPO优势值估计 基于过程监督的GRPO优势值估计 25 DeepSeek-R1 Takeaways 总结 Part II ➢ DS-R1 Zero10 积分 | 76 页 | 8.39 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南提供网页版、APP、微信小程序、电脑版四大入口,满足不同场景需求: ①网页版(零门槛即用) 访问方式:浏览器输入`https://chat.deepseek.com` 特点: ⚫ 无需下载,支持文件上传(PDF/Word/图片) ⚫ 功能齐全,包含普通模式(V3)、深度思考(R1)、联网搜索 操作提示:登录后点击输入框下方按钮切换功能模式,例如开启 R1 模式处理复杂数学 题 ②手机 安全提示:建议设置“字母+数字+符号”组合密码,定期更换 ②核心功能切换 ③文件交互技巧 支持格式:PDF(需文字可复制)、Word、Excel、图片(JPG/PNG) 高阶用法: ⚫ 文档对比:上传 A/B 两份文件,输入“分析市场策略差异” ⚫ 数据提取:从实验报告 PDF 中自动整理温度数据表格 避坑指南:超过 50 页的长文档建议拆分处理,避免解析超时 3.常见问题速查10 积分 | 21 页 | 1.01 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025。 Deep Research 由 OpenAI o3 模 型的一个版本提供支持 ,该模型针对网页浏览和数据分析进行了优化 , 它利用推理来搜索、 解释和分析 互联网上 的大量文本、 图像和 PDF , 并根据需要根据遇到的信息做出调整。 Deep Research 具有以下四大 核心技术: 学术裁缝 综合各种知识 , 生成完美的报告 ,还附带文献引用 数据雷达 会自动 24 小时扫描全球知识库 论文如果“ A I 味”很重 , 论文查重可能无法通过! 建议不要直接使用 AI 生成的内 容 7. A I 赋能高校科 研 英文论文快读阅读 从百度官网访问 DeepSeek , 上传英文论文 PDF 在对话框中输入提示词 “请帮我总结这篇论文的创新点” 或者在对话框中输入提示词“请帮我把这篇论文翻译成中文” 7. A I 赋能高校科 研 步骤 1 : 打开通义千问的效率工具 “ 阅读助手10 积分 | 123 页 | 15.88 MB | 6 月前3
共 3 条
- 1
