积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(2)技术工具(2)

语言

全部中文(简体)(2)

格式

全部PDF文档 PDF(2)
 
本次搜索耗时 0.014 秒,为您找到相关结果约 2 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    详细带反思和验证的数据集 ➢ 双重验证:由人类注释者和 R1-zero 生成的高质量链式思考 (Chain-of-Thought, CoT)数据,部分样本长度达到 10,000 Token ➢ 成效:提供一些 Human Prior \ 显著提升了语言的语义连贯性、可 读性和基本推理能力。 ➢ 推理为中心RL Reasoning-Oriented RL ➢ 增加了大规模的RL训练过程:和DeepSeek-R1 可读性(通过计算CoT过程中目标语言的占比) ➢ 推理准确率奖励:结合 accuracy of reasoning tasks and reward for language consistency ➢ 成效:通过 GRPO ,模型在 AIME 2024 等数学基准上取得了显著 提升,pass@1 从 15.6% 提高到 71.0%。此外,模型能够自发延长 推理链条,展现出更强的逻辑连贯性。 反思数据 general-purpose) ➢ 成效:使模型在推理能力不减的前提下,语言表现更为自然, 适应性更为广泛。 ➢ 全领域RL RL for all Scenarios ➢ 进一步提升除了reasoning 能力之外帮助性和安全性 ➢ 对于reasoning data, 可以用基于规则的奖励 ➢ 对于general data, 可以用奖励模型来建模人类偏好意图 ➢ 成效:最终版本的 R1 不仅在推理和对话能力上达到了高水平,
    10 积分 | 76 页 | 8.39 MB | 1 年前
    3
  • pdf文档 英特尔-工业人工智能白皮书2025年版

    化。 第二,创作与内容生成能力,如工业运控软件代码、 设计模型、应用文档的生成。 在模型具备语言理解的基础之上,工业大模型具备 了内容创作与生成的能力,这种内容生成的能力可 大幅提高内容生成效率,提升员工工作效率。其与 工业设备及系统的自然交互及推理的能力,可助力 基于 LLM 工业代码的快速生成、优化与调试,大大 促进工业应用的生成与落地。 尽管目前工业大模型的应用已经渗透到工
    0 积分 | 82 页 | 5.13 MB | 1 年前
    3
共 2 条
  • 1
前往
页
相关搜索词
2025DeepSeekR1Kimi1.5及类推理模型推理模型开发解读报告英特特尔英特尔工业人工智能人工智能白皮皮书白皮书年版
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 - 2026 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩