推理模型 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

电子行业深度报告：DeepSeek推动模型平权，关注AI终端及算力领域

Gemini 2.0 家族，包括 Gemini 2.0 Pro 实验版本、Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking，在数据、代码等领域上较前代版本进一步提升。价格方面，o3 mini API 定价为每百万 tokens 输入 0.55 美元（缓存命中）/1 家族大模型，包括 Grok 3、Grok 3 mini 以及推理模型 Grok 3 reasoning、Grok 3 mini reasoning。其中 Grok 3 在数学、科学、编程等领域的性能进一步提升，表现好于 Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o 等模型；而推理模型 Grok 3 reasoning Beta 在数学、科学、编程等表现上

0 积分 | 23 页 | 2.65 MB | 1 年前
3
2025年智能金融：AI+驱动的金融变革报告-浙江大学（郑小林）

浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研究中心浙江大学人工智能教育教学研浙江大学人工智能教浙 DeepSeek-R1：监督微调+强化学习训练 DeepSeek-R1-Zero （强推理模型）推理导向强化学习（准确率奖励+格式奖励）纯强化学习训练低可控：生成文本可读性差、语言混乱高探索自由度 => 推理能力自我觉醒（更长的思维链、更深层次的推理路径） DeepSeek-V3 Fine-Tuning》综合性能更强在探索自由度、学习效率、行为可控性找到动态平衡混合数据监督微调面向全场景的强化学习（规则奖励+奖励模型） DeepSeek-R1 （强推理模型） 671B 第一阶段训练：增强推理能力，生成高质量推理数据第二阶段训练：增强通用能力，避免灾难性遗忘对V3模型监督微调推理导向强化学习（准确率奖励+可读性奖励） R1-Zero生成的

10 积分 | 45 页 | 7.21 MB | 6 月前
3
电子AI+系列专题：DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求

在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型，允许所有人在遵循 MIT License 的情况下，蒸馏 R1 训练其他模型。 2023/05 2023/11 2024/02 2024/03 2024/05

0 积分 | 38 页 | 1.95 MB | 1 年前
3

共 3 条前往

页

分类

语言

格式

电子行业深度报告：DeepSeek推动模型平权，关注AI终端及算力领域

2025年智能金融：AI+驱动的金融变革报告-浙江大学（郑小林）

电子AI+系列专题：DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求