电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域Gemini 2.0 家族,包括 Gemini 2.0 Pro 实验版本、Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking,在数据、代码等领域上较前代版本进一步提升。价格方面,o3 mini API 定 价为每百万 tokens 输入 0.55 美元(缓存命中)/1 家族大模型,包括 Grok 3、Grok 3 mini 以及推理模型 Grok 3 reasoning、Grok 3 mini reasoning。其中 Grok 3 在数学、科学、 编程等领域的性能进一步提升,表现好于 Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o 等模型;而推理模型 Grok 3 reasoning Beta 在数学、科学、编程等表现上0 积分 | 23 页 | 2.65 MB | 6 月前3
2025年智能金融:AI+驱动的金融变革报告-浙江大学(郑小林)浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研 浙江大学人工智能教 浙 DeepSeek-R1:监督微调+强化学习训练 DeepSeek-R1-Zero (强推理模型) 推理导向强化学习 (准确率奖励+格式奖励) 纯强化学习训练 低可控:生成文本可 读性差、语言混乱 高探索自由度 => 推理能力自我觉醒 (更长的思维链、更深层次的 推理路径) DeepSeek-V3 Fine-Tuning》 综合性能 更强 在探索自 由度、学 习效率、 行为可控 性 找到动 态平衡 混合数据 监督微调 面向全场景的强化学习 (规则奖励+奖励模型) DeepSeek-R1 (强推理模型) 671B 第一阶段训练:增强推理能力,生成高质量推理数据 第二阶段训练:增强通用能力,避免灾难性遗忘 对V3模型 监督微调 推理导向强化学习 (准确率奖励+可读性奖励) R1-Zero生成的10 积分 | 45 页 | 7.21 MB | 3 小时前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提 升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型,允许所有人在遵循 MIT License 的情况 下,蒸馏 R1 训练其他模型。 2023/05 2023/11 2024/02 2024/03 2024/050 积分 | 38 页 | 1.95 MB | 6 月前3
共 3 条
- 1
