积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(7)研究报告(4)前沿探索(3)区域研究(3)大模型技术(2)技术工具(2)人工智能(1)

语言

全部中文(简体)(9)

格式

全部PPT文档 PPT(11)
 
本次搜索耗时 0.016 秒,为您找到相关结果约 11 个.
  • 全部
  • 人工智能
  • 研究报告
  • 前沿探索
  • 区域研究
  • 大模型技术
  • 技术工具
  • 人工智能
  • 全部
  • 中文(简体)
  • 全部
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 北大:DeepSeek-R1及类强推理模型开发解读

    的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大 4 Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law
    10 积分 | 76 页 | 6.72 MB | 7 月前
    3
  • ppt文档 金融-DeepSeek银行部署加速,AI金融应用迎来跃迁

    性能:蒸馏小型模型展现 Test-time Scaling ,可支持多项基础业务场 景 资料来源: s1: Simple test-time scaling ,中泰证券研究所 9 模型展现出随推理时间增加准确度增加的 Test time Scaling S1 仅使用 1000 个微调示例就达到了类似 r1 的准 确度 资料来源: s1: Simple test-time scaling ,中泰证券研究 所 图表:各模型微调示例数与准确度对比 图表:各模型微调示例数与准确度对比 图表: s1 表现出的 Test time Scaling n DeepSeek 可以通过 API 接口或者数据中台架构,实现与传统银行技术系统的数据交互,从而实现各类业务高效高质的无 缝对接,有望释放海量私域数据价值。 Post-Train 阶段大规模强化学习的训练方法使模型拥有了更强的自主推理能力, 不 再依赖传统提示工程。根据 DeepSeek 的官方使用指南, 多模态理解和视觉生成表现 资料来源: Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling ,中泰证券研究所 11 多模态: Janus-Pro 等开源多模态模型有望进一步提升应用能 力 理解金融应用的“降本增效 - 价值创 造 - 决策赋能”三个层次 2 n 我们认为金融行
    10 积分 | 25 页 | 1.44 MB | 1 月前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 AI 技术 DeepSeek 是 AI 发展史上的一个关键里程碑,但远未达到 AI 终点 AI 模型算法: GPT 、 互联技术:灵衢 AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 2017 谷歌发布首个 Transformer 架 构 模 Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 长 ① 技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐 Scaling Law ,加速探索 AGI ② 工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升, 出现平权现象,引发新一波的“百模千态” 2012 2013 2014 2015
    0 积分 | 32 页 | 2.52 MB | 7 月前
    3
  • ppt文档 浙江大学-DeepSeek模型优势:算力、成本角度解读2025

    ■ 2, 计算次数 C≈ 6* N * D ■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .5*1025 OpenAI."Scaling Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 算 力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute PF-days,non-embedding 大模型指导法则 Scaling Law: 富则火力覆盖 数据集 模型参数量 7 6 5 4 3 ---- 2+ 10-9 Dataset Size tokens Parameters non-embedding
    10 积分 | 23 页 | 7.53 MB | 7 月前
    3
  • ppt文档 电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

    DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则,随着 ChatGPT 引领全球 AI 浪潮, 国内外科技公司纷纷发布 AI 大模型,截至 24 年 7 月,全球 AI 大模型数量约 1328 2 元 8K - AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业 链 请务必阅读正文之后的免责声明及其项下所有内容 l Scaling Law :模型效果随模型规模指数增加而线性提高。据 OpenAI 发布的论文《 Scaling laws for neural language models 》,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增 加 Arxiv ( 2020 ) -P3 ,国信证券经济研究所整理 参数量 (十亿) GPT-4 PanGu-Sigma Ernie 4.0 BingChat* PaLM2 Titan Scaling Law 与“涌现”能力:大模型训练遵循的重要法则 请务必阅读正文之后的免责声明及其项下所有内容 2022/8/27 2022/12/5 2023/3/15
    0 积分 | 38 页 | 1.95 MB | 7 月前
    3
  • ppt文档 电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

    DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则,随着 ChatGPT 引领全球 AI 浪潮, 国内外科技公司纷纷发布 AI 大模型,截至 24 年 7 月,全球 AI 大模型数量约 1328 2 元 8K - AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业 链 请务必阅读正文之后的免责声明及其项下所有内容 l Scaling Law :模型效果随模型规模指数增加而线性提高。据 OpenAI 发布的论文《 Scaling laws for neural language models 》,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增 加 Arxiv ( 2020 ) -P3 ,国信证券经济研究所整理 参数量 (十亿) GPT-4 PanGu-Sigma Ernie 4.0 BingChat* PaLM2 Titan Scaling Law 与“涌现”能力:大模型训练遵循的重要法则 请务必阅读正文之后的免责声明及其项下所有内容 2022/8/27 2022/12/5 2023/3/15
    10 积分 | 38 页 | 1.95 MB | 7 月前
    3
  • ppt文档 从大模型、智能体到复杂AI应用系统的构建(61页 PPT)

    Gemini 2.0 Flash Thinking 经过训 练后,可以生成模 型在回答问题时 经历的思考过程。 推理大模型 :通过测试时拓展( Test-Time Scaling ) 、强化学习、蒸 馏 等技术,大模型的推理能力不断增强。 o3 通过模拟推理技术,能够暂停并反思自 身内部的思考过程,从而在回答问题前进 行更深入的推理,类似于人类的思考方式。
    20 积分 | 61 页 | 13.10 MB | 1 月前
    3
  • ppt文档 金融垂类大模型试用体验【AI金融新纪元】系列报告(一)

    ,用于数据获取、清洗以及数据质量的验证, 每月可新增数千亿 tokens 优质预训练数据以及数十万条优质微调数据, 确保数据的实时性和准确性。 2 )模型训练创新优化。构建了包括数据配比实验方案、 scaling law 实验体系、模型架构优化、分布式训练框架优化、硬件加速技术等 科学高效的大模型训练体系, 能以更低的训练成本高效地完成 HithinkGPT 大模型家族( 7B 、 13B 、
    10 积分 | 25 页 | 1.60 MB | 1 月前
    3
  • ppt文档 电子AI+系列专题:复盘英伟达的AI发展之路

    。 l 以模型中的参数数量衡量,大型语言模型的参数 在过去五年中以指数级增长。随着参数量和训练 数据量的增大,语言模型的能力会随着参数量的指 数增长而线性增长,这种现象被称为 Scaling Law 。 但当模型的参数量大于一定程度的时候,模 型能力 会突然暴涨 ,模型会突然拥有一些突 变能力 ( Emergent Ability ),如推理能力、无 标注学习 能力等。例如
    0 积分 | 30 页 | 1.27 MB | 7 月前
    3
  • ppt文档 电子AI+系列专题:复盘英伟达的AI发展之路

    。 l 以模型中的参数数量衡量,大型语言模型的参数 在过去五年中以指数级增长。随着参数量和训练 数据量的增大,语言模型的能力会随着参数量的指 数增长而线性增长,这种现象被称为 Scaling Law 。 但当模型的参数量大于一定程度的时候,模 型能力 会突然暴涨 ,模型会突然拥有一些突 变能力 ( Emergent Ability ),如推理能力、无 标注学习 能力等。例如
    10 积分 | 30 页 | 1.27 MB | 7 月前
    3
共 11 条
  • 1
  • 2
前往
页
相关搜索词
北大DeepSeekR1及类推理模型推理模型开发解读金融银行部署加速AI应用迎来跃迁华为解决方案解决方案浙江大学浙江大学优势算力成本角度2025电子系列专题重塑开源生态爆发持续推升需求从大智能体到复杂系统构建61PPT垂类试用体验纪元新纪元报告复盘伟达发展
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩