积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(35)前沿探索(17)行业赋能(8)大模型技术(5)技术工具(5)

语言

全部中文(简体)(35)

格式

全部PDF文档 PDF(18)PPT文档 PPT(13)DOC文档 DOC(4)
 
本次搜索耗时 0.012 秒,为您找到相关结果约 35 个.
  • 全部
  • 人工智能
  • 前沿探索
  • 行业赋能
  • 大模型技术
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • DOC文档 DOC
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 电子:DeepSeek-R1加速AI进程,看好AI应用端潜力释放

    学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力, 其在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式 版。并且,DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借 助 R1 训练其他模型,进一步促进技术的开源和共享,用户可通过官 网或 App 调用 DeepSeek-R1 完成各类推理任务。此外,DeepSeek-R1 API 服务定价为每百万输入 tokens
    10 积分 | 4 页 | 269.47 KB | 6 月前
    3
  • pdf文档 DeepSeek洞察与大模型应用-人工智能技术发展与应用实践

    2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和 世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 DeepSeek-V3 -4- • R1推出后,追平GPT-o1,迅速出圈海外。从 DeepSeek在美国下载排名从1月22日的201名,迅速 在1月27日登顶第一名;截止1月30日,DeepSeek在 168个国家位居下载榜第一名 • 而然地出现了许多强大而有趣的推理行为;但是,遇到 了可读性差和语言混合等挑战 • DeepSeek-R1:为了解决这些问题并进一步提高推理 性能,DeepSeek团队引入了 R1,它在RL之前结合了 多阶段训练和少量冷启动数据。R1在推理任务上实现 了与OpenAI-o1-1217相当的性能 DeepSeek-R1(对标GPT-o1)于2025年1月 20日推出,随后DeepSeek进一步出圈 DeepSeek-R1 更新日期:2025-2-11 n DeepSeek-V3和R1进入到国际顶尖模型行列 n DeepSeek-R1是综合效果最好的开源模型, 排在众多优秀的开源和闭源模型前面 n Qwen2.5-Max、GLM-4-Plus、Step-2- 16K-Exp等国产模型也有不俗的表现 -6- DeepSeek模型效果 (2/2) n DeepSeek-V3和R1相对于700亿以下开源模型(以千问720亿
    10 积分 | 37 页 | 5.87 MB | 6 月前
    3
  • ppt文档 山东大学:DeepSeek 应用与部署

    和自编程能力(自动模块设计、 代码编 写、 测试用例) 。 " 恨聪明 但没那么听话 " DeepseekV3 Deepseek R1 Deepseek r1 鞅的证 明 Deepseek r1 Roy 安全准则组合模型推 理 Deepseek r1 推理玻尿酸配 方 DeepSeek 提示词工 程 提示词工程 Deepseek 十类提示 词 • 1. 内容生成类 :文本生成、代码生成、创 和 Qwen 蒸馏 的 DeepSeek - R1 推理模型 ,涵盖多种不同参数规模 ,适合想在本地运行模型的用户。 • 第三方 UI 客户管接入服务: 可通过 Anything LLM 、 Cherry Studio 、 Chatbox 等选择 API 接入。 • 秘塔 AI 搜索: 接入满血版 DeepSeek - R1 推理模型 , 无广告且搜索结果直达。 以学习 JDK21 2000 万 Tokens ,提供多个基于 DeepSeek - R1 蒸馏训练的模型 ,如 DeepSeek - R1 - Distill - Llama - 70B 等 ,在推理能力上表现出色。 • 阿里云百炼: 提供多个 DeepSeek 系列模型 ,如 DeepSeek - V3 、 DeepSeek - R1 - Distill - Qwen - 1.5B 等 ,
    10 积分 | 79 页 | 6.52 MB | 5 月前
    3
  • word文档 面向审计行业DeepSeek 大模型操作指南(27页 WORD)

    ”就可以使用。 图 2 DeepSeek 官方网站主界面 不过需要注意,那就是如何选择 V3 还是 R1 模型,可以参考下图。此外还 “ 可根据需要,选择是否勾选 联网搜索 ”。 图 3 不同版本的 DeepSeek 选择 4.1.2 手机版使用 手机版的使用和电脑版基本一样,根据需要是否激活 R1 即可。唯一不同 的 是需要在手机安装对应的 App 。安装方法如下: 方法 1 :进入 DeepSeek 。 这些非官方 渠道提供 了 三类模型选择: DeepSeek-V3 模型、完整版 DeepSeek-R1 模型(671B 参数)、轻量级 DeepSeek- R1 模型(参数规模从 1.5B 到 70B 不等)。其中,完整版 R1 模型保留了全部 671B 参数,能发挥出最佳性能,但对计算资源要求较高,通常需要支付一定费 用。轻 量级模型则通过知识蒸馏技术,在保持核心功能的同时大幅降低了参数 在普通算力环境下流畅运行,为用户提供了更灵活的选择。 4.2.1 硅基流动&华为云 硅基流 动与 华 为云 团 队联合 首 发 并 上 线 了基 于 华 为云 昇腾云服 务 的 DeepSeek R1/V3,推理服务目前支持 V3 和 R1 大模型,以及多款 R1 蒸馏小模 型。 在 硅 基 流 动 的 一 站 式 大 模 型 云 服 务 平 台 SiliconCloud 上(网 址 为 : https://siliconflow
    0 积分 | 27 页 | 829.29 KB | 2 天前
    3
  • pdf文档 电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域

    Llama-3.1-405B 等 开 源 模 型 , 并 在 性 能 上 和 GPT-4o 以 及 Claude-3.5-Sonnet不分伯仲,训练成本约为558万美元。1月20日, DeepSeek开源R1模型,后训练阶段大规模使用了强化学习技术,在仅有 极少标注数据的情况下,性能比肩OpenAI o1正式版,不仅极大提升了 模型推理能力,也大幅降低了训练成本。同时,DeepSeek-R1蒸馏了6个 快速发展也将反哺训练算力、推理算力需求。  AI终端有望加速落地。AI手机:苹果国行AI功能渐行渐近,三星国行S25 系列搭载智谱Agentic GLM,而华为、荣耀、OPPO等多家国产终端近期 亦官宣接入R1模型。群智咨询预计今年全球智能手机出货量同增4%。其 中我国出货量同增4.9%,增速好于全球市场,除了受AI加持外,国补政 策落地也将促进用户换机。AI耳机:字节、Cleer、讯飞等多家品牌密 集发布智能耳机产品。字节推出Ola 算力需求仍将加大。近期微软、亚马逊、谷歌、Meta披露最新业绩,四 大科技巨头Q4资本开支合计同比大幅增长77%,主要支持云计算、AI等 基础设施建设。同时后续资本开支指引积极,海外CSP并未因DeepSeek V3 及R1模型推出而放缓资本开支投入的步伐,反而加大相关投入,而国内 CSP为了保持竞争优势亦有望跟进,增加AI领域相关投入。同时AI应用 场景加速普及,也将反哺算力需求。  风险提示:终端需求不及预期;技术推进不及预期;资本开支投入不及
    10 积分 | 23 页 | 2.65 MB | 6 月前
    3
  • ppt文档 DeepSeek消费电子行业大模型新型应用最佳实践分享

    核心收益 长上下文 (64~128K) 超大模型启动加速 独享 GPU 算力集群 私有 API 服务调用 高并发、高可用 企业级鉴权流控 算力投入持续降低 DeepSeek 全系 列 R1 、 V3 满血版 R1-Distill-Llama-70B R1-Distill-Qwen-32B R1-Distill-Qwen-14B R1-Distill-Llama-8B R1-Distill-Qwen-7B 满血版模型一键精调 • 256 卡 H20 • 全参 SFT • 8 小时 蒸馏后模型多模式精调 • 全参 +LoRA 双模 式 • 低至 1 卡 A10 DeepSeek 全系 列 R1 、 V3 满血版 R1-Distill-Llama-70B R1-Distill-Qwen-32B R1-Distill-Qwen-14B R1-Distill-Llama-8B R1-Distill-Qwen-7B 全系大语言模型支持 SFT 快速 直观 R1 推理结果 生成 R1 推理服务调用 构造蒸馏数据 集 清洗 R1 推理结果 灵活、易扩展 基于 TI 平台精调工具链,迁移 R1 高级推理能力至小尺寸模型,以更低推理成本满足垂直场景下的业务需 求 内置 R1 模型一键部 署 快速 选择并精调目标模型 评估对比模型效果 R1 模型部署 效果评 估 蒸馏模
    10 积分 | 28 页 | 5.00 MB | 6 月前
    3
  • ppt文档 金融-DeepSeek银行部署加速,AI金融应用迎来跃迁

    其通过对训练方式、算法架构和推理方 法 的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到了 DeepSeek R1 671B 的应用效果,有望进一步催生银行落地应用。 n 我们认为金融行业人工智能的应用价值大体可以分为三个层次: 降本增效,价值创造与决策赋能。在实际银行落地应用 中,可能包括: 1 技术落地不及预期、竞争加剧、信息更新不及时等。 2 核心观点 DeepSeek 开源、低成本、强推 理 助推银行业应用 1 n DeepSeek 模型在 Post-Train 阶段大规模应用了强化学习方法。 R1 使用了冷启动 + 大规模强化学习方法, R1-Zero 版 本模 型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和 long-CoT 能力涌现等) 。 图表:随步数提升 跨节点专家并行( Expert Parallelism , EP )来优化通信开销,尽可能实现负载均衡。 图表: DeepSeek R1 架构图 图表: DeepSeek R1 训练方法 资料来源: DeepSeek ,中泰证券研究所
    10 积分 | 25 页 | 1.44 MB | 2 天前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 2017 谷歌发布首个 Transformer 架 构 模 型 2023 ChatGPT o1 的 3% 算法革命 架构创新 工程奇迹 开源生态 4 Huawei Proprietary - Restricted Distribution DeepSeek R1: 在 Reasoning 任务达到了世界水平( OpenAI- o1 ) 以 2 阶段 SFT+2 阶段 RL 完成,从而解决 R1-Zero 可读性差、 多种 语言混合问题 本次开源同时发布了 KVCache 降低内存 90% 支持更高并发 模型容量提升 3 倍 计算量减少 70% DeepSeek 通过从模型结构到训推全流程的优化,带来大模型新 范式 DeepSeekV3/R1 ,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛 降低学习复杂度 简化强化学习流程 降低后训练复杂度 推理优化 单次推理效率倍级提升 一次预测多个 token 推理倍级提升
    0 积分 | 32 页 | 2.52 MB | 5 月前
    3
  • pdf文档 民生证券-DeepSeek系列报告之AI+教育

    系列报告之 AI+教育 2025 年 02 月 12 日 ➢ DeepSeek 发布开源大模型 R1,迅速出圈月活破 3000 万。2025 年 1 月 20 日,DeepSeek 正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek- R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 言推理等任务上,性能比肩 OpenAI o1 正式版。自 1 月 20 日 DeepSeek 发布 R1 模型,该模型的用户数 实现了飞速增长,根据 AI 产品榜的数据,截至 1 月末 DeepSeek 的月活数量达 到 3370 万,迅速成为国内第二位。 ➢ 海外 AI+教育龙头 Duolingo 借助 AI 实现业绩持续增长。多邻国 (Duolingo)是一家全球领先的语言学习平台,2024 1.1 DeepSeek 重塑中国 AI 竞争力,国产大模型百花齐放 DeepSeek 发布开源模型 R1,性能比肩 OpenAI 的 o1 模型。2025 年 1 月 20 日,DeepSeek 正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek- R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极 大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩
    0 积分 | 15 页 | 2.14 MB | 5 月前
    3
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新:GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强大的推理能力与长文本思考能力,DeepSeek R1在复杂任务上表现卓越,成为开源领域的又 一里程碑,标志着开源社区在与闭源大模型(如 OpenAI o1 系列)的竞争中迈出了关键性一步。 ➢ DeepSeek-R1 在数学代码任务上表现突出 ➢ Deepseek R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97
    10 积分 | 76 页 | 8.39 MB | 6 月前
    3
共 35 条
  • 1
  • 2
  • 3
  • 4
前往
页
相关搜索词
电子DeepSeekR1加速AI进程看好应用潜力释放洞察模型人工智能人工智能技术发展实践山东东大大学山东大学部署面向审计行业操作指南27WORD电子行业深度报告推动平权关注终端及算力领域消费新型最佳分享金融银行迎来跃迁华为解决方案解决方案民生证券系列教育2025R1Kimi1.5及类推理推理模型开发解读
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩