积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(6)技术工具(6)

语言

全部中文(简体)(6)

格式

全部PDF文档 PDF(3)PPT文档 PPT(3)
 
本次搜索耗时 0.013 秒,为您找到相关结果约 6 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 浙江大学-DeepSeek模型优势:算力、成本角度解读2025

    671B 参数 (GPT-3:175B 、 GPT-4:1.76T?) ■ 每个 token 激 活 3 7B 参数 (~5.5%), 降低计算 量 MoE: 1 共享专家 + 256 路由专家 MLA: 低秩压缩 DeepSeek v3 模型参 数 L=61 层 oo oouatence9 Input Hiden heOOOO ka 派 {vb ut ■ 核心技术 DeepSeekMoE: 显者减少计算量 ( 穷则战术穿插 ) ■ 针对美国的算力禁令 ■ 核心思想: 1 共享专家 +256 路由专家,激活 8 个路由专家 ■ 共享专家: 捕获通用知识、降低知识冗余 ■ 路由专家: 量大、细粒度、灵活组合、方便知识表达 ■ 结果:每个 Token 只要过 360 亿参数 (Llama 3.1 要 4050 亿参数 ) DeepSeek
    10 积分 | 23 页 | 7.53 MB | 9 月前
    3
  • pdf文档 AI跃迁派:2025年DeepSeek零基础完全指南

    万字的长文档(64Ktoken 容量) 技术架构: ⚫ MLA 多头潜在注意力:像多线程处理信息,显存占用降低 50%,适合普通电脑运 行 ⚫ MoE 混合专家系统:遇到问题自动召唤“专业团队”,比如数学题找数学专家模 块,写诗找创意模块 ⚫ 强化学习驱动:通过“试错+奖励”机制自我进化,类似游戏 AI 自学通关 2.划时代意义:中国 AI 的破局之战 DeepSeek 1.技术特性:AI 界的“六边形战士” DeepSeek 之所以成为现象级 AI 工具,关键在于它在效率、成本、能力三大维度实现 了突破性平衡: 技术黑话翻译: ⚫ MoE 混合专家系统:像医院分诊台,遇到数学题自动转接“数学博士”,写诗转接 “文学教授” ⚫ MLA 多头潜在注意力:让 AI 像章鱼同时处理多任务,普通电脑也能流畅运行 ⚫ DualPipe 通信技术:优化 结构(目标)” ⚫ 教育:“高三学生(身份)复习导数压轴题(场景),需要 5 道难度递进的变式题 (目标),答案需附分步解析(限制)” ②角色扮演法 技术原理:激活 AI 的“专家模块” 实战指令: ⚫ 商业分析:“假设你是麦肯锡顾问,分析新能源汽车充电桩市场的三大风险点,用 SWOT 框架呈现” ⚫ 创意写作:“用鲁迅杂文风格,写一篇讽刺 AI 过度依赖现象的短文,结尾需反转升
    10 积分 | 21 页 | 1.01 MB | 9 月前
    3
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; ➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,获得97.3% 的惊人成绩,表现与OpenAI-o1-1217相当。 ➢ 在编码相关的任务中表现出专家水平,在 Codeforces上获得了2029 Elo评级,在竞赛中表现 优于96.3%的人类参与者 ➢ DeepSeek-R1 在知识类问答上推动科学探索边界: ➢ MMLU \ MMLU-Pro 37B参数, ~5.5% ➢ 61层 Transformer, Hidden Dimension: 7168 ➢ MoE: 1 个共享专家 (Shared Expert) + 256 路由专家(Routed Expert) 每个Token 激活 8 个路由专家 ➢ DeepSeek-V3 模型架构: MLA (Multi-head Latent Attention) + MoE (Mixture
    10 积分 | 76 页 | 8.39 MB | 9 月前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    模型测试数据 & 互联网 硬件级优化 绕过 GUDA 进行 PTX 编程 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 单次推理效率倍级提升 一次预测多个 token 推理倍级提升 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 MHA/GQA 分组共享减少缓存 GPT4 16 专家选 2 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法
    0 积分 | 32 页 | 2.52 MB | 9 月前
    3
  • ppt文档 DeepSeek大模型赋能高校教学和科研2025

    完成 了“通识教育” 行业大模型 L1 是指那些针对特定行业或领域的大 模型 。 它们通常使用行业相关的 数 据进行预训练或微调, 以提高 在该 领域的性能和准确度,相当 于 AI 成 为“行业专家” 垂直大模型 L2 是指那些针对特定任务或场景的大 模型 。 它们通常使用任务相关的 数 据进行预训练或微调, 以提高 在该 任务上的性能和效果 3.4 大模型的分 类 按照应用领域的不同 ,结合了自然语言处理、 机器学习以及专家协同 技术, 致力于打破传统搜索引擎的局限 ,提供智能化、 多样化的搜索体验。 多模态搜索 支持文字、语音、拍照、视频 等多种输入方式 ,满足不同 场 景下的需求 ,实现“一切皆可 搜索” 智能工具集成 内置 16 款顶尖大模型 ,如豆包、 文心一言等 ,为用户提供一站 式 AI 智慧体验。 慢思考模式 通过专家协同和多模型协作 ,
    10 积分 | 123 页 | 15.88 MB | 9 月前
    3
  • pdf文档 英特尔-工业人工智能白皮书2025年版

    的落地还是有差距;而大模型凭借强大的自学习能力和泛化能力,以及与具体行 业数据的结合调优,优势明显。 大模型的出现,将 AI 技术在工业领域的应用推向了新的发展阶段。其具体落地将会以基础大模型为技术底座,融合工业细 分行业的数据和专家经验,形成垂直化、场景化、专业化的工业大模型。工业大模型相对基础大模型具有参数量少、专业度 高、落地性强等优势,可以为工业垂直领域的技术突破、产品创新、生产变革等提供低成本解决方案。 尽管传统 AI
    0 积分 | 82 页 | 5.13 MB | 9 月前
    3
共 6 条
  • 1
前往
页
相关搜索词
浙江大学浙江大学DeepSeek模型优势算力成本角度解读2025AI跃迁基础完全指南R1Kimi1.5及类推理推理模型开发报告华为解决方案解决方案赋能高校教学科研英特特尔英特尔工业人工智能人工智能白皮皮书白皮书年版
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 - 2026 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩