浙江大学-DeepSeek模型优势:算力、成本角度解读2025DeepSeek 模型优势:算力、成本角度 解读 2025 年 2 月 ■ 什么算力 ?“ 对信息数据进行计算,实现目标结果的能力” ■ 传统算力:信息计算力 ■ 现代算力:信息计算力、数据存储力、网络运载力 算力的基本概念 大脑 草绳、石子 算盘、算筹 ▶ 计算器、计算机 ■ 原生算力:大脑 ( 可处理复杂逻辑,但不能高速处理简单运算 2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.5*1010 秒 (174000 天 ) ■ 1000 张 H800(2.5 亿 ):1 .5*107 秒 (174 天 ) 算力 ( 每秒 ) 显存 运力 生态 政策风险 成本 华为 910B 320T=3.2*101 2*101 4 32GB 240 GB/s 较好 无 12 万 英伟达 H800 1000T=1015 80GB 900 GB/s 好 有 25 万 人工智能计算平台成本估计 算力 存力 运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力:算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集:数据集越大 (x 轴 ), 模型效果越好10 积分 | 23 页 | 7.53 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版(AI) 行业观察 工业 AI,是 AI 技术在工业领域的应用,它通过机器学习、深度学习、计算机视觉等先进的计算智能方法,实现对工业生产 过程的优化和智能化,最终帮助企业提高生产效率、降低成本、提升产品质量,实现数字化转型。 2023 年 12 月,由信通院牵头、多家单位联合编制的《工业大模型技术应用与发展报告》指出,AI 与大模型将加速赋能新型 工业化,预计从 2022 年至 2032 技术在工业领域的应用,已经贯穿于产品设计、生产、管理、服务等众多环节,它主要通过各种方式收集海量数据,然后 利用机器学习和统计模型对数据进行分析,并依据数据分析结果辅助决策,帮助企业优化资源配置,提质增效,节省成本。 具体来看,AI 技术在工业领域的应用主要在以下几大方面: 研发与规划 • 需求分析与预测:基于历史数据和机器学习算法,构 建预测模型,通过分析大量用户数据和市场趋势,洞 察市场需求,预测未来趋势,精准定位产品的设计与 管理库存品类、优化库存地域布局等,提高库存周 转率,降低库存成本。AI 聊天机器人可以随时了解 ERP 库存系统、跟踪订单和其他更新。 • 物流配送与运输管理:机器人在深度学习算法和 3D 相机的加持下,可以识别被配送货物的形状、尺寸和 条形码,自动分拣和归类,提高仓库分拣效率和准确 性。利用大数据分析和机器学习优化配送路线,实时 监控物流配送过程,提高配送效率、降低成本。 • 财务与人力管理:通过训练模型,可以自动读取发0 积分 | 82 页 | 5.13 MB | 5 月前3
华为昇腾DeepSeek解决方案2012 AlexNet 模型能力突破 开启 CV 时代 1998 LeNet 首个 CNN 架构模型 2025 DeepSeek 效率与成本双突破 NLP 全面普及 2015 Resnet 效率与成本双突破 CV 全面普及 AI 模型算法: DeepSeek 国家战略清晰 技术创新依赖资本投入 NLP 自然语言处理 双轮驱动互锁 战略坚定 + 技术创新 Huawei Proprietary - Restricted Distribution 下一代 AI 技术 Mamba 、空间智能 等 算力 x 数据 x 思 考 模 型 效 果 低成本完美对标 OpenAI O1 ,突破精确语义理解及复杂推理任务 DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink 硬件级、算法级、架构级、工程级、开 源生态 5 大技术创新,轰动全球 低成本 绕过 CUDA 挖掘 FP8 硬件潜力, MOE 和 MLA 技术实现不到 10% 的 成本方案 ~150M$ 5.57M$ DeepSeek–V3 训 练成本 Llama3.1-405B 训练 成本 DeepSeek-R1 推理成本仅为 OpenAI o1 的 3% 算法革命 架构创新 工程奇迹0 积分 | 32 页 | 2.52 MB | 5 月前3
从智慧教育到智慧课堂:理论、规范与实践度分析技术,为教育 提供新的研究视角, 从指导决策。 通过开放式应用和灵活性 加工, IBM 帮助教育实现 智能化 智能工作 绿色与其它 新智慧 能源结构 IBM 帮助教育创建智慧设施, 在减少成本的前提下,提供能 源和安全。 提升学生、教育和社会的 成果 为教师和学生提供个性化 学习资源 保证实现投资目标 通过灵活性系统实现 环境改变 IBM 智慧课堂 1:1 学习 可视化 桌面超薄式设备 流操作形态和应用 Linux 或者 Windows 虚拟桌面架构 e: 用户可以拥有操作系统 低成本的弱功能客户机 Linux 或者 Windows 终端服务: 按比例具有低成本优势 用户分享式操作系统 用户不具有管理者权限 低成本的弱功能客户机 Windows 流提供如下功能: 图形和视频优化 低能源服务器架构 需要功能强大弱功能客户机 从利用技术帮助学习,转变为利用技术回答问 题:学生学习到了什么?我可以为他提供什么 帮助? 利用开放式学习工具对资源社区进 行管理 教师能够更加关注学习结果。 教育者开发并使用工具。 降低成本 集中化设施更加易于维护; 软件易于升级维护 基本可以放弃桌面端的支持需求。 提高可靠性、利用性和产出。 有能力运行最新的应用 控制、安全、集中放置。 当出现错误时可以无缝连接到空闲设备上;10 积分 | 74 页 | 10.39 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025更强 ,能更好地适应新问题和未知场景 相对较弱 ,更依赖于训练数据 擅长任务举例 解决复杂逻辑谜题 ,编写复杂算法 ,数学证明 撰写新闻稿 ,翻译文章 , 生成产品描述 , 回 答 常识问题 成本 通常更高 通常更低 在应用方面二者各有擅长的领域 , 而不是简单的谁强谁弱问题 n 如果你需要完成数据分析、 逻辑推理、 代码生成等逻辑性较强且较为复杂的任务 ,请选择推理大模 型 n 如果你面临创意写作、 更是遥遥领先。 DeepSeek-V3 以多项 开创性 技术 ,大幅提升了模型的性能和训练效率。 DeepSeek-V3 在性能比 肩 GPT- 4o 的同时 ,研发却只花了 558 万美元 , 训练成本不到后者的二十分之一。 因 为表现太过优越 , DeepSeek 在硅谷被誉为“来自东方的神秘力量”。 2025 年 1 月 20 日 , DeepSeek-R1 正式发布 ,拥有卓越的性能 ”垂直领域解 决方案 ,为学科交叉创新发展提供有力支撑 4.2 国产 AI 大模型 DeepSeek 走入高 校 本地部署 大模型 4.3 为什么需要本地部署大模 型 离线与高效使用 成本与资源优化 数据隐私与安全性 避免使用限制 定制化与灵活性 模型微调技术特点 ( 1 )领域针对性强: 经过微调的 模 型在特定领域的表现会有显著提 升 , 能够更好地理解和处理该领域10 积分 | 123 页 | 15.88 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南强化学习驱动:通过“试错+奖励”机制自我进化,类似游戏 AI 自学通关 2.划时代意义:中国 AI 的破局之战 DeepSeek 的诞生不仅是技术突破,更是国家战略级的里程碑: 成本革命: ⚫ 训练成本仅 558 万美元(仅为美国同类模型的 1/20) ⚫ 推理速度提升 3 倍,生成文字速度从 20 字/秒提升至 60 字/秒 行业重塑: ⚫ 迫使国际巨头降价(如 开源策略吸引全球 20 万开发者,形成中美双极化的 AI 生态格局 二、核心能力图谱 1.技术特性:AI 界的“六边形战士” DeepSeek 之所以成为现象级 AI 工具,关键在于它在效率、成本、能力三大维度实现 了突破性平衡: 技术黑话翻译: ⚫ MoE 混合专家系统:像医院分诊台,遇到数学题自动转接“数学博士”,写诗转接 “文学教授” ⚫ MLA 多头潜在注意力:让 知识点图谱:输入“用思维导图整理高中生物遗传学核心概念”→生成可打印的学习 框架 ⚫ 解题思路:拍摄数学题照片→R1 模式自动分步解析,错误点用红框标注 ②职场人:效率提升 300%的办公神器 ③创业者:零成本搭建专业团队 ⚫ 商业计划书:输入“智能家居赛道 BP 模板,包含市场规模、竞品矩阵、融资计划” →生成投资人青睐的文档框架 ⚫ 市场调研:输入“2025 年中国宠物食品消费趋势预测”→自动抓取电商平台数据生10 积分 | 21 页 | 1.01 MB | 6 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告无需构建和维护高质量的SFT数据集,而是让模型直接在RL环境中进行探索 ➢ 类比:初学者在没有老师指导的情况下,通过不断的尝试和错误来掌握一门新的技能。 ➢ 这种自主学习的方式,不仅节省了大量的标注成本; ➢ 更重要的是,它让模型能够自由地探索解决问题的路径,而不是被预先设定的模式所束缚。 12 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 System I 的足够好的 Prior Distribution 直觉,后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本(5,576,000美元 )带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: 赋能RL-Scale ➢ GRPO核心思想是通过构建多个模型输出的群组,并计算群组内的相对奖励来估计基线,从而避免 了传统策略优化算法中需要使用与策略模型大小相同的评论模型。 ➢ 大幅度降低 RL 训练的计算成本,同时还能保证模型能够有效地学习到策略。 ➢ 具体来说,在传统的 RL 训练中,评论模型需要与策略模型具有相同的大小,增加计算资源的 消耗。而 GRPO 算法利用群组内的相对信息来估计基线,避免了使用Critic10 积分 | 76 页 | 8.39 MB | 6 月前3
山东大学:DeepSeek 应用与部署没 教授那么大谱 ,给个板凳坐着就够了(部署成本低 ,推 理成 本低)。 老师模型和学生模型 大模型:像一位见多识广、知识储备庞大的“大教 授” ,无所不知 ,但是“供养”他很贵。 什么是模型蒸馏? “ 模型蒸馏”就是把大模型学到的本领, 用“浓缩”的方式教给小模型的过程, 在保证一定精度 的 同时, 大幅降低运算成本和硬件要求。 模型蒸馏 • 蒸馏是一种机器学习技术10 积分 | 79 页 | 6.52 MB | 5 月前3
共 8 条
- 1
