浙江大学-DeepSeek模型优势:算力、成本角度解读2025C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.5*1010 秒 (174000 天 ) ■ 1000 张 H800(2.5 亿 ):1 .5*107 秒 (174 天 ) 算力 ( 每秒 ) 显存 运力 生态 政策风险 成本 华为 910B 320T=3.2*101 4 32GB 240 GB/s 较好 无 12 万 循环以下四步 ) ■ 1, 华尔街融资 ■ 例子: 2019-21 年融资 20 亿美元 2, 购买最新 GPU ■ 例子:购买 2.5 万 A100 GPU ( 英伟达挣钱 ) ■ 3, 用最新 GPU 训练性能领先的大模型 ■ 例子: 2023 年出 ChatGPT, 垄断市场 (290 亿美元估值 ) ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 例子:营收小、整体亏钱 例子:营收小、整体亏钱 2025 年特朗普的“星际之门”为 OpenAl 筹 5000 亿美元 Al 基础设施 ! 国际人工智能企业 OpenAI 的商业模 式 ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) ■ 可行性分析:资金没问题,尤其优质生产力领域 2, 购买最新 GPU ■ 可行性分析:美国可以发禁令 3 , 用 GPU 训练性能领先的大模型10 积分 | 23 页 | 7.53 MB | 7 月前3
华为昇腾DeepSeek解决方案Deepseek-V3 上线并开源 昇腾、幻方、硅基座谈,研讨联合创新 V3 调用次数 239.6 万 R1 调用次数 547.8 万 V3 生成 token 量 28 亿 R1 生成 token 量 89.7 亿 累计新增用户 130 万 + 单日用户增长 23.6 万 用户增长率 800% Huawei Proprietary - Restricted Distribution0 积分 | 32 页 | 2.52 MB | 7 月前3
DeepSeek大模型赋能高校教学和科研2025工智能模型。 通常说的大模型的“大”的特点体现在: 2020 年 , OpenAI 公司推出了 GPT-3 ,模型参数规模达到了 1750 亿。 2023 年 3 月发布的 GPT-4 的参数规模是 GPT-3 的 10 倍以上 ,达到 1.8 万 亿, 2021 年 11 月阿里推出的 M6 模型的参数量达 10 万亿。 3.1 大模型的概 念 训练数据量大 计算资源需求高 参数数量庞大 ,学业规划、知识问答、概念讲解、资源推荐、解 题 启发、论文润色等功能一目了然 ,为师生提供定制化、情境化 的教 学辅助 ,还支持学生的个性化与探究式学习需求。 DeepSeek 满血版 R1 , 参数高达 6710 亿( 671B ) , 相当于一个 “超级大脑” , 能处理复杂数学题、 编程、 长文本分析等高 难度 任务。 部署本地 DeepSeek- R1 ( 671B ) 满血版模型 ,支持校园办公自动化、 科研项目辅助、10 积分 | 123 页 | 15.88 MB | 7 月前3
英特尔-工业人工智能白皮书2025年版中的长距离依赖关系,实现对输入序列的 高效处理和理解。由于不依赖序列顺序,Transformer 架构在模型训练和推理时的并行处理能力更强,效率更高。 2. 参数规模大。大模型通常包含数千万、数亿甚至更多参数;巨大的参数规模使大模型能够处理更加复杂和多样的任务。 3. 强大的泛化能力。大模型通过在大规模数据集上进行训练,学习到了丰富的知识和特征表示,从而具有强大的泛化能力, 能够有效处理多0 积分 | 82 页 | 5.13 MB | 7 月前3
共 4 条
- 1
