电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则,随着 ChatGPT 引领全球 AI 浪潮, 国内外科技公司纷纷发布 AI 大模型,截至 24 年 7 月,全球 AI 大模型数量约 1328 2 元 8K - AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业 链 请务必阅读正文之后的免责声明及其项下所有内容 l Scaling Law :模型效果随模型规模指数增加而线性提高。据 OpenAI 发布的论文《 Scaling laws for neural language models 》,模型性能极大依赖训练规模,模型参数、数据集大小以及用于训练的计算量增 加 Arxiv ( 2020 ) -P3 ,国信证券经济研究所整理 参数量 (十亿) GPT-4 PanGu-Sigma Ernie 4.0 BingChat* PaLM2 Titan Scaling Law 与“涌现”能力:大模型训练遵循的重要法则 请务必阅读正文之后的免责声明及其项下所有内容 2022/8/27 2022/12/5 2023/3/150 积分 | 38 页 | 1.95 MB | 7 月前3
电子行业AI+系列专题:边缘AI,大语言模型的终端部署,推动新一轮终端需求-20230531-国信证券-25页模型的效果会随着三者的指数增加而线性提高,这种现象被称为 Scaling Law(缩 放能力)。 请务必阅读正文之后的免责声明及其项下所有内容 证券研究报告 6 图2:过去五年 LLM 模型参数快速增长 图3:参数量的指数提升线性提高模型性能 资料来源:Sunyan’s Substack,国信证券经济研究所整理 资料来源:《Scaling laws for neural language models》,国信证0 积分 | 25 页 | 2.20 MB | 7 月前3
金融垂类大模型试用体验【AI金融新纪元】系列报告(一),用于数据获取、清洗以及数据质量的验证, 每月可新增数千亿 tokens 优质预训练数据以及数十万条优质微调数据, 确保数据的实时性和准确性。 2 )模型训练创新优化。构建了包括数据配比实验方案、 scaling law 实验体系、模型架构优化、分布式训练框架优化、硬件加速技术等 科学高效的大模型训练体系, 能以更低的训练成本高效地完成 HithinkGPT 大模型家族( 7B 、 13B 、10 积分 | 25 页 | 1.60 MB | 1 月前3
电子AI+系列专题:复盘英伟达的AI发展之路。 l 以模型中的参数数量衡量,大型语言模型的参数 在过去五年中以指数级增长。随着参数量和训练 数据量的增大,语言模型的能力会随着参数量的指 数增长而线性增长,这种现象被称为 Scaling Law 。 但当模型的参数量大于一定程度的时候,模 型能力 会突然暴涨 ,模型会突然拥有一些突 变能力 ( Emergent Ability ),如推理能力、无 标注学习 能力等。例如0 积分 | 30 页 | 1.27 MB | 7 月前3
共 4 条
- 1
