积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(17)大模型技术(17)

语言

全部中文(简体)(17)

格式

全部DOC文档 DOC(10)PDF文档 PDF(5)PPT文档 PPT(2)
 
本次搜索耗时 0.057 秒,为您找到相关结果约 17 个.
  • 全部
  • 人工智能
  • 大模型技术
  • 全部
  • 中文(简体)
  • 全部
  • DOC文档 DOC
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 金融-DeepSeek银行部署加速,AI金融应用迎来跃迁

    DeepSeek 开源使金融机构能够轻松获得前沿模型能力,且大幅降低部署成本。其通过对训练方式、算法架构和推理方 法 的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到了 DeepSeek R1 671B 的应用效果,有望进一步催生银行落地应用。 n 我们认为金融行业人工智能的应用价值大体可以分为三个层次: 降本增效,价值创造与决策赋能。在实际银行落地应用 ,中泰证券研究所 7 n 阿里近期开源的 QwQ-32B 模型基于 320 亿参数规模,在数学推理、代码生成及通用任务中表现亮眼,综合性能对标 DeepSeek-R1 ( 6710 亿参数,激活量 370 亿)。该模型大幅降低部署成本, 支持在消费级显卡(如英伟达 RTX 4090 )上 本地运行,满足快速响应及数据安全需求。同时, QwQ-32B 集成智能体( Agent )能力,可调用工具并基于 )能力,可调用工具并基于 环境反馈调 整推理逻辑,为定制化 AI 方案提供基础。 图表: QwQ-32B 模型表现 资料来源:阿里,中泰证券研究所 8 性能:开源 QwQ-32B 性能比肩满血 R1 ,再次降低部署成 本 n 通过将 DeepSeek-R1 的推理能力蒸馏到更小的模型中,较小的模型也能具备强大的推理能力。 DeepSeek 开源了从 15 亿 到 700 亿参数的 R1 蒸馏版本。这些模型基于
    10 积分 | 25 页 | 1.44 MB | 2 天前
    3
  • pdf文档 信息服务-AI Agent(智能体):从技术概念到场景落地

    .................................................................................................. 32 行业研究〃信息服务行业 请务必阅读正文之后的信息披露和法律声明 4 图 31 截止 2024 年 8 月 Replika 各年龄段用户占比 .................................................. 23 图 32 截止 2024 年 8 月 Replika 用户全球分布 ......................................................... 23 图 33 GPT3.5 turbo 的十倍,而且由于智能体之间交互的 特性,在输出过程中往往伴随着更高的 token 消耗。若最终输出的长度超出模型 token 限制,则不得不调用更高版本的模型例如 GPT4-32K,成本又是 GPT4 的两倍。 图10 OpenAI 不同模型 tokens 消耗价目表 资料来源:OpenAI,海通证券研究所 在实际测试中,使用搭载 GPT4 的智能体模型查找新闻并进行总结梳理。这部分的
    10 积分 | 33 页 | 4.71 MB | 2 天前
    3
  • pdf文档 DeepSeek洞察与大模型应用-人工智能技术发展与应用实践

    模型 架构 参数量 激活参数 R1的15亿蒸馏版 稠密 1.5B 1.5B R1的70亿蒸馏版 稠密 7B 7B R1的140亿蒸馏版 稠密 14B 14B R1的320亿蒸馏版 稠密 32B 32B R1的80亿蒸馏版 稠密 8B 8B R1的700亿的蒸馏版 稠密 70B 70B DeepSeek-R1 MoE 671B 37B DeepSeek-V3 MoE 671B 37B 1、多模态、语音、视觉模型联动 2、挂RAG知识库、联网搜索优化等 3、接入智能体平台 ….. B端生产场景多数重复使用模型某一重复能力, 大量百亿级参数模型即可适用 • DS -V3/R1满血版推理需16-32张910B,LORA微 调需512张910B。大量客户无支持微调的算力。单 任务算力消耗与百亿级参数模型不在同一量级 • DS 最惊艳的R1版,一次推理多在10-20秒,更适合 代码、数学、复杂规划等场景,很难响应B端高实时 据自己的需要,对 于模型的输出进行不同层次的验证(享受便利,控制风险)  建议2:通过大量使用而加深对一款大模型能力边界的理解:知道什么 情况下模型输出更可靠,什么情况下更容易出现幻觉 -32- 认识大模型的局限性:算力消耗大 n 模型训练:算力消耗大  大模型庞大的参数量:通常包含数十亿到数千亿个参数  训练数据:通常包含数万亿到十几万亿token  训练时间:通常几个月
    10 积分 | 37 页 | 5.87 MB | 6 月前
    3
  • word文档 审计领域接入DeepSeek AI大模型构建Agent智能体提效设计方案(204页 WORD)

    ...................................................................................................32 3.1.3 智能审计决策模块................................................................................... NLP 解析合同条款与会计准则差异,识别潜在 合规风险 3. 建立多维度关联分析引擎,发现隐蔽的舞弊模式(见 下表典型场景) 风险类型 传统检测率 智能体检测率 关键技术 关联交易舞弊 32% 89% 图谱推理+时序分析 风险类型 传统检测率 智能体检测率 关键技术 收入确认异常 45% 93% 贝叶斯网络+规则引 擎 费用分摊失真 28% 76% 聚类分析+异常值检 测 知识沉淀标准化 的组合结构。训练数据需包含历史审计案例 中的异常交易特征,例如: - 输入层维度:根据审计对象动态调整 (如财务审计中科目余额、交易频率、金额分布等) - 隐藏层设 计:3 层 LSTM(128/64/32 单元)配合 20% Dropout - 输出层: Sigmoid 激活函数输出异常概率 训练时采用对抗样本增强技术,注入 10%-15%的已知异常模 式数据以提升泛化能力。模型评估指标需满足:
    10 积分 | 212 页 | 1.52 MB | 2 天前
    3
  • ppt文档 DeepSeek消费电子行业大模型新型应用最佳实践分享

    服务调用 高并发、高可用 企业级鉴权流控 算力投入持续降低 DeepSeek 全系 列 R1 、 V3 满血版 R1-Distill-Llama-70B R1-Distill-Qwen-32B R1-Distill-Qwen-14B R1-Distill-Llama-8B R1-Distill-Qwen-7B R1-Distill-Qwen-1.5B DeepSeek 部署方案 • 全参 +LoRA 双模 式 • 低至 1 卡 A10 DeepSeek 全系 列 R1 、 V3 满血版 R1-Distill-Llama-70B R1-Distill-Qwen-32B R1-Distill-Qwen-14B R1-Distill-Llama-8B R1-Distill-Qwen-7B R1-Distill-Qwen-1.5B DeepSeek 精调方案
    10 积分 | 28 页 | 5.00 MB | 6 月前
    3
  • word文档 AI知识库数据处理及AI大模型训练设计方案(204页 WORD)

    色,能够有效处理知识库中的语义信息。训练过程中,采用迁移学 习和微调策略,利用预训练模型的参数,通过知识库数据进一步优 化模型性能。训练时使用 Adam 优化器,学习率设置为 0.0001, 批量大小为 32,训练轮数为 10 轮。 输出层根据任务需求设计不同的输出结构。对于分类任务,输 出层采用 Softmax 函数进行分类;对于生成任务,则使用自回归 模型生成文本。此外,输出层还需包含后处理模块,对模型的输出 法收敛,过低则会导致训练速度过慢。建议采用学习率衰减策略 (如余弦衰减或步进衰减)或自适应学习率方法(如 Adam 优化 器)。批量大小的选择需权衡训练速度和模型性能,通常建议使用 2 的幂次方(如 32、64、128)以提高计算效率。优化器的选择应 根据模型的复杂度进行,对于简单的模型可以使用 SGD,而对于复 杂的深度学习模型,Adam 或 RMSprop 通常更具优势。 正则化系数(如 L2 计进行,但需注意计算资源的限制。 为了高效进行超参数调优,建议采用以下步骤: 1. 定义搜索空间:根据模型和数据集的特征,合理定义每个超参 数的范围。例如,学习率可以在[1e-5, 1e-1]之间搜索,批量 大小可以在[32, 512]之间选择。 2. 选择调优方法: o 网格搜索:适用于超参数数量较少的情况,但计算成本 较高。 o 随机搜索:适合超参数数量较多的情况,能在较短时间 内找到较优解。 o 贝叶
    60 积分 | 220 页 | 760.93 KB | 4 月前
    3
  • word文档 AI大模型人工智能数据训练考评系统建设方案(151页 WORD)

    30 3.1 系统总体架构......................................................................................32 3.2 模块划分......................................................................................... 际操作中,可以根据计算资源和时间预算选择合适的方法。  学习率:通常设置为 0.01 到 0.001 之间,通过逐步减小学习 率,观察模型收敛情况。  批量大小:根据数据规模和硬件资源,设定为 32、64 或 128,过大可能导致内存不足,过小可能影响训练稳定性。  正则化系数:用于控制模型复杂度,常用 L1 或 L2 正则化,系 数通常设置为 0.01 到 0.0001 之间。 在 型的训练与推理任 务。例如,NVIDIA A100 GPU 在 FP16 精度下的计算能力可达 312 TFLOPS,能够显著加速模型训练过程。根据实际业务需求,初始 配置可包括 16 至 32 块 GPU,并在后续根据用户规模和数据量逐 步扩展。 存储资源的配置需要兼顾容量与速度。建议采用分层存储架 构,包括高速固态硬盘(SSD)和机械硬盘(HDD)。SSD 用于存 储频繁访问的训练数据和中间结果,HDD
    60 积分 | 158 页 | 395.23 KB | 4 月前
    3
  • pdf文档 基于大模型的具身智能系统综述

    Meta-World[47], BEHAVIOR-1K[48] ALOHA[37], UMI[38], HumanPlus[39], GELLO[40], GC-DA[41] MineDojo[31], VRB[32], Baker 等[33], RoboCLIP[34], Seo 等[35], Han 等[36] 图 1 基于大模型的具身智能工作概览 Fig. 1 Overview of embodied 的大量人类与环境交互的视频更是能提供大规模的、 多样的和真实的行为数据, 用于训练具有广泛性和 通用性行为能力的模型. 但此类视频一般不包含标 签, 如何有效地提取视频中的动作并用于训练是该 方向的重点问题. 文献 [32] 提出了一种名为 VRB 的方法, 通过 利用互联网上的人类行为视频来训练一个视觉可供 性 (Visual affordance) 模型, 该模型能够估计人类 在场景中的可能交互位置和方式, 通过从人类的视 Conference on Com- puter Vision and Pattern Recognition (CVPR). Vancouver, Canada: IEEE, 2023. 32 Baker B, Akkaya I, Zhokhov P, Huizinga J, Tang J, Ecoffet A, et al. Video PreTraining (VPT): Learning
    20 积分 | 19 页 | 10.74 MB | 2 天前
    3
  • pdf文档 CAICT算力:2025综合算力指数报告

    ..31 图 20 省级行政区环境分指数 Top10....................................................................... 32 图 21 省级行政区环境分指数-资源环境 Top10.......................................................33 图 22 省级行政区环境分指数-市场环境 特优势;东部沿海地区则在基础设施建设、人才资源和行业生态建 设方面表现突出。同时,各地区面临着基础设施建设、能源供应、 技术人才等方面的挑战,需要进一步加强合作和协同发展。 综合算力指数 32 来源:中国信息通信研究院 图 20 省级行政区环境分指数 Top10 2.资源环境 我国省级行政区环境分指数-资源环境 Top10 为青海省、内蒙古 自治区、新疆维吾尔自治区、甘肃省、宁夏回族自治区、西藏自治
    20 积分 | 54 页 | 4.38 MB | 2 天前
    3
  • word文档 Deepseek大模型在银行系统的部署方案设计

    4 接口设计.............................................................................................32 4. 数据管理.......................................................................................... 同步。这种方法能够显著减少训练时间,尤其是在处理 TB 级数据 时。为了进一步提高训练效率,我们使用混合精度训练(Mixed Precision Training),即同时使用 16 位和 32 位浮点数进行计 算,以减少显存占用并加速训练速度。 模型训练过程中,采用交叉验证技术来评估模型的性能,避免 过拟合。我们将数据集划分为训练集、验证集和测试集,比例为 7:2:1。通过交叉验 保其高效运行和满足业务需求的关键环节。首先,针对银行系统的 实际场景,需要对模型进行轻量化处理。通过剪枝、量化和知识蒸 馏等技术,减少模型的参数量和计算复杂度,从而降低对硬件资源 的消耗。例如,可以将模型的浮点数精度从 FP32 降低到 FP16 或 INT8,在保证性能的同时显著减少计算资源的占用。 其次,为了提高模型的推理速度,可以引入并行计算和分布式 推理技术。通过将模型切分到多个 GPU 或计算节点上并行处理,
    10 积分 | 181 页 | 526.32 KB | 6 月前
    3
共 17 条
  • 1
  • 2
前往
页
相关搜索词
金融DeepSeek银行部署加速AI应用迎来跃迁信息服务Agent智能技术概念场景落地洞察模型人工人工智能发展实践审计领域接入构建体提效设计方案设计方案204WORD消费电子行业电子行业新型最佳分享知识知识库数据处理数据处理训练考评系统建设151基于具身综述CAICT算力2025综合指数报告Deepseek方案设计
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩