基于多模态大模型的电力现场安监管控研究及实践20 积分 | 22 页 | 5.05 MB | 3 月前3
电力人工智能多模态大模型创新技术及应用方案(35页 PPT)电力人工智能多模态大模型 创新技术与应用 1 、研究背景 2 、关键技术 3 、应用案例 4 、未来展望 目 录 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科 学;其在历史上经过多个发展时期,形成了不同的技术流派; 深度学习是目前主流。 1950s—1970s 1970s 中期 1980s-2000s 通用模型 无需人类专家标注 高效互联通讯: NVLINK 、 HCCL ( 华为 ) 多模态通用模型: Qwen2-VL 等 . 背景 1—— 人工智能的概念及发 展 数据 算力 的范式,使大规模预训练成为可能。近年来,大模型凭借超大规模参数和海量数据学习,在多模态学习、 推理和通用人工智能方向取得重要进展,为人工智能的发展开启了新的阶段。 大模型 模态扩展 文本 检索增强 图像 / 视频 大规模基础模型 音频 电力大模型 医疗大模型。 Transformer 架构 注意力机制 多模态融合 0upr ake Wefert10 积分 | 35 页 | 7.61 MB | 22 天前3
生态环境保护基于多模态AI大模型智慧诊断应用设计方案(141页 WORD)项目编号: 生态环境保护基于多模态 AI 大模型智慧 诊断应用 设 计 方 案 目 录 1. 引言........................................................................................................................................... ...........................................................................................9 1.3 多模态 AI 大模型的简介......................................................................................... .....22 3. 多模态 AI 大模型概述........................................................................................................................................................23 3.1 多模态学习的定义........40 积分 | 149 页 | 294.25 KB | 1 月前3
2024年汽车AI大模型TOP10分析报告(59页 PPT)算 机 视 觉 AlexNet ( 图灵奖得主 Hinton) CAN (Gioodfellow. 图灵奖得主 Bengio) ResNet ( MSR. 引用 183222) 跨模态模型 DALL E2 (OpenAI) 2017 年 , Google 提出 Transformer 框架在机器翻译中取得显著进步 ,其分布式学习和强大编码能力受到广泛关注。 2018 : 客服问答 工业 : 产品设计辅助 && 生产规划 教育 : 智能问答、试题生成 法律 : 智能法律助手,法律咨询 医疗 : 问诊,用药咨询 科研 问答理解类 常识、专业知识、多语言、多模态、角 色扮演 + 多轮对话、安全陷阱 推理类 情感推理、演绎推理、逻辑推理、归纳 推理、类比推理 创作表达类 文字创作 & 创意、内容改写 / 续写、修改 ,提升模型的通⽤性和可维护性。 参数规模扩展 为确保模型质量和性能,未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预 训练,尤其在数据量和参数量上将迎来显著跃升。 多模态融合 大模型将逐渐融入图⽚ 、⾳频、视频等多种模态信息 ,实现跨模态的交互与理解 ,从⽽拓 宽其应⽤场景和实⽤价值。 大模型小模型化 在产业应⽤层⾯ ,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实10 积分 | 59 页 | 27.94 MB | 3 月前3
AI可信数据空间(54页 WORD)合分析)导致计算性能延迟增加 50% 以上,难以支 撑高价值场景(金融、物流、交通)等低时延响应 要求。 08 · 挑战三、高质量语料稀缺 政府、金融、医疗、制造等行业大模型专业语料稀缺, 海量多模态数据(文本、图像、传感器)待标注数 据占比高,高质量语料转化率低(语义缺失、时效 滞后等),无法满足行业大模型训练推理阶段对行 业标注数据的诉求。 · 挑战四、安全能力参差不齐 数据流通涉及数据提供方、使用方、服务运营方等 薄弱环节,无法满足全链路数据安全防护要求。 2、人工智能大模型语料发展与挑战 2.1 人工智能大模型语料发展趋势 1. 从大语言模型到多模态 / 具身智能大模型的语料演进 当前大模型技术正经历从弱人工智能(机器学习、神经网络、大语言模型)向通用人工智能(Agent、多模态、 具身智能)的范式跃迁。这不仅对于模型架构的设计理念进行了重构,同时也对大模型各阶段的训练语料提出 全新要求。 1942 1956 大模型技术发展演进阶段 09 公开数 2c 现象级应 首先,对多模态关联的复杂语料需求日益迫切。针对 大模型语料质量,传统纯文本数据已经无法支撑多 模态与具身大模型联合建模的需求。业界实践表 明,在多模态场景下的语料供给,需要进行跨模态 语料数据精准对齐,实践通过融合图文信息,运动 轨迹,场景数据,使得复杂论文的解析准确率提升 37%。此类多模态场景在处理包含图表、公式的复杂 文档时,需要在语料标准中体现语义逻辑关联能10 积分 | 55 页 | 4.11 MB | 22 天前3
AI知识库:电力行业智能转型的新底座(23页 PPT)AI 阅读 MCP 关键信息提 MCP AI 摘要 MCP 多模态知识解析 多模态数据开发与融合 360AI 企业知识库: 企业级智能体应用知识中枢 , 专为企业打造的 AI 基础设施 全链路日志 多智能体协同 工作流编排 上下文工程 提示词工程 AI 护 栏 ② 领先的 AI 多模态知识库 & 知识解析技术 • 支持 29 种多模态数据 ,包括 pdf/ppt/doc/xls/ 图 / 音 / 视频 等 • OCR+360 新一代图文跨模态 VLM ,大小模型结合解析更精准 • 支持多模态交互(输入 / 输出) ,万物皆可交互 ④ 可为 Agent 提供超强 “ 上下文与记忆” 工具等进行采集; • 各种结构化数据库表也可以采集; ③ 领先的 AgenticRAG 技 术 • 以 Agent 重构传统 RAG ,提升问答准确率及效果 • 长链路、多跳、事实推理效果更佳 • 跨模态数据融合应用:打通结构化与非结构化知识 ⑤ 内置企业级敏捷 Agent 平台 + 丰富的知识类技能 + 知识类智能体市场 • 专业的知识类技能 :比如文档解析、录音转写、发票识别 • 丰富知识类20 积分 | 23 页 | 4.45 MB | 3 月前3
信息服务-AI Agent(智能体):从技术概念到场景落地推进速度加快。智能体大致可以分为六类,根据他们被设计出的 特点,可以作用在不同的应用领域上。不同类别的智能体给予应用层面上更多研 发方向,像目前关注度较高的自动驾驶技术、智能电网控制、能源管理等都能被 垂类智能体覆盖。结合多模态大模型,自动化和情感需求类智能体已落地。但商 业化智能体仍需考虑成本问题,由于智能体之间的交互过程可能出现错误循环且 输出结果不一定符合需求,tokens 成本远高于普通 LLMs。 人工智 与人工智能强国组成战略伙伴,共同发展 AI 科技。智能体发展能推动政府、金融、 制造、能源、医疗、零售等行业的智能化应用向多模态和跨模态转变。 投资建议:我们认为未来智能体(AI Agent)的前景十分广阔,随着大模型的发展, 智能体将从概念走向实际应用,成为各行业的重要助力。通过多模态大模型,智 能体能够整合图片、语音等异构数据,提高任务处理效率,并解决跨行业、跨领 域的问题。技术方面,智能体具备 亿美元,将在政府、金融、 制造、能源、医疗、零售等多个领域实现智能化应用。结合国家政策支持以及各 大企业的积极投入,智能体技术将不断进步,特别是在算力快速增长的背景下, AI Agent 的发展前景更加可期。多模态智能体的出现,将进一步推动各行业智能 化应用的升级,智能体的商业化将迎来新的突破。 建议关注:AI 算力、模型和应用:寒武纪-U、海光信息、景嘉微、龙芯中科、浪 潮信息、中科曙光、神州数码10 积分 | 33 页 | 4.71 MB | 3 月前3
基于大模型的具身智能系统综述具身智能的“大脑”能显著弥补机器人领域训练数据 少且专门化的缺点, 为系统提供强大的感知、理解、 决策和行动的能力. 此外, 基础模型的零样本能力 使得系统无需调整即能适应各种未见过的任务, 基 础模型训练数据的丰富模态也可以满足具身智能对 各类传感器信息的处理需求. 无论是视觉信息、听 觉信息, 还是其他类型的感知数据, 基础模型都能 够为具身智能提供全面和准确的理解. 在实际应用 中, 这意味着具身智能能够更好地适应环境变化 感知与理解 在与环境的交互中, 具身智能通过摄像头、麦 克风等传感器接受原始数据, 并解析数据信息, 形 成对环境的认知. 在处理此类信息时, 大模型有着 强大的优势, 能有效处理整合多模态的输入数据, 捕获各模态之间的关系, 提取为统一的高维特征, 形成对世界的理解. 如对大量无标签的互联网文本 和图像进行预训练的视觉模型, 能将图像与文本编 码到同样的向量空间中, 这种对齐不仅有利于对环 境的感知 用于具身智能感知与理解的方法, 讨论范围是文本、 图像和音频等信息, 其中感知的信息来源于环境与 人类用户. 1.1 多模态模型理解 多模态模型, 尤其是多模态大模型 (Large multi- modal model, LMM) 具有理解图像、场景文本、图 表、文档, 以及多语言、多模态理解的强大能力[29], 可 以直接用于具身智能对环境的理解, 并通过提示词 使之输出结构化内容如控制代码、任务分解等指令20 积分 | 19 页 | 10.74 MB | 3 月前3
世界互联网大会&联通:2025人形机器人应用与发展前瞻报告................................6 (一) 整机“智能化感知决策水平”不断提升...................................6 (二) 多模态模型算法赋能“大脑”层级进步 ...................................7 (三) 小脑模型算法迭代优化,实现拟人化运动控制...................... (一)整机“智能化感知决策水平”不断提升 在全球人形机器人领域,特斯拉、Figure AI、波士顿动力处于第 一梯队,1X、Digit等欧美产品紧随其后。这些企业在硬件上追求轻量 化、高自由度,软件上借助AI大模型实现多模态感知与推理,部分产 品已进入场景测试阶段,展现了人形机器人在工业生产、民生服务、特 种作业等多元场景的应用潜力,预计2025年将成为人形机器人的量产 元年。 特斯拉Optimus系 “小脑”运动控制路线:基于模式和基于学习 (二)多模态模型算法赋能“大脑”层级进步 1.大模型是机器人“大脑”最为理想的选择 2.多模态大模型技术发展呈现多元路径共存的演进趋势 人形机器人“大脑”技术以大模型为核心,提供任务交互、环境感知、 任务规划及决策控制能力。需具备四大关键能力,实时交互能力,能与人 类进行任务级交互;多模态感知能力,整合多感官信息;自主可靠决策 能力,分解5 积分 | 24 页 | 5.42 MB | 3 月前3
【案例】工业大模型赋能的新型流程工业智能工厂核心工业软件体系方案本文提出了工业大模型赋能的新型流程工业智能工厂核心工业软件 体系. 该体系构建了基于大语言模型的工业大模型, 其架构分为模型底座层、公共能力层和业务应用 层. 其中, 公共能力层提供时序数据、图像数据、文本数据等多模态处理能力, 业务应用层则结合具体 业务场景开发了多种类型的智能体, 包括图表智能体、低代码智能体、感知智能体、分析智能体、诊 断智能体、决策优化智能体和控制智能体. 这些智能体能够准确执行人类通过自然语言发出的各项任 业软件的原理, 还需要深刻理解生产 工艺, 当前阶段流程工业智能工厂核心工业软件尚不具备这种能力. 近年来, 以大语言模型为代表的新一代人工智能技术发展迅速 [6], 特别是在结合工业多模态预训 练机制与多模态融合能力后, 为流程工业智能工厂建设带来了新的契机 [6,7]. 例如, 针对工业时序数据 的生成, MetaIndux-TS [8] 等模型展现了显著的进步, 能够有效解决数据稀缺问题. 工业大模型赋能的新型流程工业智能工厂核心工业软件体系 ChatGPT 的正式发布让人们看到了大模型为人类服务的曙光, 经过两年多的探索和发展, 除了类 似于 ChatGPT 的大语言模型, 视觉模型、多模态模型、专业领域模型等不同类型的模型在工业中都 进行了一定程度的概念验证和应用 [33]. 2025 年, 由中国深度求索公司开源的 DeepSeek R1, DeepSeek V3 大语言模型在自10 积分 | 18 页 | 11.31 MB | 1 月前3
共 287 条
- 1
- 2
- 3
- 4
- 5
- 6
- 29
