世界互联网大会&联通:2025人形机器人应用与发展前瞻报告................................6 (一) 整机“智能化感知决策水平”不断提升...................................6 (二) 多模态模型算法赋能“大脑”层级进步 ...................................7 (三) 小脑模型算法迭代优化,实现拟人化运动控制...................... (一)整机“智能化感知决策水平”不断提升 在全球人形机器人领域,特斯拉、Figure AI、波士顿动力处于第 一梯队,1X、Digit等欧美产品紧随其后。这些企业在硬件上追求轻量 化、高自由度,软件上借助AI大模型实现多模态感知与推理,部分产 品已进入场景测试阶段,展现了人形机器人在工业生产、民生服务、特 种作业等多元场景的应用潜力,预计2025年将成为人形机器人的量产 元年。 特斯拉Optimus系 “小脑”运动控制路线:基于模式和基于学习 (二)多模态模型算法赋能“大脑”层级进步 1.大模型是机器人“大脑”最为理想的选择 2.多模态大模型技术发展呈现多元路径共存的演进趋势 人形机器人“大脑”技术以大模型为核心,提供任务交互、环境感知、 任务规划及决策控制能力。需具备四大关键能力,实时交互能力,能与人 类进行任务级交互;多模态感知能力,整合多感官信息;自主可靠决策 能力,分解5 积分 | 24 页 | 5.42 MB | 3 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页85%。在语言能力之外,AI 大模型的多模 态能力也快速提升。2023 年初,主流闭源大模型通常为纯文本的 LLM。2023 年至今,闭 源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成 能力。部分最前沿的闭源大模型,例如 GPT-4o、谷歌 Gemini,支持的模态更加多元,能 够理解文本、图像、音频、视频(帧),并生成文本、图像、音频。2022 年 9 月,红杉资 本预计还需要近十年的时 系统,强化虚 拟助手 Bixby,为用户提供丰富多样的应用服务。据 Techweb,Google 有望在 10 月推出 Pixel9 系列,预计将搭载基于最新 Gemini 模型的 AI 助手,执行复杂的多模态任务。芯片 方面,下半年将发布的骁龙 8Gen4 较上一代产品有望进一步支持 AI 应用。 图表7: AI 手机典型应用及趋势 资料来源:OPPO《AI 手机白皮书》(2024.2),华泰研究 风格扮演 辅导作业 通话摘要:一键从通话到纪要 通话记录 通话纪要 待办生成 便签同步 拍照、擦除、背景还原等 智能圈选 消除 背景生成 趋 势 多模态自然对话 可信、有用、个性化专属 内容生产 自然对话|OS融合的多模态| 语音、文字、图片、文档、视频全能聊| 语音、手势全能控 内容合规|幻觉消除|复杂推理|任务调度| 服务生态支持|人设支持|个性化问答和推荐| 用户专属记忆10 积分 | 40 页 | 2.60 MB | 9 月前3
AIGC+教育行业报告2024其职、融合发展的方向持续演化,未来可能呈现出通用大模型与N个专家模型多重组合的形态。 在内容层面,基于神经网络技术的AIGC与素养发展具有天然相似的基因,企业可以发力C端小模 型从而引领行业发展;在技术层面,大模型分析+多模态交互+Agent规划+具身智能行动,AGI 完全体与教育场景深度适配;在福祉落地层面,教育各界需通力合作,努力克服机会、技能、资 源的三大鸿沟;在人机协作层面,人机关系进入新历程,人机共育,生命循环,互为滋养,人类 步拓展了多轮对话、逻辑推理、上下文理解能力。 其次,基于新数据生成而非识别分类的逻辑,AIGC产品可应对的场景和任务范围更加广泛,可以满足用户对细分场景的需求。同时, 与数字人、人形机器人结合后,多模态的大模型既可识别学生的声音、表情等特征,也可借助“似人”的外貌提供“类人”的交互 陪伴。从不同细分场景的成熟度来看,当前口语、写作练习等,相较于数学、化学等逻辑类的练习任务,用户容错能力更强,应用 成熟度和热度也更高。 成熟度和热度也更高。 对话机器人声音及图像流畅度低,互动感差,难以多轮对话 非生成式的对话练习场景受限,以朗读、复述、固定情景对话 居多,难以满足自由练习需求 通过对学生声音、表情等的识别,提供多模态的 信息反馈;与数字人、人形机器人等的结合, “似人”的外貌及“类人”的内核,提供陪伴感 拟人陪伴 生成式AI可应对的场景和任务范围更广,可以满 足细分用户需求 开放场景 与学生多轮互动,完成写作练习、口语练习、辩10 积分 | 55 页 | 3.32 MB | 9 月前3
人形机器人标准化白皮书(2024版)-全国机器人标准化技术委员会.........................................................................................36 2.2.3 多模态感知与场景理解............................................................................................ 人形机器人由大脑、小脑、机械臂、灵巧手、腿足、一体化关节 等关键部分组成,集成实现对环境的感知交互、运动控制、任务执行 等功能,涉及整机、传感器、执行器、控制器和动力能源等关键部组 件,本白皮书将从机械本体与核心部件、动力系统、多模态感知与场 景理解、自主任务规划与决策、运动规划与控制、移动操作与人机交 互、大模型训练系统、仿真训练系统、操作系统等维度分析人形机器 人的关键技术研究现状和发展趋势,并从中识别标准化需求。人形机 指)和 5 指,按照主动 自由度分为小于 6 自由度、6-12 自由度以及 12 自由度以上。灵巧手能 够执行精细的操作任务,如抓取、搬运、操作工具等,通过集成各种 传感器,具备触觉、视觉等多模态感知能力,能够实时感知环境变化 和操作对象的状态。当前灵巧手的技术方案尚未完全收敛,在传动方 式和传感器方案上尚未有统一意见,连杆具有大负载、高精度和低成 本的优势,但在灵活性上不及腱绳,齿轮方式受限于加工精度和空间10 积分 | 89 页 | 3.98 MB | 9 月前3
2025年超节点发展报告-华为&中国信通院趋势四:AI 正迈向多模态与智能体的“复杂性”涌现 大模型技术正从单一模态向多模态融合,从简单的问答工具向具备复杂行为能力的智能体演进。 Gartner 预测到 2030 年 80% 企业软件与应用将是多模态 。多模态打通文本 / 图像 / 音频,智能体 具备目标设定—推理—规划—工具调用能力,计算从可预测的“蛮力”转向动态、异构、有状态的“认 知计算”,多模态打通文本 / 图像 / 倍;任一组件或一次光电转换失败都会放大为全局可用度 / 利用率问题,进一步抬升运维复杂度。 表 1 不同并行模式下的通信特征 超节点发展报告 11 规模定律驱动的参数指数增长、从训练到推理的场景泛化、以及向多模态与智能体的跃迁,共同 施压基础设施,形成通信墙—功耗散热墙—复杂度墙的循环。未来随着推理深入企业核心业务,需 在低时延下实现高吞吐 / 高并发:逻辑推理等任务将带来推理算力需求或百倍增长,推理也将集群化, 范围、更高流量的数据传输,从而突破系统性能。以昇腾 384 超节点为例,相较于传统服务器架 构,通信带宽提升 15 倍、单跳通信时延从 2 微秒做到 200 纳秒,降低了 10 倍,在 DeepSeek、 Qwen 等多模态、MoE 模型上,可以达到 3 倍以上的提升。 二、内存统一编址 超节点能够实现内存的全局管理和灵活访问。超节点内所有互联设备的内存地址需全局唯一,基 于全局内存可实现任意设备间的灵活访问。这20 积分 | 31 页 | 4.79 MB | 3 月前3
DeepSeek大模型及其企业应用实践预训练模型 深度学习 预训练大模型 预训练 大语言模型 预训练大语言模型 GPT 文心ERNIE ... ChatGPT 文心一言 1.4 大模型的分类 语言大模型 视觉大模型 多模态大模型 是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常 用于处理文本数据和理解自然语言。这类大模型 的主要特点是它们在大规模语料库上进行了训练, 图像分割、姿态估计、人脸识别等。代表性产品 包括VIT系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)等 是指能够处理多种不同类型数据的大模型,例如 文本、图像、音频等多模态数据。这类模型结合 了NLP和CV的能力,以实现对多模态信息的综合 理解和分析,从而能够更全面地理解和处理复杂 的数据。代表性产品包括DingoDB多模向量数据 库(九章云极DataCanvas)、DALL-E(OpenAI)、 2.1 国外的大模型产品 n Gemini Gemini是谷歌发布的大模型,它能够同时处理多种类型的数据和任务,覆盖文本、图像、音频、视频等多个领域。Gemini 采用了全新的架构,将多模态编码器和多模态解码器两个主要组件结合在一起,以提供最佳结果 Gemini包括三种不同规模的模型:Gemini Ultra、Gemini Pro和Gemini Nano,适用于不同任务和设备。2023年12月6日,10 积分 | 147 页 | 16.82 MB | 9 月前3
华为-人工智能行业:智能世界2035-20250918-134页AlphaFold 提供了关键的数据支撑。更有效的感知将为人工智能展开更宏观的画卷、揭示更微末 的细节、刻画更复杂的关系,让人工智能能更好地向世界学习、将世界改造、与世界交互。因而, 兼具宏观与微观、高动态、多模态的新一代传感器可能是新的“奇点”。 第二,更智能的模型算法。通用人工智能的模型与算法是什么样的?对于这个问题,仁者见仁 智者见智。但不可否认的是,物理世界中真实的智能(如人的智能)既是重要的目标,也将会带来 与创新设计,而 AI Agent 则高效承担具体 执行,开发范式迎来全新重构。在人机交互界面,我们将从图形交互迈向自然语言交互,并在视觉 汪涛 与听觉的基础上,逐步融合五感,实现沉浸式的空间多模态交互模式,用户体验将在镜像世界中升 维。移动互联网中的百万 App 不再是信息孤岛,而是 Agent 相互连接的智能服务,形成多智能体 协同的新生态。同时,随着世界模型等关键技术突破,全新的 L4+ 仍缺乏泛化性,难以灵活迁 移经验。 第三个十年,Transformer 催生了认知智能 萌芽,基于大模型的生成式 AI 得到发展,人类 经历了 ChatGPT 时刻,AI 在自然语言理解、多 模态生成和推理能力上形成突破,并且开始探 索生成与行动边界,AI 从理解世界走向改变 世 界。在这个阶段,内容生产、自动驾驶、机器 人交互取得长足的进展,但 AI 在推理能力和创 造能力方面跟人类依然存在较大的差距,可解20 积分 | 134 页 | 27.89 MB | 3 月前3
从DEEPSEEK的崛起看AI医疗发展方向及投资机会DeepSeek-R1在自然语言处理任务上表现出色,特别是在中文语法优化方面 DEEPSEEK R1迭代 资料来源:《AIGC: 智能创作时代》,图片来自晓多科技,西南证券整理 DEEPSEEK 在多模态理解上实力强劲 政策全面拥抱AI在医疗领域的应用 2019.10.18 药监局《关于成立人工智能等3个医疗器械标准化技术归口单位的公告》 根据《医疗器械监督管理条例》和国家标准化管理 外,其蒸馏技术支持端侧小模型普惠化,进一步降低算力 需求。 医疗数据资源的高效利用 中国庞大的医疗数据资源为AI模型提供了丰富的训练“养 料”。DeepSeek通过中文语法优化和多模态数据处理能 力,深度挖掘电子病历、中医典籍等非结构化数据价值。 例如,大经中医结合DeepSeek技术构建中医智能产品矩 阵,降低中医诊疗推理成本40%。 诊疗流程智能化 AI在临床路径优化、病历质控等领域显著提升效率。湖南省 联影医疗及联影智能通过“AI+设备+场景”的深度整合,已形成从研发到商业化的全链条能力 联影医疗的AI核心产品线 uAI影智大模型 技术特点:基于多模态技术(影像、文本、语音),结合生 成式AI的通用性与医疗垂直领域的数据训练,支持跨模态融 合与动态学习。 应用场景:1)影像诊断:辅助肺结节、冠脉CTA等病灶检出 ,肺结节检出率提升32%;2)流程优化:智能随访、电子病 历生成、10 积分 | 62 页 | 6.64 MB | 9 月前3
罗戈网:2025年值得关注的供应链技术的主要趋势报告能和满足财务目标之外,可用性是影响供应链组织选择新兴技术的两个 首要标准之一。多模式 UI 往往是供应链软件和硬件高级细分市场的默 认界面。眼动追踪、手势、语音识别和生物传感技术的创新,以及它们 在供应链解决方案中的采用,正在加速多模态 UI 的采用。 趋势基本影响 多模式 UI 的使用引起了人们的兴趣,部署表明,与现有方法相比, 工作人员的效率和积极性有所提高。 可以提供多模式用户界面培训,以便在更具活力和吸引力的环境中 技术迅速兴起的主要驱动力包括以下几个方面: 多模式新兴技术,如复合 Al,多模态 LLM,多模态 GenAl 等正在兴起和被企业(如供应 链组织)选择或釆用,而选择或成功釆用这些新兴技术的关键标准在于其用户体验(UX)。 而多模式 UI 技术正是提高这些新兴技术用户体验的关链技术。 智能手机、智能手表、智能电视和可穿戴设备等智能设备的广泛使用,推动了对更复杂 交互方式的需求。多模态用户界面满足了消费者日益增长的对无缝直观的设备交互体验 的期望。人们越来越希望能够通过语音命令、触摸屏和手势的组合来控制设备。 多模态用户界面 (UI) 正在改变人类与科技的交互方式,它能够通过多种输入方式(包 括语音、触控、手势和视线追踪)实现无缝沟通。与传统的单模态用户界面不同,多模 态界面允许用户根据自身情况选择最直观的交互方式,从而增强了可访问性、适应性和 用户参与度。人们对免提和非接触式交互的需求日益增长,推动了多模态用户界面在智 能设备、车载信息娱乐系统和工业应用中的应用。0 积分 | 33 页 | 2.27 MB | 6 月前3
电子行业深度报告:AI系列深度,AI+降本增效拓宽应用,硬件端落地场景丰富-20230712-东吴证券-28页升级至四代,模型能力 高速提升。2023 年 3 月 15 日,OpenAI 正式官宣了多模态大模型 GPT- 4,ChatGPT4 将输入内容扩展到 2.5 万字内的文字和图像,较 ChatGPT 能够处理更复杂、更细微的问题。最新版的 GPT-4 在 ChatGPT 的 GPT- 3.5 基础上主要提升了语言模型方面的能力,并添加了多模态功能,在 不同语言情景和内部对抗性真实性评估的表现都显著优于 GPT-3.5,在 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业深度报告 5 / 28 1. ChatGPT 快速迭代,OpenAI 模型演进,下游应用百花齐放 GPT-4 是一个大型的多模态模型,相比上一代 ChatGPT 新增了图像功能,同时具备 更精准的语言理解能力。GPT 的升级背后是 OpenAI 的大语言模型的进一步演进,同时 带动下游应用的拓展,涌现出新一批应用场景。 架构),基于大量的语料库使用指 示学习和人工反馈的强化学习(RLHF)来指导模型训练。模型可理解并生成对各种主 题的类似人类的响应,是 AIGC 技术进展的成果。2023 年 3 月 15 日,OpenAI 正式官宣 了多模态大模型 GPT-4,ChatGPT4 将输入内容扩展到 2.5 万字内的文字和图像,较 ChatGPT 能够处理更复杂、更细微的问题。 表1:历代 GPT 表现情况 模型 发布时间 参数量10 积分 | 28 页 | 2.68 MB | 9 月前3
共 38 条
- 1
- 2
- 3
- 4
