图像 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2024年中国人工智能产业研究报告

制”的模式。新兴商业模式为按应用效果或功能点收费，创新的模式可在降低客户采购决策成本的同时，倒逼供应商持续优化产品技术与服务。 5）全球化战略：面对国内激烈竞争，众多企业积极出海，布局海外市场，在图像、视频和社交等领域有较多突破。 6）DeepSeek掀起开源开放与应用落地的热潮：DeepSeek刷新了市场对大模型现阶段性能的认知，其开源策略结合高效、低成本的架构显著加速了中国AI产业向更加高效、开放和自主的和长短时记忆网络（LSTM）等结构的出现，使得CNN与RNN能够相互融合，形成了更加复杂的模型结构。 CNN 适用于处理空间结构的数据，如图像识别、目标检测、图像分割等。在这些场景中，CNN能够有效地提取图像的特征，从而实现更好的性能。而 RNN 适用于处理时序关系的数据，广泛应用在自然语言处理、语音识别、机器翻译等领域。在某些任务中，这两者也可以结合使用，形成更复杂的神经网 ImageNet图像识别大赛让图像领域飞跃式发展 CNN与RNN架构 GAN架构 Transformer架构 GAN由两个神经网络，判别器与生成器组成，在生成图像、声音和文本等数据方面表现优异，应用于样本数据生成、图像生成、图像修复、图像转换、文本生成等方向。 2015年，扩散概率模型的基本概念与整体框架被提出，2020-2021年，Diffusion Model在图像生成领域得到广泛应用。

0 积分 | 51 页 | 3.35 MB | 9 月前
3
2024年中国人工智能产业研究报告

制”的模式。新兴商业模式为按应用效果或功能点收费，创新的模式可在降低客户采购决策成本的同时，倒逼供应商持续优化产品技术与服务。 5）全球化战略：面对国内激烈竞争，众多企业积极出海，布局海外市场，在图像、视频和社交等领域有较多突破。 6）DeepSeek掀起开源开放与应用落地的热潮：DeepSeek刷新了市场对大模型现阶段性能的认知，其开源策略结合高效、低成本的架构显著加速了中国AI产业向更加高效、开放和自主的和长短时记忆网络（LSTM）等结构的出现，使得CNN与RNN能够相互融合，形成了更加复杂的模型结构。 CNN 适用于处理空间结构的数据，如图像识别、目标检测、图像分割等。在这些场景中，CNN能够有效地提取图像的特征，从而实现更好的性能。而 RNN 适用于处理时序关系的数据，广泛应用在自然语言处理、语音识别、机器翻译等领域。在某些任务中，这两者也可以结合使用，形成更复杂的神经网 ImageNet图像识别大赛让图像领域飞跃式发展 CNN与RNN架构 GAN架构 Transformer架构 GAN由两个神经网络，判别器与生成器组成，在生成图像、声音和文本等数据方面表现优异，应用于样本数据生成、图像生成、图像修复、图像转换、文本生成等方向。 2015年，扩散概率模型的基本概念与整体框架被提出，2020-2021年，Diffusion Model在图像生成领域得到广泛应用。

10 积分 | 51 页 | 3.35 MB | 9 月前
3
信通院：“机器人+人工智能”工业应用研究报告2025

升大规模智算训练效率。在硬件方面，高性能 GPU、专用 AI 芯片、高速互联网络、大容量高速存储等技术，实现了大规模的算力供给，为处理复杂、不规则的计算任务（如自然语言处理的长序列数据、计算机视觉的多尺度图像特征）创造了条件；在软件方面，分布式训练框架、预训练大模型、多模态数据处理等技术也通过精细化算力管理提升了大模型的训练和推理速度，为机器人的大规模应用提供了基础支撑。 2 （二）“机器人+人工智能”是新一轮大国竞争的关键能阶段，机器人只能执行简单的预设任务，缺乏自主性和适应性；第二阶段是基础智能阶段，机器人开始具备基本的感知能力，能够对外界环境做出简单的反应；第三阶段是中等智能阶段，机器人能够进行更复杂的感知和处理任务，如图像识别和语音识别；第四阶段是高度智能阶段，机器人展现出较高的自主性和适应性，能够进行自我学习和优化，执行复杂的任务；第五阶段是超级智能阶段，机器人理论上将具备超越人类的智能水平，能够进行创新和自我意识的决策。在工业领域，机器人的规模化应用正在从中度智能向高度智能过渡。随着深度学习算法的优化以及多模态感知技术的融合，工业机器人将具备更强大的感知、认知和决策能力，能够更加精准地识别复杂环境中的物体、声音和图像，理解人类的语言和意图。同时，工业机器人将具备更强的自主学习能力，能够根据环境变化和任务需求进行自我调整和优化。从模型架构来看，结构相对简单、参数较少的机器学习模型正在转化为多层级、大参数量的深度学习、强化学习模型，

0 积分 | 37 页 | 2.06 MB | 9 月前
3
2025具身机器人行业未来展望报告

行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，持续进化，将具身智能推上了一个新台阶。 ViLLA通过预测Latent Action Tokens，弥合图像-文本与机器人执行动作之间的鸿沟智元通用具身基座大模型GO-1 04 20 资料来源：智元机器人官网，浙商证券产业研究院 Latent Planer 隐式规划器目前全球机器人高质量带动作标签的真机数据量仍然有限， VLM模块主要功能是从图像和文本指令中提取特征，并为后续的动作生成提供上下文信息。GR00T N1使用Eagle-2 VLM作为其基础，该模型在大规模互联网数据上进行了预训练。输入处理：VLM模块接受图像观测和文本指令作为输入。图像被编码为224×224的分辨率，经过像素重排后生成64个图像token嵌入。这些嵌入与文本嵌入结合，形成一个丰富的多模态表示。特征提取：通过对图像和文本的共同编特征提取：通过对图像和文本的共同编码，模型能够提取出具有高度相关性的特征。在策略训练过程中，任务的文本描述和可能的多张图像会以对话格式传递给VLM，从而获得形状为（批量大小 × 序列长度 × 隐藏维度）的多模态特征。英伟达通用机器人大模型 GR00T N1 04 23 资料来源：英伟达官网、CSDN，浙商证券产业研究院 DiT模块负责处理机器人的状态和动作生成。它采用了一种变体的扩散变换器，结合了去噪步骤的自适应层归一化。

0 积分 | 31 页 | 3.33 MB | 8 月前
3
国元证券-汽车智能驾驶行业深度报告：端到端与AI共振，智驾平权开启新时代

表的论文《 End to End Learning for Self-Driving Cars》。同年，英伟达发布了基于卷积神经网络（CNN）的端到端自动驾驶系统DAVE-2，通过摄像头图像直接输出转向指令。这是端到端技术的早期尝试，标志着自动驾驶从模块化向一体化迈进的起点。 2017年：Wayve.AI成立并发布“Learning to Drive in a Day”。Wayve. 景的泛化处理能力，及对宏观逻辑的推理能力，从而做出兼顾安全及性能的拟人驾驶决策。能够认识待转区、潮汐车道、特殊车道、路牌文字，理解各种令行禁止、快慢缓急的行为指令。规控大模型 XPlanner：基于图像数据的感知输入，实现对智驾行驶路径的规划控制。规划大模型基于数据驱动模式迭代，取代人类手写规则代码，使得驾驶策略向拟人进化，目前在效果上，前后顿挫减少50%、违停卡死减少40%、安全接管减少60%。 2是一个具备一定逻辑思考能力的视觉语言模型，与系统1是并行在跑。系统2整体是一个统一的Transformer解码器，将Prompt文本进行Tokenizer编码，然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码，通过图文对齐模块进行模态对齐，统一交给VLM模型进行自回归推理。VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹，并传递给系统1控制车辆。这套VLM 系统可

10 积分 | 95 页 | 6.54 MB | 9 月前
3
2025年DeepSeek手册：DeepSeek给我们带来的创业机会

国外：GPT-4等效智能在过去18个月内价格下降240倍  国内：大模型「亏本」卖，可以「白嫖」大模型API能力 19 政企、创业者必读 DeepSeek出现之前的十大预判之七多模态越来越重要  由文本生成迈向图像、视频、3D内容与世界模拟  多模态模态在能力变强的同时，规模正在变小 20 政企、创业者必读 21 DeepSeek出现之前的十大预判之八智能体推动大模型快速落地  能够调用各种工具，具有行动能力未来产业创意能力赋能企业数转智改数学计算语义理解逻辑推理语言翻译文本创作自动驾驶具身智能 1 2 4 5 知识问答代码编程文本生成多轮对话图像生成视频生成音频生成 A I 数字人生物制药新材料研究脑机接口基础科学能源自由宇宙探索生命科学科学能力 6 AI Fo r Science 知识管理（内部知识管理、原料无人天车吊装控制 • 生产现场运输状态监控 • 现场路线智能调度 • 智能化能源调度 • 料场智能调度 • 燃料水分视觉分析 • 多角度废钢图像采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 多角度废钢图像采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 皮带胶结头异常检测 • 皮带跑偏检测 • 烧结皮带跑偏检测 • 皮带托辊异常检测

10 积分 | 76 页 | 5.02 MB | 9 月前
3
火山引擎&IDC：2024年中国企业多云战略白皮书

模态特征，即在推动业务智能化的过程中，大模型需要全面支持对文本、图像、视频等多种数据类型的处理，实现数据的理解、思考和转换。对于单模态而言，通常自然语言生成类模型的训练一般需要GB到TB级别的数据，图像生成类模型的训练需要TB到PB级别的数据，而音视频生成类模型则进一步将数据需求量提升至PB乃至EB级别。多模态模型往往比单模态模型拥有更大的容量，以便处理复杂的特征表示和跨模态映射。更大的模型意味着更多的参需求各不相同，这对大模型的适配性和灵活性提出了更高要求。从时延角度看，自动驾驶、智能制造等场景对模型的响应速度有严苛的限制，微小的延迟增加也可能会导致不可接受的后果。从性能角度看，大模型处理的复杂度和数据规模都很高，在图像处理、知识管理等领域，大模型需要具备出色的推理性能，以快速准确地处理海量数据并给出结果。从安全角度看，大模型可能应用在很多敏感领域，在金融、医疗等场景中，数据隐私和模型安全都成为亟待解决的问题。栈。例如，在自然语言处理领域，大模型在处理海量文本的过程中，能够完成文本分类、情感分析、机器 �� 翻译、文本生成等多种任务，这些任务关联到各类应用平台和基础设施。在图像、视频处理领域，图像分类、目标检测、图像生成、视频分析等任务都会融合在企业业务流程中，借助专业化的处理工具来完成。此外，在科学研究、搜索推荐、智能决策等领域，专业化的方法和工具也都必不可少。在大模型融入行业

0 积分 | 56 页 | 1.97 MB | 9 月前
3
生成式AI爆发：医疗人工智能走到新的十字路口-蛋壳研究院

把机器学习应用于放疗计划制定，这些 AI 始终没有离开放疗这一场景。 2022 年 10 月，强联智创的颅内动脉瘤手术计划软件打破了困境，该软件可用于脑血管病患者 X 射线血管造影三维体层图像的显示、分割、测量和处理，辅助医生在神经介入手术时进行动脉瘤弹簧圈栓塞用的微导管路径规划和微导管塑形规划。随后，部分内置 AI 解决方案的手术导航系统获批进一步扩大了 AI 在手术治疗的应用范月，数坤科技率先在 MR 肝方向作出突破，拿到肝脏局灶性病变 MR 图像辅助分诊软件，将肝脏相关疾病纳入辅助诊断范畴，并于 2024 年 7 月发布第二版本。2024 年，推想医疗肝肾外科手术计划软件，亦从外科手术治疗的角度实现了跨越。 3. 集成平台出现 2024 年 8 月 5 日，上海西门子医疗器械有限公司获批的“CT 图像处理与分析软件”，打破了过往“一证一病”的管理。飞利浦这 AI 应用场景，提升诊断和治疗效率，助力多病种研究，助力超声设 14 备智能化升级。  智慧放疗：治疗环节中最先引入人工智能的场景放射治疗术前阶段，放疗科医生需要在 CT、MRI 等影像图像上标记出肿瘤的位置和大小，勾画需要保护的正常器官和邻近组织（即危及器官 OAR），精准确定肿瘤与正常组织的边界，并以此设计剂量处方和靶区范围，降低放疗治疗过程中射线对正常组织的影响，尽可能完全地清除肿瘤组织。

10 积分 | 69 页 | 13.45 MB | 9 月前
3
北京大学-DeepSeek原理和落地应用2025

推理能力在日常语言任务中表现均衡，但在复杂逻辑推理（如数学题求解）上准确率较低。在复杂推理任务表现卓越，尤其擅长数学、代码推理任务。多模态支持支持文本、图像、音频乃至视频输入，可处理多种模态信息。当前主要支持文本输入，不具备图像处理等多模态能力。应用场景适合广泛通用任务，如对话、内容生成、多模态信息处理以及多种语言相互翻译和交流；面向大众市场和商业应用。适合需要高精

10 积分 | 57 页 | 9.65 MB | 9 月前
3
5G +AI投资策略研究报告

证昏暗场景下的成像质量配置 2 12MP 彩色超广角 f/2.4 12MP 彩色广角 f/1.5 12MP 彩色长焦 f/2.2 适合旅行爱好者。超广角镜头无需拼接即可拍摄全景图像；变焦时能够捕捉到更多的细节品牌型号发布时间摄像头华为 P20 Pro 2018年3月27日三摄 OPPO R17 Pro 2018年8月23日三摄华为 Mate 20系列款将导入三摄，同时苹果也有望采用。全球手机摄像头市场有望从2016年的180亿美元增长至2020年的320.6亿美元，CAGR达15.6% 手机摄像头总市场规模（百万美元）  总结（1）图像数据在人工智能时代会变得更加重要，对三维数据的采集和后续处理是AR、无人驾驶等领域的核心环节；（2）摄像头会用的越来越多，拍照摄像头和3D摄像头不是替代关系而是叠加关系，二者相互协调才能完成更好的人机交互； 0时代：引入算法感知世界，摄像头成为解密信息的钥匙除了记录和分享生活这一常规应用外，图像识别技术的运用，使摄像头成为解密信息的钥匙。把摄像头对准某一未知事物，就能得到预想的答案。  3.0时代：3D成像获取三维信息，引领智能交互 3D摄像头具备感知现实世界三维信息的能力。从人机交互模式来看，从文字到语音，从2D平面图像到3D立体图像是一个必然趋势。因此3D摄像头的使用不仅将打开摄像头的3.0应用，更将带来第三次人机交互革命。

10 积分 | 206 页 | 10.47 MB | 9 月前
3

共 28 条前往

页

分类

语言

格式