积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部研究报告(28)人工智能(28)

语言

全部中文(简体)(28)

格式

全部PDF文档 PDF(27)PPT文档 PPT(1)
 
本次搜索耗时 0.025 秒,为您找到相关结果约 28 个.
  • 全部
  • 研究报告
  • 人工智能
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 2024年中国人工智能产业研究报告

    制”的模式。新兴商业模式为按应用效果或功能点收费,创新的模式可在降低客户采购决策成 本的同时,倒逼供应商持续优化产品技术与服务。 5)全球化战略:面对国内激烈竞争,众多企业积极出海,布局海外市场,在图像、视频和社交 等领域有较多突破。 6)DeepSeek掀起开源开放与应用落地的热潮:DeepSeek刷新了市场对大模型现阶段性能的 认知,其开源策略结合高效、低成本的架构显著加速了中国AI产业向更加高效、开放和自主的 和 长 短 时 记 忆 网 络 (LSTM)等结构的出现,使得CNN与RNN能够 相互融合,形成了更加复杂的模型结构。 CNN 适用于处理空间结构的数据,如图像识别、目标检测、图像分割等。在 这些场景中,CNN能够有效地提取图像的特征,从而实现更好的性能。而 RNN 适用于处理时序关系的数据,广泛应用在自然语言处理、语音识别、机 器翻译等领域。在某些任务中,这两者也可以结合使用,形成更复杂的神经网 ImageNet图像识别 大赛让图像领域飞跃式发展 CNN与RNN架构 GAN架构 Transformer架构 GAN由两个神经网络,判别器与生成器组 成,在生成图像、声音和文本等数据方面表 现优异,应用于样本数据生成、图像生成、 图像修复、图像转换、文本生成等方向。 2015年,扩散概率模型的基本概念与整体 框架被提出,2020-2021年,Diffusion Model在图像生成领域得到广泛应用。
    0 积分 | 51 页 | 3.35 MB | 5 月前
    3
  • pdf文档 2024年中国人工智能产业研究报告

    制”的模式。新兴商业模式为按应用效果或功能点收费,创新的模式可在降低客户采购决策成 本的同时,倒逼供应商持续优化产品技术与服务。 5)全球化战略:面对国内激烈竞争,众多企业积极出海,布局海外市场,在图像、视频和社交 等领域有较多突破。 6)DeepSeek掀起开源开放与应用落地的热潮:DeepSeek刷新了市场对大模型现阶段性能的 认知,其开源策略结合高效、低成本的架构显著加速了中国AI产业向更加高效、开放和自主的 和 长 短 时 记 忆 网 络 (LSTM)等结构的出现,使得CNN与RNN能够 相互融合,形成了更加复杂的模型结构。 CNN 适用于处理空间结构的数据,如图像识别、目标检测、图像分割等。在 这些场景中,CNN能够有效地提取图像的特征,从而实现更好的性能。而 RNN 适用于处理时序关系的数据,广泛应用在自然语言处理、语音识别、机 器翻译等领域。在某些任务中,这两者也可以结合使用,形成更复杂的神经网 ImageNet图像识别 大赛让图像领域飞跃式发展 CNN与RNN架构 GAN架构 Transformer架构 GAN由两个神经网络,判别器与生成器组 成,在生成图像、声音和文本等数据方面表 现优异,应用于样本数据生成、图像生成、 图像修复、图像转换、文本生成等方向。 2015年,扩散概率模型的基本概念与整体 框架被提出,2020-2021年,Diffusion Model在图像生成领域得到广泛应用。
    10 积分 | 51 页 | 3.35 MB | 6 月前
    3
  • pdf文档 信通院:“机器人+人工智能”工业应用研究报告2025

    升大规模智算训练效率。在硬件方面,高性能 GPU、专用 AI 芯片、 高速互联网络、大容量高速存储等技术,实现了大规模的算力供给, 为处理复杂、不规则的计算任务(如自然语言处理的长序列数据、计 算机视觉的多尺度图像特征)创造了条件;在软件方面,分布式训练 框架、预训练大模型、多模态数据处理等技术也通过精细化算力管理 提升了大模型的训练和推理速度,为机器人的大规模应用提供了基础 支撑。 2 (二)“机器人+人工智能”是新一轮大国竞争的关键 能阶段,机器人只能执行简单的预设任务,缺乏自主性和适应性;第 二阶段是基础智能阶段,机器人开始具备基本的感知能力,能够对外 界环境做出简单的反应;第三阶段是中等智能阶段,机器人能够进行 更复杂的感知和处理任务,如图像识别和语音识别;第四阶段是高度 智能阶段,机器人展现出较高的自主性和适应性,能够进行自我学习 和优化,执行复杂的任务;第五阶段是超级智能阶段,机器人理论上 将具备超越人类的智能水平,能够进行创新和自我意识的决策。 在工业领域,机器人的规模化应用正在从中度智能向高度智能过 渡。随着深度学习算法的优化以及多模态感知技术的融合,工业机器 人将具备更强大的感知、认知和决策能力,能够更加精准地识别复杂 环境中的物体、声音和图像,理解人类的语言和意图。同时,工业机 器人将具备更强的自主学习能力,能够根据环境变化和任务需求进行 自我调整和优化。从模型架构来看,结构相对简单、参数较少的机器 学习模型正在转化为多层级、大参数量的深度学习、强化学习模型,
    0 积分 | 37 页 | 2.06 MB | 5 月前
    3
  • pdf文档 2025具身机器人行业未来展望报告

    行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,持续进化,将具身智能推上了一个新 台阶。 ViLLA通过预测Latent Action Tokens,弥合图像-文本与机器人执行动作之间的鸿沟 智元通用具身基座大模型GO-1 04 20 资料来源:智元机器人官网,浙商证券产业研究院 Latent Planer 隐式规划器 目前全球机器人高质量带动作标签的真机数据量仍然有限, VLM模块主要功能是从图像和文本指令中提取特征,并为后续的动作生成提供上下文信息。GR00T N1使用Eagle-2 VLM作为其基础,该模型 在大规模互联网数据上进行了预训练。 输入处理:VLM模块接受图像观测和文本指令作为输入。图像被编码为224×224的分辨率,经过像素重排后生成64个图像token嵌入。这些嵌 入与文本嵌入结合,形成一个丰富的多模态表示。 特征提取:通过对图像和文本的共同编 特征提取:通过对图像和文本的共同编码,模型能够提取出具有高度相关性的特征。在策略训练过程中,任务的文本描述和可能的多张图像 会以对话格式传递给VLM,从而获得形状为(批量大小 × 序列长度 × 隐藏维度)的多模态特征。 英伟达通用机器人大模型 GR00T N1 04 23 资料来源:英伟达官网、CSDN,浙商证券产业研究院 DiT模块负责处理机器人的状态和动作生成。它采用了一种变体的扩散变换器,结合了去噪步骤的自适应层归一化。
    0 积分 | 31 页 | 3.33 MB | 5 月前
    3
  • pdf文档 国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代

    表 的 论 文 《 End to End Learning for Self-Driving Cars》。同年,英伟达发布了 基于卷积神经网络(CNN)的端到端自动驾驶系统DAVE-2, 通过摄像头图像直接输出转向指令。这是端到端技术的早期 尝试,标志着自动驾驶从模块化向一体化迈进的起点。 2017年:Wayve.AI成立并发布“Learning to Drive in a Day”。Wayve. 景的泛化处理能力,及对宏观逻辑的推理能力,从而做出兼顾安全及性能的拟 人驾驶决策。能够认识待转区、潮汐车道、特殊车道、路牌文字,理解各种令 行禁止、快慢缓急的行为指令。 规控大模型 XPlanner:基于图像数据的感知输入,实现对智驾行驶路径的规 划控制。规划大模型基于数据驱动模式迭代,取代人类手写规则代码,使得驾 驶策略向拟人进化,目前在效果上,前后顿挫减少50%、违停卡死减少40%、安 全接管减少60%。 2是一个具备一定逻辑思考能力的视觉语言 模型,与系统1是并行在跑。系统2整体是一个统一的Transformer解码器,将Prompt文 本进行Tokenizer编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉 信息编码,通过图文对齐模块进行模态对齐,统一交给VLM模型进行自回归推理。VLM输 出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并传递给系统1控制车辆。这套VLM 系统可
    10 积分 | 95 页 | 6.54 MB | 5 月前
    3
  • pdf文档 2025年DeepSeek手册:DeepSeek给我们带来的创业机会

    国外:GPT-4等效智能在过去18个月内价格下降240倍  国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19 政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要  由文本生成迈向图像、视频、3D内容与世界模拟  多模态模态在能力变强的同时,规模正在变小 20 政企、创业者必读 21 DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地  能够调用各种工具,具有行动能力 未来产业 创意 能力 赋能企业 数转智改 数学计算 语义理解 逻辑推理 语言翻译 文本创作 自动驾驶 具身智能 1 2 4 5 知识问答 代码编程 文本生成 多轮对话 图像生成 视频生成 音频生成 A I 数字人 生物制药 新材料研究 脑机接口 基础科学 能源自由 宇宙探索 生命科学 科学 能力 6 AI Fo r Science 知识管理( 内部知识管理、 原料无人天车吊装 控制 • 生产现场运输状态 监控 • 现场路线智能调度 • 智能化能源调度 • 料场智能调度 • 燃料水分视觉分析 • 多角度废钢图像 采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 多角度废钢图像采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 皮带胶结头异常检测 • 皮带跑偏检测 • 烧结皮带跑偏检测 • 皮带托辊异常检测
    10 积分 | 76 页 | 5.02 MB | 5 月前
    3
  • pdf文档 火山引擎&IDC:2024年中国企业多云战略白皮书

    模态特征,即在推动业务智能化的过程中,大模型需要全面支持对文本、图 像、视频等多种数据类型的处理,实现数据的理解、思考和转换。对于单模 态而言,通常自然语言生成类模型的训练一般需要GB到TB级别的数据,图像 生成类模型的训练需要TB到PB级别的数据,而音视频生成类模型则进一步将 数据需求量提升至PB乃至EB级别。多模态模型往往比单模态模型拥有更大的 容量,以便处理复杂的特征表示和跨模态映射。更大的模型意味着更多的参 需求各不相同,这对大模型的适配性和灵活性提出了更高要求。从时延角度 看,自动驾驶、智能制造等场景对模型的响应速度有严苛的限制,微小的延 迟增加也可能会导致不可接受的后果。从性能角度看,大模型处理的复杂度 和数据规模都很高,在图像处理、知识管理等领域,大模型需要具备出色的 推理性能,以快速准确地处理海量数据并给出结果。从安全角度看,大模型 可能应用在很多敏感领域,在金融、医疗等场景中,数据隐私和模型安全都 成为亟待解决的问题。 栈。例如,在自然语言处理领 域,大模型在处理海量文本的过程中,能够完成文本分类、情感分析、机器 �� 翻译、文本生成等多种任务,这些任务关联到各类应用平台和基础设施。在 图像、视频处理领域,图像分类、目标检测、图像生成、视频分析等任务都 会融合在企业业务流程中,借助专业化的处理工具来完成。此外,在科学研 究、搜索推荐、智能决策等领域,专业化的方法和工具也都必不可少。在大 模型融入行业
    0 积分 | 56 页 | 1.97 MB | 5 月前
    3
  • pdf文档 北京大学-DeepSeek原理和落地应用2025

    推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如 数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。 多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模 态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。 应用场景 适合广泛通用任务,如对话、内容生成、多模态信息 处理以及多种语言相互翻译和交流;面向大众市场和 商业应用。 适合需要高精
    10 积分 | 57 页 | 9.65 MB | 5 月前
    3
  • pdf文档 生成式AI爆发:医疗人工智能走到新的十字路口-蛋壳研究院

    把机器学习应用于放疗计划制定,这些 AI 始终没有离开放疗这一场景。 2022 年 10 月,强联智创的颅内动脉瘤手术计划软件打破了困境,该软件可用于脑血管 病患者 X 射线血管造影三维体层图像的显示、分割、测量和处理,辅助医生在神经介入 手术时进行动脉瘤弹簧圈栓塞用的微导管路径规划和微导管塑形规划。 随后,部分内置 AI 解决方案的手术导航系统获批进一步扩大了 AI 在手术治疗的应用范 月,数坤科技率先在 MR 肝方向作出突破,拿到肝脏局灶性病变 MR 图像辅 助分诊软件,将肝脏相关疾病纳入辅助诊断范畴,并于 2024 年 7 月发布第二版本。2024 年,推想医疗肝肾外科手术计划软件,亦从外科手术治疗的角度实现了跨越。 3. 集成平台出现 2024 年 8 月 5 日,上海西门子医疗器械有限公司获批的“CT 图像处理与分析软件”,打 破了过往“一证一病”的管理。 飞利浦这 AI 应用场景,提升诊断和治疗效率,助力多病种研究,助力超声设 14 备智能化升级。  智慧放疗:治疗环节中最先引入人工智能的场景 放射治疗术前阶段,放疗科医生需要在 CT、MRI 等影像图像上标记出肿瘤的位置和大 小,勾画需要保护的正常器官和邻近组织(即危及器官 OAR),精准确定肿瘤与正常 组织的边界,并以此设计剂量处方和靶区范围,降低放疗治疗过程中射线对正常组织的 影响,尽可能完全地清除肿瘤组织。
    10 积分 | 69 页 | 13.45 MB | 5 月前
    3
  • pdf文档 5G +AI投资策略研究报告

    证昏暗场景下的成像质 量 配置 2 12MP 彩色 超广角 f/2.4 12MP 彩色 广角 f/1.5 12MP 彩色 长焦 f/2.2 适合旅行爱好者。超广 角镜头无需拼接即可拍 摄全景图像;变焦时能 够捕捉到更多的细节 品牌 型号 发布时间 摄像头 华为 P20 Pro 2018年3月27日 三摄 OPPO R17 Pro 2018年8月23日 三摄 华为 Mate 20系列 款将导入三摄,同时苹果也有望采用。全球手机摄像头 市场有望从2016年的180亿美元增长至2020年的320.6亿美元,CAGR达15.6% 手机摄像头总市场规模(百万美元)  总结 (1)图像数据在人工智能时代会变得更加重要,对 三维数据的采集和后续处理是AR、无人驾驶等领域 的核心环节; (2)摄像头会用的越来越多,拍照摄像头和3D摄 像头不是替代关系而是叠加关系,二者相互协调才 能完成更好的人机交互; 0时代:引入算法感知世界,摄像头成为解密信息的钥匙 除了记录和分享生活这一常规应用外,图像识别技术的运用,使摄像头成为解密信息的钥匙。把摄像头对准某一未知事物,就 能得到预想的答案。  3.0时代:3D成像获取三维信息,引领智能交互 3D摄像头具备感知现实世界三维信息的能力。从人机交互模式来看,从文字到语音,从2D平面图像到3D立体图像是一个必 然趋势。因此3D摄像头的使用不仅将打开摄像头的3.0应用,更将带来第三次人机交互革命。
    10 积分 | 206 页 | 10.47 MB | 5 月前
    3
共 28 条
  • 1
  • 2
  • 3
前往
页
相关搜索词
2024中国人工智能人工智能产业研究报告信通机器机器人工业应用2025具身行业未来展望国元证券汽车驾驶深度端到AI共振智驾平权开启时代DeepSeek手册我们带来创业机会火山引擎IDC企业多云战略白皮皮书白皮书北京大学北京大学原理落地生成生成式爆发医疗走到十字路口十字路十字路口蛋壳研究院5G投资策略
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩