人工智能大模型保险行业应用评测报告(21页 PPT)INTELLIGENCE ARTIFICIAL 人工智能大模型 保险行业应用评测报告 Evaluation Report on the Application of Large-scale Artificial Intelligence Models in the Insurance Industry 2023 年 10 月 以 ChatGPT 为代表的 AI 大模型技术席卷全球,不仅 发布《人工智能大模型保险行业应用评测报告》。报告特邀国内知名 高校专家学者、中国大地财产保险股份有限公司、众惠财产相互保险社等共同调研并撰写完成。 《报告》通过保险、法律、医疗等相关领域常规知识问题,测试大模型的基础能力,同时针对部分主要典型的应用能力设计 了保险业务场景设定及问题,以测试大模型的实际应用能力。区别于以底层专业性能指标为评测维度的大模型评测报告, 《报告》以应用场景的视 实用和直观的信息,更具现实层面的指导意义。 本报告评测结果经专家组进行谨慎的综合论证形成,但考虑到大模型迭代速度日新月异,评测结果仅代表测试期间所呈现的 效果。报告在分析结论上难免存在一定的局限性和偏差,欢迎各届批评指正。 评测框架 保险垂直领域大模型评测从常用的保险业务场景中抽离三大主要应用能力,细分为十大能力测试维度, 71 个评测任务。通 过 不同任务上大模型的性能表现,挖掘其基础能力的优势和特点。20 积分 | 20 页 | 3.47 MB | 1 天前3
2025年网络安全十大创新方向创新方向:深度伪造检测 推荐落地方案: 中科睿鉴-端云协同多模态伪造检测方案 创新方向:大模型安全评估 推荐落地方案: 君同未来-大模型安全评估 奇安信-AI大模型安全技术评估服务 360-大模型安全评测平台 长亭科技-AIGC安全风险评估 创新方向:合规管理&安全运营深度融合 创新方向:AI应用防火墙 推荐落地方案: 奇安信-大模型卫士(GPT-Guard) 亚信安全-AI大模型防火墙 支持多模态检测,包含文本、图片、音频、视频; 2. 基于预训练的安全模型对AI大模型应用进行防护,做到以模制模; 3. 对于后门攻击、数据污染、梯度替换、模型操控、供应链投毒等攻击防护成 功率可达98%以上。对事实性评测、模型幻觉、逻辑推理、安全合规、隐私 保护等检测准确率可达98%以上; 4. 集成300+前沿模型,支持2000+系统漏洞评估,可检测50+攻击手段,涵盖 30+评估标准; 5. 轻量化部署,节省算力资源,消费级显卡即可运行。 风险防护、全场景模型监测管控等。 君同未来-大模型安全评估 方案概况 方案优势和用户价值 方案优势与特点: 1、权威的评测体系和智能评测引擎:内置国内外20+评测体系,个性化适配300+评测 标准选择,100+场景定制化测评方案,千万量级智能题库,基于特定领域的评测题自动 生成能力;实现“合规、能力、应用”多维度评测,灵活的定制化配置能力、交付形态 与部署方式。 2、全方位人工智能模型防御:内置50+防御及检测方法,实现覆盖多模态的人工智能30 积分 | 34 页 | 8.48 MB | 1 天前3
科大讯飞智慧农业业务介绍(30页 PPT)2014 年首次参加 IWSLT 国际口语机器翻译评测比赛获得第一; 2018 及 2021 IWSLT 第一名; 2021 年 8 月, IWSLT 比赛,科大讯飞与中科大语 音及语 言信息处理国家工程实验室团队在同声传译任务中包揽三个赛道的冠军) 机器口语评测技术( 2008 年中文口语评测首次达到人类专家水平, 2012 年英文口语评测首次达到人类专家水平) 声音定位与检测技术( DCASE 第一名) 机器阅读理解技术( 2021 年, XTREME 中刷新世界纪录) 作文自动评阅技术( 2018 Chinese Grammatical Error Diagnosis 第一名) 语义评测技术( 2019 Math Question Answering 第一名) 知识图谱技术技术( 2022 年 2 月,科大讯飞以第一名的成绩登顶世界顶级人工智能挑战赛 Open Graph Benchmark 2018 IDRiD 眼底图分析竞赛 MA 分割任务 第一名) 图像语义分割( 2017 首次参加国际自动驾驶领域权威评测集 Cityscapes 获得第一 , 2018 及 2021 再获第一名) 手势识别( 2020 The 20BN-Jester Dataset 手势识别评测第一名) 科大讯飞掌握国际先进的智能语音和人工智能技术 2018 年 -2023 年,科大讯飞共夺得61 项国际人工智能大赛冠军20 积分 | 30 页 | 9.26 MB | 1 天前3
大模型技术深度赋能保险行业白皮书151页(2024)旨在为保险行业的智 能化转型提供技术参考和实践建议。 白皮书基于阳光保险的大模型落地实践经验,深入剖析了大模型技术在保险行业的落 地应用路线。我们详细阐述了数据准备、模型精调、工程化适配、模型评测等关键环节的技 术要点和注意事项,为行业同仁提供理论指导和操作建议。除此之外,成功的落地应用需要 保险公司和科技公司紧密合作,共同构建开放、共享、协同的创新生态。这些内容为保险行 业探索大模型技术的应用提供了宝贵的经验和启示。 · · · · · · · 17 3.2 保险垂直领域大模型构建及评测· · · · · · · · · · · · · · · · · · · · 52 3.2.1 保险垂直领域模型构建· · · · · · · · · · · · · · · · · · · · · · · · 52 3.2.2 保险垂直领域大模型评测体系· · · · · · · · · · · · · · · · · · 53 图4 S-Eval评测体系架构图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 59 图5 S-Eval评测方法示意图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 60 图6 S-Eval评测层级· · · · · · ·20 积分 | 151 页 | 15.03 MB | 1 天前3
AI大模型人工智能行业大模型SaaS平台设计方案2.1 模型训练模块.............................................................................50 3.2.2 模型评测模块.............................................................................52 3.2.3 API 集成模块.. 可靠的基础设施。 3.2.2 模型评测模块 模型评测模块是人工智能行业大模型 SaaS 平台的重要组成部 分,它的主要目的是对所训练的模型进行客观、系统的性能评估, 以便为用户提供充分的信息,帮助他们选择合适的模型并制定后续 的优化策略。该模块应具备多维度的评测指标体系,并支持灵活的 评测方式,确保用户获得的评测结果具有良好的可信度和解释性。 功能设计上,模型评测模块应包括以下几个核心功能: 1. 自动化评测:用户上传模型后,系统可依据预先设定的评测标 准,自动进行评测。评测内容可以是数据集分割、模型推理、 结果分析等。 2. 多指标评估:根据不同模型的特性和应用场景,评测模块应支 持多种评估指标,包括但不限于: o 精确度(Accuracy) o 召回率(Recall) o F1-score o ROC 曲线与 AUC(Area Under Curve) o 训练时间与推理时间50 积分 | 177 页 | 391.26 KB | 5 月前3
AICP-智能客服解决方案(74页PPT)天津联通智能客服项目综合 AI 感知和认知全方面技术,包括语音识别 / 合成、自然语言理解、知识库、用户画像 等 » 》 百度智能客服实施案例 —— 某运营商案 例 智能交互准确率 第三方用户评测对比效果 4 个月上线,赶超竞品,智能交互准确率稳定在 90% 理解能力 用户表述自然度 竞品 分流量上线:依据测试流量, 持续开展模型迭代和数据标 注 • 多样性评测:双方基于功能、 效果和体验分阶段开展评测 和优化 • 持续运营监控:监控产品和 业务运营效果,持续配合上 线过渡期运营 业务 梳理 产品 建设 接口 建设 模型 迭代 数据 标注 系统 部署 产品 评测 运营 监控 通过众多智能客服项目沉淀建设方 法论 产品监控 运营情况监控 存量数据的标注 增量数据的标注 私有化部署方案 代码安全部署方 案 客户核心系统集 成方案 智能多轮对话 智能运营管理平 台 智能知识平台 功能评测内容 效果评测内容 体验评测内容 项 目 产 品20 积分 | 73 页 | 8.46 MB | 1 天前3
人机对话技术及动态(57页PPT)• 赞助方 • 华为公司 中文人机对话技术评测 (SMP-ECDT III) 11 SMP ECDT III 委员 会 • 主席 • 张伟男 • 哈尔滨工业大学 • 委员 • 陈志刚,科大讯飞 • 车万翔,哈尔滨工业大学 • 张轶博,华为 • 黄民烈,清华大学 12 SMP-ECDT III • (深度)自然语言理解评测 • 领域 - 意图 - 语义槽 • 例如:“我想订上海飞往北京的航班” 例如:“我想订上海飞往北京的航班” • 评测指标: • Sentence ACC • 领域、意图识别和语义槽填充全做对! • 特点(难点) • 符合任务型对话的真实应用场景 • 多领域性、多意图性 http://conference.cipsc.org.cn/smp2019/evaluation.html 13 任务一结果排名( 2019.07.15 ) SMP-ECDT III III • 个性化对话生成评测 • 给定特定用户属性,生成符 合 该属性的个性化对话回复 • 特点 • 百万级数据集 • 客观 + 主观评价 • BLEU 、 Perplexity 、 Distinct • Fluency 、 Personality 、 Appropriateness http://conference.cipsc.org.cn/smp2019/evaluation20 积分 | 56 页 | 4.34 MB | 1 天前3
人形机器人标准化白皮书(2024版)-全国机器人标准化技术委员会间的差距,优化控制策略。构建的基准测试和评估指标具有明确的难 度分级,能够满足不同领域和层次的研究需求。基于人形机器人的研 究进展,仿真测试在国内外都还处于起步阶段,整体上对仿真测试在 平台、建模、数据集和场景等方面缺乏规范化的评测体系。 2.2.9 操作系统 传统机器人的操作系统侧重于控制机械或自动化设备,仅关注运 动控制和任务执行。然而面向人形机器人的操作系统需处理十分复杂 的运动协调、人机交互、环境感知等任务。因此,为了使人形机器人 53 他关于 RACA 机器人、背部支撑机器人、下肢穿戴机器人的标准如 ISO 5363:2024、ISO 18646-4:2021、ISO 18646-6 等也可为人形机器人性 能要求与评价评测标准提供参考。ISO 19649:2017 定义了移动机器人 相关术语,可为未来制定人形机器人术语定义标准提供参考。 IEEE 所发布的机器人本体论方面标准如 IEEE 1872-2015、IEEE 部件(和)MPU 等,侧重于制定通用技术要求、兼容和互联互通规范、 测试认证与性能评测标准、安全和伦理标准等。 人形机器人软件提供方为人形机器人的系统和软件开发提供核心 技术支持,包括开发操作系统、应用软件、AI 模型和算法,确保系统 的可操作性、安全性与可靠性。侧重制定通用技术要求、兼容和互联 互通规范、测试认证与性能评测标准、安全和伦理标准等。 人形机器人制造商(整机)确保产品质量与安全,同时需遵循相10 积分 | 89 页 | 3.98 MB | 5 月前3
新华网&腾讯云:2025年国产数字化升级标杆实践报告18 国产数字化升级标杆实践报告 - 18 国产数字化升级标杆实践报告 腾讯云 TI 平台是覆盖大模型和传统 Al 的一站式机器学习平台,为客户提供从数据准备、模型精调、效果评测到模型部署的全流程工 具链,帮助用户以更高效率精调并部署真正可用的大模型。同时,腾讯云 TI 平台还为客户提供面向异构算力的集约管理能力,能帮 助用户全面管理、精细调度、高效运维国产算力,加速各行业数字化转型。 产品架构 大模型广场 快速试一试 一键部署大模型,快速体验推理效果 一键精调 预置镜像和模型,一键启动精调训练 数据 训练 调试 部署 应用 模型评测 模型部署 训练工坊 数据中心 三阶段评测 轻量体验,客观评 测,主观评测 多模型对比 支持雷达图可 视化 内置推理加速 Angel推理框架加 速,加速比可达2倍 大模型调用 统一的调用API及 体验工具 分布式稳定训练 持画布式灵活编排工作流,可快速将企业系统 API 接入智能体,智能体输出更稳定可控。 全面的智能体开发框架 提供 LLM+RAG 、Multi-agent、Workflow 等多种智能体开发框架,支持智能体配置 - 评测 - 发布 - 调优一站式工具链,助力企业降低 智能体构建门槛。 丰富的智能体开发资源库 预置精选官方插件及 MCP 插件,支持含智能文档解析、多轮改写、embedding 等多项原子能力灵活接入,提供20 积分 | 45 页 | 20.65 MB | 1 天前3
电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域......... 5 图 4 :产品增长 1 亿用户所需时间 ....................................................... 5 图 5 :主要模型评测 ................................................................... 7 图 6 :主要模型 API 定价 ........... 请务必阅读末页声明。 1. DeepSeek 推动模型平权,关注 AI 终端及算力领域 DeepSeek 以更低成本提供对标 o1 模型。2024 年 12 月,DeepSeek V3 首个版本上线,在 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并在性能上和 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲,训练成本仅约为 558 万美元。1 tokens 输入为 0.1 美元,每百万 tokens 输出为 0.4 美元,相较于 DeepSeek R1 具备较强竞争力。 电子行业深度报告 7 请务必阅读末页声明。 图 5:主要模型评测 图 6:主要模型 API 定价 数据来源:artificialanalysis.ai,东莞证券研究所 数据来源:artificialanalysis.ai,东莞证券研究所 2 月 18 日,马斯克旗下的10 积分 | 23 页 | 2.65 MB | 6 月前3
共 45 条
- 1
- 2
- 3
- 4
- 5
