AI大模型时代下的网络安全建设方案(37页 PPT)主机钓鱼检测 辅助驾驶 零信任平台 数据安全平台 检测类大模型 运营类大模型 其他类大模型 …… 检测大模型 模型 安全 GPT 检测大模型 数据 流量日志 代码 溯源报告 恶意样本 安全知识 情报 公开漏洞 IOA 日志 代码理解能力 <%@page import=” <%@page import=”java ... 安全常识理解能力 Shell 俗称壳(用来区别于核), 88 98.55 利用大模型重做 Web 安全检测: • 仅百亿级参数大模型,训练两周, 效果超越持续优化 4 年的语义分析引擎 • 12 类无样本攻击类型, 其中 9 类超越了现有语义分析引擎 • 5000w+ 实际流量样本测试,大模型优化后呈现高检出、低误报特性 【题目示例】请问以下流量是否恶意: GET /easportal/tools/appUtil.jsp?EAS_ 月共收录了 35 个漏洞。 厂商样本互测 背景:深信服和某 SOC 厂商各出 40 个样本互测 操作步骤:将深信服样本在某 SOC 进行回放, 将 SOC 厂商样本 在 深信服安全 GPT 进行回放 结果: 1 ) SOC 平台回放深信服 40 个样本, 检出 5 个, SOC 平台检 出率 12.5% 2 ) 安全 GPT 回放 SOC 厂商 40 个样本, 检出 38 个, 安全20 积分 | 37 页 | 7.79 MB | 3 月前3
智能风控典藏版合集(377页)模型的开发和构建。企业模型解释在优化模型的期间,是一个优化 模型的一个非常重要的手段。在实际的模型构建的过程中,这种 bad case 分析寻找模型优化方向还是一个比较困难的问题,如果模型可 解释,可以对出错的样本采取针对性的措施对模型进行优化。 我们的模型试运行上线期间。模型的可解释性能够提升模型的可信 度,同时有利于业务的推广。 模型推广期间,模型预测真正人融入到具体的业务环节流程之中。 来的信息量。第三 个特征重要性,特征重要性很大程度上就可以解释模型预测的一个 判断依据。 局部的解释方法(对这个单条的预测进行解释):第一个 LIME,它 本质上是用线性模型在一个局部的样本空间上进行一个模拟。第二 个 DeepLIFT,计算每个特征值的一个基准值,然后计算某个特征取 值相对于基准值的变动对于预测结果带来的一个提升和影响。第三 个 Shap,它本质上是基于博弈论的一种计算方法,计算也是计算特 点周围特征空间中的局部次区域,并尝试基该局部及区域去理解该点的模 型决策。简单理解为它是解释单个预测样本。以 ppt 中的红叉对应的样本 点为例,在选取的样本点的附近选取一定数量的样本点,利用这些样本点 重新训练一个简单的模型,如线性模型,然后利用这种解释性较好的方法 来解释预测样本。 4. 模型解释性方法-shap DataFunTalk 成就百万数据科学家! 13 修改方法中20 积分 | 377 页 | 30.66 MB | 3 月前3
Deepseek+机器人,化工的时代大考100 万倍的 模拟加速,并将误差减少了 10 倍以上。 3.小样本强化学习:在有限的实验次数、原材料等条件下,AI 通过机器强化学习以及推理, 使得能够在少量实验数据的基础上,快速学习到如何调整配方和条件以提高反应效率。比如 Wen 等在 Al-Co-Cr-Cu-Fe-Ni 系统中搜索高硬度的 HEAs 时,仅用 155 个初始样本,经 7 轮 主动学习迭代,就获得了硬度提升显著的合金。 4. ........................ 6 1.2 分子动力学加速 ............................................. 10 1.3 小样本强化学习 ............................................. 11 1.4 高通量机器人验证:大幅提升新产品的研发速度 ................ ............................... 11 图表 9: 材料科学中机器学习的发展趋势和小数据集 ....................... 12 图表 10: 小样本学习方法及相关案例 .................................... 13 图表 11: 基于 RL 的拓扑优化可以根据特定应用需求预测改进的超材料设计 ... 14 图表10 积分 | 30 页 | 2.63 MB | 9 月前3
DeepSeek资产配置进阶实践的20个核心问答XGBoost 对历史股债 市场数据(如宏观经济指标、资金流向等)进行特征重要性分析,量化各因子对" 股债强弱走势"的解释能力,筛选出具有长期稳定性的高价值因子;然后将这些因 子重要性结果作为训练样本输入 DeepSeek 模型,使其学习因子与市场状态的关联 模式;最后结合当前市场环境,AI 基于历史规律生成初始权重框架,再通过动态 赋权机制进行实时调整。这种方法的优势在于既保留了传统模型的逻辑可解释性, 资料来源:Wind,国信证券经济研究所整理 问题 2:DeepSeek 训练所用的数据样本量(时间跨度,如 3 年/5 年/更长)大概 是多少?多大的训练样本或特定的训练方式可能导致过度拟合?是否有相关经 验? 关于数据样本量的问题,本项目训练 DeepSeek 所使用的数据样本从 2015 年 9 月开始,数据频率为月度。首先是分析师底稿数据从该时间开始较为完备,这保 证了样本数据的一致性和可用性;其次,近 10 年的跨度基本覆盖了完整的宏观经 态优化”展开,既保留了传统模型的逻辑可解释性,又通过 AI 的实时学习能力适 应市场状态变化,最终在测试周期内实现风险收益比的显著提升。 问题 5:财务造假样本的行业分布不均是否导致模型对低风险行业的误判?是 否需要引入行业分层采样优化训练集? 财务造假样本的行业分布不均(如通讯服务行业占比 19.4%而金融、公用事业不 请务必阅读正文之后的免责声明及其项下所有内容 证券研究报告 6 足 8.510 积分 | 16 页 | 644.10 KB | 3 月前3
未来网络发展大会:算力城域网白皮书(2025版)力,全面提升整网的有效吞吐量,打造高运力网络,为数据高效传送 提供坚实基础。同时,网络需要具备高度的弹性与敏捷性,基于任务 式服务为企业按需提供弹性带宽,满足短时间内大批量数据传输的需 求。 总之,海量样本的快速入算服务对算力城域网的需求是:实现 TB/PB 级数据的弹性带宽服务,时间可承诺(分钟达、小时达、天级 达);业务分钟级开通,任务式服务。 3.2.2.存算分离拉远训练需求 数据安全要 场景中,这些企事业单位对样本数据有严格的安全标准,明确要求核 心数据存储在其所在园区或单位内。这些企事业单位在坚持数据本地 化存储原则的同时,还需要确保数据在模型训练过程中不被泄露。因 算力城域网白皮书(2025 版) 9 此,算力资源节点与样本数据存储节点需要跨广域部署,并且在模型 训练时需要保持频繁的实时交互,以分批拉取所需的样本数据。 在此场景下,由于样本数据传输采用对时延、丢包高度敏感的 高度敏感的 RDMA 协议,网络除了要具备高弹性、高吞吐能力外,还需要具备 RDMA 无损传输能力,以确保模型训练的高效性和稳定性。此外, 网络还需要部署强健的数据加密机制,保障样本数据传输的安全性。 综上,存算分离拉远训练服务对算力城域网的需求是:实现用户 私域存储到 AIDC 之间 100km-500km 的高效拉远训练,数据广域无 损传输保障算效下降小于 5%;支持拉远训练过程中的数据安全隔离20 积分 | 42 页 | 7.16 MB | 3 月前3
DeepSeek智慧政务数字政府AI大模型微调设计方案调方案将从以下几个方面进行改进: 1. 模板化生成机制:为不同类型的政务文本(如公文、报告、通 知)构建标准化的生成模板,确保生成内容符合政务文本的格 式规范。 2. 数据驱动的生成优化:通过引入大量政务文本的生成样本,模 型将学习如何在生成过程中融入政务场景中的常见表达方式和 专业术语,避免生成内容出现不规范的表达。 3. 多轮对话与迭代生成:针对复杂的政务场景,模型将支持多轮 对话与迭代生成,确保生成内容能够逐步细化并满足用户需求。 规范化处理。数据清洗主要包括去除无关信息、修正错误数据、填 补缺失值等操作。规范化处理则涉及文本的统一编码、标准化术语 的使用以及数据格式的一致性。此外,为了提高模型的泛化能力, 还需对数据进行平衡处理,确保各类政务问题的样本分布均匀。 接下来,对清洗和规范化的数据进行标注。标注工作应由具备 政务知识背景的专业人员完成,确保标注的准确性和权威性。标注 内容包括但不限于问题类型、关键词、情感倾向、实体识别等,这 些标注信息将作为模型训练的重要特征。 结构化的数据集,从而提升政务大模型的性能和应用效果。 2.2.1 数据去重与噪声处理 在数据清洗与标注的过程中,数据去重与噪声处理是确保数据 质量的关键步骤。去重操作旨在消除数据集中的重复样本,避免模 型在训练过程中过度拟合重复信息,从而提高模型的泛化能力。噪 声处理则通过识别和移除异常值、错误数据或无关信息,确保输入 数据的准确性和一致性。 首先,数据去重可以通过哈希算法或相似度匹配实现。对于结0 积分 | 167 页 | 464.82 KB | 8 月前3
英特尔-工业人工智能白皮书2025年版.............................................................................38 2.3.2 基于视觉大模型的零样本或少样本异常检测 ............................................................................... 40 2.3.3 RAG 线维护/排产建议,大幅提升制造效率,降低运维 成本。 第三,识别/模拟/预测能力。 在工业质检环节,用大量数据训练视觉大模型 (CV), 使模型具备更强的场景泛化识别能力,可用于产品 质检,安全监测复判等流程,助力实现零样本或少 样本缺陷检测。 在生产制造环节之外,工业大模型的仿真与模拟能 力,亦可助力工业产品研发与设计环节。例如实时 仿真模型的建立与仿真环境的创建。 在预测方面,工业大模型助力由原先局部建模预测至 以电芯顶盖板焊接质量检测为例,在将电芯顶盖焊接到电池壳体的过程中,很容易出现爆点、焊坑、孔洞、断焊、 漏焊、翻边等缺陷,导致漏液、短路等安全风险。将 AI 技术与 3D 成像技术相结合,利用数据样本自适应扩充训练 技术,缩短模型训练时间,通过针对性的缺陷检测算法,提高了缺陷检测效率和准确率,降低了工人检测的过杀、 漏杀情况,实现缺陷检测无人化,降低人力成本。 消费电子产品的特征之一是快速0 积分 | 82 页 | 5.13 MB | 9 月前3
AI赋能新型电力系统建设月对外发布基于 MaaS ( 模型即服务 ) 架构的电力行 业人 工智能创新平台,依托南网数据优势和场景禀赋,对外提供高水平 AI 服务,带动行业智能化转型。为电力系 统各 领域业务场景提供典型样本集、模型管理、训练环境、业务场景落地等一站式人工智能服务。 电力人工智能场景云端服务 模型推理服务 模型训练服务 模型贡献、上传 人工智能平台—模型即服务 ( 基于 MAAS 框架 ) 模型管理 / 检索 模型下载 模型调优 / 训练 模型推理 模型部署 模型应用 典型开发框架 模型库 样本库 实训框架 文档 / 教程 开发者社区 简单可集成 全模态 高质量全领域 可在线 / 离线 AI 高效学习 贡献活跃 产业金融 金融放货智能评估 电费货智能评估 飞轮。建立“算法识别数据实时汇集→样本重标注→模型再训练”的模型自动更新迭代机制,实现模型应 用效果与样本数据质量的高效循环;对全网算法组件 " 应接尽接 ", 监控和管理全网算力、算法组件 ( 纳管 370 个推 理节点、 633 张推理卡、超 1200 个算法实例,日汇集数据 300 万条,调用 4.6 亿次 ), 支持端侧 Al 装 置算法适配和 语音等数据样本和识别结果;④通过评价、标注10 积分 | 30 页 | 15.88 MB | 9 月前3
AI在保险行业的发展和应用(32页 PPT)要根据实际业务场景来选择适合的模型 2 5 多场景数据标注 小样本模型训练 零代码应用编排 全方位智能评测 图像干扰 勾选、手写、背景、印章、打印偏移等 复杂关系 混合版式、表格结构化、多层级关系、勾选框提取、易混淆字段提取、无 Key 字段提 取 智能结构化 版式 5000+ 泛化准确率 90%+ 5 张样本训练准确率 95%+ 大规模多模态预训练 CV 信息、语义信息、 提供更高精度 角度感知文本检测 多角度、多方向、 任意文本形状 泛化准确率 98%+ 500 张样本训练准确率 99%+ 表单、回单、提单、票据、证件照、海运单据、保险许可证、托管对账单 等 检测识别 智能分拣 100+ 业务场 景 100 张样本训练准确率 99.5%+ 实验室数据仅供参考 2 6 产品能力 l 重点行业模型 l 对话:意图理解准确 多种数据接入与处理 l 腾讯云 TI 平台支持多种结构化 / 非结构化数据源及数据存储 的适配,支持配置结构化存储和非结构化存储。平台提供 场景化多种数据标注工具 ,解决用户个人快速小规模样本 试标及团队大规模数据标注的需求。 先进技术架构 l 容器化架构:微服务和容器化架构, 高可用、高弹性。 l 统一 API 网关:遵循腾讯云 API3.0 规范的标准开放方式。 TI-ONE10 积分 | 32 页 | 941.17 KB | 3 月前3
保险行业理赔业务基于DeepSeek AI大模型应用设计方案(281页 WORD)........................................................................................99 6.2.2 小样本学习优化............................................................................................... 的 错赔率从 0.7%降至 0.15%,同时保持 85%案件的自动通过率。 模型针对保险行业特别优化的训练体系包含: - 领域自适应预训练:在 1200GB 保险专业语料上持续训练 - 对抗样本训练:包含 8 类常见欺诈模式的对抗数据集 - 条款对齐微调:使用对比学习技术确保输出与保险条款的严格对 应 实时服务能力通过以下技术实现保障: | 指标 | 性能参数 | 2048 tokens 适配长文档处理需求 2. 多任务微调架构:针对理赔场景中的分类、实体识别、因果关 系推断等任务,设计分层损失函数。例如在欺诈检测任务中, 采用 Focal Loss 解决样本不平衡问题,公式设置为 FL( pt)=−αt (1− pt) γ log ( pt),其中α=0.25,γ=2。同步引入对抗训练 (Adversarial Training),通过在嵌入层添加扰动提升模型20 积分 | 295 页 | 1.87 MB | 3 月前3
共 117 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12
