合成 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

从DeepSeek探讨大语言模型在建筑及能源行业的应用趋势和技术方法

研究三：基于微调大语言模型的系统故障检测与诊断：模型微调 45/80 评估微调后模型能力，利用数据增强合成新的训练数据，对模型偏弱的能力进行针对性提升。测试微调后模型能力模型持续微调新模型 dem e66 模型微调模型微调数据集利用数据增强算法合成新的数据 Normal Fault 1 .. 检测诊断精度生成额外的微调训练数据量的平均值和标准差归一化归一化研究三：基于微调大语言模型的系统故障检测与诊断：模型微调 46/80 基于诊断准确率自适应调整每类样本需新增的提示量，并基于 SMOTE 算法合成新样本 ·Nadd 为第 i 个类生成的额外微调对话的数量 · N₃ 故障类和无故障类的数量 ·Ntotal 原始微调数据集中的对话数 · r 类的诊断准确率口基于已有检测与诊断提示数据样本，利用 SMOTE 算法，合成每类别提示对应数量的新的提示样本。一段时间内征兆变量的平口根据评估结果对诊断准确率较低的故障类别按照比例生成额外提示，以提高训第一段提示中的数据样本第二段提示中的数据样本第 n 段提示中的数据样本合成样本序号题目年份期刊 1 Generative pre-trained

10 积分 | 78 页 | 33.88 MB | 9 月前
3
大模型技术深度赋能保险行业白皮书151页（2024）

现，正式拉开了“百模大战”的序幕。这一年标志着大模型技术的飞跃式发展，行业格局与趋势瞬息万变，整个领域经历了前所未有的百花齐放与创新浪潮。大模型技术在数据积累、算力支撑、模型精进及应用拓展四大维度上，均实现了显著突破。合成数据的应用，有效克服了现实世界数据在获取难度、规模限制及多样性不足等方面的挑战；图形处理单元（GPU）和张量处理单元（TPU）等高性能计算硬件的飞速发展，为算力提升提供了强有力的保障；多模态集、企业自有数据以及AI 合成数据。大模型训练和微调所需数据量快速增长，真实世界数据将在数年内被用尽。研究机构Epoch估计，机器学习可能会在2026年前耗尽所有“高质量语言数据”。据Gartner 预测，2024年用于训练AI的数据中有60%将是合成数据。以Meta今年7月发布的 LLaMA3.1模型为例，监督微调环节的数据里有相当比例是合成数据，使用合成数据确实带来了模型效果的提升。带来了模型效果的提升。（1）合成数据成有力补充高质量的真实数据已逐渐无法满足大模型训练与精细微调的需要，这促使合成数据作为真实数据的重要补充，在人工智能领域扮演着日益关键的角色。合成数据作为算法、生成模型及模拟技术的产物，能够模仿现实世界数据的特征与模式，为大模型的训练与优化提供丰富的数据资源。以AlphaGeometry项目为例，该项目通过生成高达一亿个精准合成的数据点，为解决复杂几何

20 积分 | 151 页 | 15.03 MB | 3 月前
3
基于大模型的具身智能系统综述

粒介质、刚性盒子和布料在内的多种真实世界可变形物体的预测和操控任务中表现出色. 神经辐射场 (Neural radiance field, NeRF)[106] 是一种用于 3D 场景表示和视图合成的深度学习方法, 通过深度神经网络对场景的连续体积密度和颜色进行建模, 能够从任意视角渲染出高质量的图像. 在文献 [107] 中研究人员提出了蒸馏特征场 (Dis- tilled feature [112] 则将语义带入了 3D 高斯 SLAM 领域, 通过将语义特征嵌入 3D 高斯, 实现了准确的 3D 语义映射与高精度的重建, 并在多个数据集中进行测试, 在映射、跟踪、语义分割和新视角合成方面展示出了优于现有的基于 NeRF 的 SLAM 方法的性能. Splat-MOVER[89] 成功地将 3D 高斯应用到具身智能的场景表示中. 该方法通过可编辑的 3D 高斯场景表示实现多阶段、开放词汇的机器人操作提出一种基于扩散模型的图像生成方法, 可以从单个物体的 RGB 图像出发合成人类手与该物体交互的合理图像, 并从中直接提取出可行的 3D 手部姿态. 作者构建了一个两阶段生成模型: 首先使用 LayoutNet 生成与关节结构无关的手−物体交互布局, 在 LayoutNet 预测出布局之后, ContentNet 负责根据预测的布局和物体图像合成手−物体交互的图像. 这一步骤考虑了手部外观的多样性, 如形状、手指关节和肤色等

20 积分 | 19 页 | 10.74 MB | 3 月前
3
AIGC生成式AI大模型医疗场景应用可行性研究报告(152页 WROD)

身的生成能力和准确性。例如，在医疗场景中，模型可以分析大量的病例数据，学习如何识别疾病特征，进而生成相应的医疗建议或治疗方案。其次，AI 生成式大模型具备高度的灵活性和适应性。无论是在文本生成、图像生成还是在语音合成等方面，这些模型都能够在不同的应用场景中进行调整，以满足特定需求。在医疗应用中，医生可以通过模型生成个性化的治疗方案，结合患者的具体情况与历史病历，提供定制化的医疗服务。另外，生成式习模型。与判别式模型不同，生成式模型不仅关注于数据的标签，而是试图建模数据的生成过程。这些模型能够捕捉到输入数据的结构和特性，进而生成具有相似特征的新样本。在医疗领域，生成式模型的应用前景广阔，包括图像生成、数据增强、合成病例生成等。生成式模型的核心在于其能够生成新的数据样本，而不仅仅是进行分类或回归预测。其工作原理通常基于概率分布的学习，通过对大量样本的分析，生成符合该样本分布的新样本。常见的生成式实际临床价值的新图像。 2. 数据增强能力：通过生成样本，解决数据不足的问题，尤其在医疗数据稀缺的情况下，生成式模型可以创造合成数据提高模型的训练效果。 3. 隐私保护：在医疗领域，患者数据的隐私性至关重要。生成式模型可以生成不包含真实患者信息的合成数据，帮助提升研究和开发能力，同时保护患者隐私。 4. 多样化输出：生成式模型能够提供多样性的输出，使得生成结果具有广泛适用性，满足不同患者的个性化需求。

60 积分 | 159 页 | 212.70 KB | 7 月前
3
实现自主智能供应链：2035年企业竞争的新高地

个领域）的数据至关重要。例如，物联网传感器提供实时数据，而数字孪生则通过模拟各种场景来优化工作流程、降低风险，并最大限度地减少停机时间。这种转变将推动供应链从被动响应转向主动预测。未来，AI甚至可以为企业生成合成数据，例如，训练模型为目标成本核算构建成本基准数据库。若没有通过“数字核心”实现数据集成，企业将难以从自主智�供应链的实施中获取价值。实现自主智能供应链 24 企业必须升级其遗留系统，并构建一个由智

0 积分 | 28 页 | 2.74 MB | 6 月前
3
审计领域接入DeepSeek AI大模型构建Agent智能体提效设计方案（204页 WORD）

成本节约分析在审计领域引入 DeepSeek 构建智能体后，成本节约主要体现在人力效率提升、错误率降低以及流程自动化三个方面。通过量化分析，预计在典型审计项目中可实现 20%-35%的综合成本节约，具体表现如下：人力成本方面，智能体可替代约 40%的重复性工作。以年审计项目量 2000 小时的中型事务所为例，传统模式下基础审计程序（如凭证抽样、数据核对）需投入 800 小时/年，按审计助理平均审计团队可能因技能断层导致人机协作效率下降。调研显示，62% 的传统审计师对 AI 工具存在操作焦虑。成本风险初期部署可能导致 ROI 周期延长。某试点项目数据显示，智能体前 6 个月的综合成本比传统审计高 23%，主要来自 GPU 集群租赁费用。 1. 弹性资源配置：按审计忙闲周期动态调整计算资源，旺季采用混合云架构扩容，淡季保留 10%的基础容量。 2. 价值锚定机制：建立成本分摊模型，将智能体节省的工时直接洗工具开发占 25% - 三年期 ROI 测算：通过自动化节省 3000 人工小时/年，错误率降低 40%可覆盖成本实施过程中需重点关注技术-业务双轨制管理，由审计部门与 AI 团队联合成立 PMO 办公室，每周同步进度并解决跨部门问题。对于关键风险点（如监管合规），建议引入第三方认证机构进行合规性评估。 9.2.1 团队协作问题在实施 DeepSeek 智能体的过程中，团队协作问题可能成为关

10 积分 | 212 页 | 1.52 MB | 3 月前
3
2025年智算服务案例集-全球计算联盟

复科普问题，智能推送复诊挂号入口，并通过持续随访为普外科肝癌术后症状管理、心血管内科难治性高血压等项目的临床研究进行院外数据收集。技术创新层面， “智医随行”大模型突破传统医疗应用局限，通过超高自然度语音合成、专科话术模拟及方言自适应理解，实现高度拟人化医患交互；依托多意图理解和动态问题规划能力提供精准的专科诊疗建议，并基于患者健康画像开展个性化的健康教育与风险预警，推动患

10 积分 | 28 页 | 2.59 MB | 1 月前
3
2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告

远端对象存储中，QAT 的超高压缩解压性能，使磁盘中的压缩数据解压缩到内存并传输到显存中的延迟大大降低，提高用户体验的同时，节约了大量的 GPU 算力，实现了以存代算的总体设计模式。另外，在很多领域，综合成本和效果两方面因素，LLM 常通过参数压缩量化、蒸馏等技术推动模型轻量化部署，尤其是 14B 参数以下的模型推理速度快，微调也更加方便，在很多中小企业或特定垂直行业部署广泛。针对此类需求，英特尔

10 积分 | 27 页 | 5.31 MB | 6 月前
3
AI知识库数据处理及AI大模型训练设计方案(204页 WORD)

数据清洗与预处理的最后一步是数据分割。通常将数据集划分为训练集、验证集和测试集，比例可为 7:2:1，以确保模型训练、调参和评估的独立性。为增强模型的泛化能力，还可采用数据增强技术，如文本数据的同义词替换、数据合成等。以下是一个数据清洗与预处理的示例流程： 1. 原始数据加载与检查 2. 缺失值处理：删除或填充 3. 去重：确保数据唯一性 4. 异常值检测与修正 5. 策略。对于类别不平衡的数据集，通常会采用过采样或欠采样技术。过采样技术如 SMOTE（Synthetic Minority Over-sampling Technique）通过生成少数类样本的合成样本来平衡数据集；欠采样则通过随机移除多数类样本来减少类别间的不平衡。在实际操作中，可以通过以下步骤实施： 1. 数据预处理：首先对原始数据进行清洗和标准化处理，确保数据质量。 2. 起止时间：2023 年 11 月 16 日 - 2023 年 12 月 15 日数据标注团队将对预处理后的数据进行手动或半自动标注，以提高数据的质量和可用性。同时，采用数据增强技术（如数据合成、噪声添加等）扩充数据集规模。 4. 模型设计与训练阶段起止时间：2023 年 12 月 16 日 - 2024 年 2 月 15 日该阶段包括模型架构设计、超参数调优及模型训练。团队将使

60 积分 | 220 页 | 760.93 KB | 7 月前
3
信息服务-AI Agent（智能体）：从技术概念到场景落地

增加了性能元素，这些人工智能 Agent 的实体通常配备有摄像头或触摸传感器等传感器。这种 Agent 在危险或重复性很高的任务中尤其有用--让人工智能 Agent 来完成这些任务可能更有效率，也更符合成本效益。生产线机器人、手术机器人、农业机器人、服务机器人多 Agent 系统每个 Agent 都是半自主运行的，但其设计目的是与其他 Agent 互动，形成一个动态的生态系统，从个体行为中产

10 积分 | 33 页 | 4.71 MB | 3 月前
3

共 11 条前往

页

分类

语言

格式