pdf文档 智能风控典藏版合集(377页) VIP文档

30.66 MB 377 页 0 下载 4 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
DataFunTalk 成就百万数据科学家! 1 DataFunTalk 成就百万数据科学家! 5 目录 模型可解释性在保险理赔反欺诈中的实践......................................................7 图算法在网络黑产挖掘中的思考....................................................................21 联邦学习与安全多方计算................................................................................36 58 同城风控平台演进...................................................................................... 59 度小满金融大数据风控模型实践....................................................................70 Fraudar 算法在京东关系网络反欺诈中的应用...........................................85 携程金融自动化迭代反欺诈模型体系.........................................................100 微众银行在联邦推荐算法上的探索及应用.................................................113 机器学习中的隐私保护................................................................................. 144 关系图谱在贝壳找房风控体系的应用与实践.............................................162 新一代联邦学习技术及应用实战................................................................. 178 构建端到端的联邦学习 Pipeline 生产服务............................................. 212 风控建模流程:以京东群体感知项目为例.................................................244 信贷业务风控策略简介................................................................................. 266 机器学习在信贷风控建模中的优势和挑战.................................................280 度小满智能获客系统实践............................................................................. 297 金融风控反欺诈之图算法............................................................................. 307 机器学习在反欺诈中应用............................................................................. 324 混合、安全对抗下人工智能设计原则......................................................... 336 DataFunTalk 成就百万数据科学家! 6 自动化特征工程和自动建模在风控场景的应用.........................................349 爱奇艺流量反作弊的“术”与“道”......................................................... 366 DataFunTalk 成就百万数据科学家! 7 模型可解释性在保险理赔反欺诈中的实践 分 享 嘉 宾 : 张 洪 涛 编 辑 整 理 : 马 韶 光 出 品 平 台 : DataFunTalk 导读:真实的理赔产品中,绝大部分客户是就医或者患病诊断患病之后去 找保险公司进行申请理赔,但是其中有一小部分客户他会制造假的就医记 录或者带病投保到保险公司骗取保险金,怎么样保证正常投保客户能够正 常理赔的保险权益,同时避免骗保客户给公司带来的经济上的损失成为了 一个十分关键的问题。近几年,随着 AI 的蓬勃发展和数据的不断积累, 从算法技术来讲,很多行业在欺诈风险识别中表现出了非常优异的效果, 产生了一些非常好的价值。但由于算法本身属性的原因,模型的结果却难 以解释,但这在真实的业务场景中却非常关键。这次带来的分享内容,就 是我们在实际的保险理赔反欺诈场景中的一个模型,可解释性的一些探索 经验,希望能够给大家带来一些启发,或者一些其他的帮助。 DataFunTalk 成就百万数据科学家! 8 今天的介绍会围绕下面四点进行展开:  模型可解释的整体背景  目前学术界和工业界现有的一些模型解释方法,例子以及对应原理  模型可解释性在实际的场景中的一个具体的应用和实施方案  对模型可解释性的简单的展望 01 模型可解释性的整体背景 软件工程学上我们经常用到一个术语叫软件的生命周期,这里把它用在模 型上,按照模型的生命周期来看,将模型的可解释性总结为三个方面,或 者说三个不同时期的作用。 DataFunTalk 成就百万数据科学家! 9  模型的开发和构建。企业模型解释在优化模型的期间,是一个优化 模型的一个非常重要的手段。在实际的模型构建的过程中,这种 bad case 分析寻找模型优化方向还是一个比较困难的问题,如果模型可 解释,可以对出错的样本采取针对性的措施对模型进行优化。  我们的模型试运行上线期间。模型的可解释性能够提升模型的可信 度,同时有利于业务的推广。  模型推广期间,模型预测真正人融入到具体的业务环节流程之中。 之后,我们希望这个模型能够可以解释模型预测值的解释内容,能 够对后续的一些业务上的处理环节带来指导性的作用。 02 模型解释性方法 1. 模型解释性方法 DataFunTalk 成就百万数据科学家! 10  全 局 的 解 释 方 法 (全 局 就 是 我 们 考 察 更 偏 重 对 模 型 整 体 的 一 个 预 测 的解释):第一个特征权重,每个特征的权重代表着特征对预测结果 的一个影响程度,本质上其实这个权重系数就是一种显示性。第二 个信息增益,可以计算出某个特征对预测结果带来的信息量。第三 个特征重要性,特征重要性很大程度上就可以解释模型预测的一个 判断依据。  局部的解释方法(对这个单条的预测进行解释):第一个 LIME,它 本质上是用线性模型在一个局部的样本空间上进行一个模拟。第二 个 DeepLIFT,计算每个特征值的一个基准值,然后计算某个特征取 值相对于基准值的变动对于预测结果带来的一个提升和影响。第三 个 Shap,它本质上是基于博弈论的一种计算方法,计算也是计算特 征的贡献。 2. 模型解释性方法-特征重要性 DataFunTalk 成就百万数据科学家! 11 从定义上看,全局可解释性是指能够基于完整数据集上的预测结果和特征 之间的条件交互来解释和理解模型。简单地理解来,它就是他解释整个模 型的行为。举个常见的特征重要度的算法,是每个特征被引用的次数,对 次数的值进行一个排序,次数越多,排序越靠前,对应特征越重要,这样 就作为模型一种非常直观的解释方法。 3. 模型解释性方法-lime DataFunTalk 成就百万数据科学家! 12 lime 方 法其 实 是 非常 流 行 或者 非 常 常见 或 者 经常 被 大 家拿 过 来 讨论 的 一 种方法。它是一种局部解释方法,局部解释性专注于该数据点,并查看该 点周围特征空间中的局部次区域,并尝试基该局部及区域去理解该点的模 型决策。简单理解为它是解释单个预测样本。以 ppt 中的红叉对应的样本 点为例,在选取的样本点的附近选取一定数量的样本点,利用这些样本点 重新训练一个简单的模型,如线性模型,然后利用这种解释性较好的方法 来解释预测样本。 4. 模型解释性方法-shap DataFunTalk 成就百万数据科学家! 13 修改方法中将某一特征与其他所有特征子集进行博弈比较,计算其对于其 他特征子集对预测结果的影响。预测值和各个特征的贡献值之间存在着这 样的映射关系,预测的所有的贡献值求和,代入如上图所示方程式中,得 到对应的一个预测样本。其中红色代表对于预测结果具有最大的优先贡献, 蓝色的与之相反,对应的是负向的贡献,框的长度代表贡献的绝对值的大 小。 5. 模型解释性方法-选型 DataFunTalk 成就百万数据科学家! 14 实际的使用过程当中,还需要面对一个选择的问题。两个方面需要考虑:  解释方法的适用范围:在实际场景中,其实我们能希望某一种解释 方法与模型无关,或者说至少适用于实际的我们使用的模型算法。  解释方法的运行效率:在实际场景中,需要根据场景对运行效率的 要求做出适当的选择。对于那种实时服务的响应要求的服务,或者 多长时间之内必须要反馈结果,那么这个时候我们就需要考虑这个 方法的解释方法的一个运行效率。 综合以上因素考虑,Shap 方法具有一定的综合性优势。理赔反欺诈实践 中也采用了这样上的这样一种方法。 03 可解释性实践 DataFunTalk 成就百万数据科学家! 15 1. 可解释性实践-场景 保险理赔反欺诈的一个具体应用场景:  客户会向理赔系统提交理赔申请  理赔系统将理赔相关信息会传入反欺诈模型接口  接口根据理赔信息,一些基本的信息,以及在我们大数据系统中的 一些既往历史数据,然后进行整合,进行一个综合的模型预测。 遇到的两个问题  一个单纯的欺诈风险评分是不可解释的。  模型预测的结果对于调查建议的指导性不强。 2. 可解释性实践-方法 DataFunTalk 成就百万数据科学家! 16 针对上述问题,采用 shap 方法进行解决。对历史理赔欺诈案件特征值和 特征贡献的 shap 值进行了一下统计分析。由上述 ppt 中左边图看出,横 坐标代表某一个特征的取值,纵坐标的是特征的贡献值,图中的每一个点 代表是一个欺诈样本,我们通过这样一个热图可以发现从这张图上发现两 点内容,一个是特征与其欺诈评分或者欺诈程度是呈一个负相关的,因为 我们明显能看到大概有一个随着特征值的增加,有一个递减的这样一个过 程,第二个特征特征值在取值在小于 1000800 附近,这个地方就是它的 热度是最高的,说明在附近欺诈案件是非常高发的,因为这个颜色是最重 的,欺诈样本的密度也最高。从右图中可以看出特征与欺诈程度没有明显 的相关性,但在特征值在取值在 5000 附近的时候,欺诈案件是非常高发 的。这两个规律可以反馈给我们的业务人员去使用,或者是做一些启发性 的东西,方便他们进行后续的使用。 DataFunTalk 成就百万数据科学家! 17 除了一维特征,也可以和业务人员共同进行各个特征交叉情况下对多维特 征进行 shap 值分析。举个简单例子,上述图中是两个类别特征的交叉分 析,其中,每个特征都只有 0,1 取值。从图中可以看到,两个特征变量 都取 1 时欺诈风险较高。我们可以将分析结果我们会反馈给我们的理赔作 业人员,有由于作业人员来根据实际的工作经进行一个验证,然后去整理 出具体的书面的表达话术。另一方面这个时候我们的理赔作业人员也有可 能会自发地去总结一些他自身的经验,然后通过这样一个反馈给我们的算 法工程师,不断的循环往复,从而得到更丰富的欺诈经验。 3. 可解释性实践-应用 DataFunTalk 成就百万数据科学家! 18 我们可以从上面看这个例子,最上面的表格是我们理赔反欺诈模型考察理 赔申请的所有特征,在特征输入模型还有上和值分析的之后,会得到第二 行这样一个结果,通过 shap 分析和风险评估预测会得到我们的欺诈值期 价值显示是 0.85,代表被欺诈的风险是 0.85,然后同时通过 shap 方法计 算出所有的特征的贡献值。然后我们拿到计算结果之后,会做一定程度的 筛选。 根据业务规则,筛选出欺诈值较高风险的样本,筛选出来之后,我们再去 筛选它的特征,根据贡献值去做,筛选出具有对特征值具有正向贡献的几 个特征值,然后拿到这几个特征及其特征取值进行检索。右边这张图是根 据分析做出来的经验规则,比如说最简单的开始,可能从一味的去考虑特 征一小于某一个数的时候,它可能就是一种欺诈的迹象。这个时候我们的 理赔作业人员总结出来,这样一个经验和话术就会显示在这里,然后扩充 DataFunTalk 成就百万数据科学家! 19 到二维,比如特征一小于 Y 特征 M 大 P 或者说其他更高维,特征一小于 X 特征二小 P…特征 N 等于 R 的时候,这样的话也有对应的一个话术显示, 通过这样一步的检索过程,就是我们把这些能够碰撞上的规则以及经验显 示到给我们前端从作业人员做参考,指导他们进行后续的业务开展。 04 可解释性展望 简单展望:  图技术:图这种数据结构的话,它具有比较天然的可解释性的优势, 比如说它有自己的实体,有自己的属性,实体属性之间它有相互的 之间的一个关系。当然这两种技术的话可能是差别比较大,找到这 DataFunTalk 成就百万数据科学家! 20 样一种桥梁,能够让他们两个联合起来,或者说一种方式能够相互 配合起来,也是一个比较困难的事情。  模型蒸馏:模型蒸馏也是被广泛采用模型整理的一个整体思路就是 用一个结构简单的模型在保证准确率下降不是太大,或者说在我们 一个可接受的范围之内去尽量的去简化这模型,把这个模型变得更 简单,因为我们更加简单的模型的话,其实它是更容易去解释的, 同时也提高了运行效率。  领域知识:在短期内与领域专家和领域的领域知识相结合,设计一 套比较可行的落地方案,仍然是一种比较有效的选择。我们能够用 这种方式快速落地,快速的实现模型可解释性。 今天的分享就到这里,谢谢大家。 DataFunTalk 成就百万数据科学家! 21 图算法在网络黑产挖掘中的思考 ​ 分 享 嘉 宾 : Harry 高 级 研 究 员 编 辑 整 理 : 蔡 鑫 隆 出 品 平 台 : DataFunTalk 导读:虚拟网络中存在部分黑产用户,这部分用户通过违法犯罪等不正当的方式 去谋取利益。作为恶意内容生产的源头,管控相关黑产用户可以保障各业务健康 平稳运行。当前工业界与学术界的许多组织通常采用树形模型、社区划分等方式 挖掘黑产用户,但树形模型、社区划分的方式存在一定短板,为了更好地挖掘黑 产用户,我们通过图表征学习与聚类相结合的方式进行挖掘。本文将为大家介绍 图算法在网络黑产挖掘中的思考与应用,主要介绍:  图算法设计的背景及目标  图算法 GraphSAGE 落地及优化  孤立点&异质性  总结思考 01 图算法设计的背景及目标 1. 图算法设计的背景 在虚拟网络中存在部分的黑产用户,这部分用户通过违法犯罪等不正当的方式去 谋取利益,比如招嫖、色情宣传、赌博宣传的行为,更有甚者,如毒品、枪支贩 DataFunTalk 成就百万数据科学家! 22 卖等严重的犯罪行为。当前工业界与学术界的许多组织推出了基于图像文字等内 容方面的 API 以及解决方案。而本次主题则是介绍基于账号层面上的解决方法, 为什么需要在账号层面对网络黑产的账号进行挖掘呢? 原因主要有三: ① 恶意账号是网络黑产的源头,在账号层面对网络黑产的账号进行挖掘可以对黑 产的源头进行精准地打击; ② 账号行为对抗门槛高,用户的行为习惯以及关系网络是很难在短期内作出改变 的,而针对单一的黑产内容可以通过多种方式避免被现有的算法所感知,虽然黑 产用户可能不懂算法,但其可以通过“接地气”的方式来干扰算法模型,譬如在 图片上进行简单的涂抹,在敏感处打上马赛克,在图片处加上黑框,通过简单的 对抗手段会对基于黑产内容的算法产生较大的影响; ③ 可以防范于未然,通过账号层面的关联提前圈定可疑账号,在其进行违法犯罪 行为之前对账号进行相应的处理以及管控。 DataFunTalk 成就百万数据科学家! 23 具体通过什么方式挖掘黑产账号? 首先,简单介绍下在推荐场景中应用。比如广告推荐,通常上,广告商会给予平 台方用户的用户标签,用户存在用户标签之后,平台方则会将相关类别的用户找 出,然后将广告推送给对应的用户;另一种方式是广告方提供种子包给平台方, 平台方会找到相似的用户,然后将广告推送给相关的用户,常见的应用场景有 Facebook look like、Google similar audiences。 在黑产场景中与推荐场景中的应用类似,主要分为两个任务场景: ① 找出目标恶意类别用户。比如需要找出散播招嫖信息的用户,则给定该类用户 招嫖的标签,类似于一个用户定性的问题; ② 黑产种子用户扩散,即利用历史的黑产用户进行用户扩散以及用户召回,可以 通过染色扩散以及相似用户检索等方式完成。 针对恶意用户定性的传统方法,通常采用树形模型,比如说 XGboost、GBDT 等。 这类算法短板显而易见,其缺乏对用户之间的关联进行考虑;另外一种用户召回 方 式 为 用 户 社 区 划 分 ( 相 似 用 户 召 回 ) , 其 中 比 较 常 用 的 社 区 划 分 算 法 有 FastUnfolding、Copra 等。这类算法的缺陷也相当明显,其由于原本社区规模 小,所以最终召回的人数也少。且会存在多个种子用户在同一个社区的情况,难 以召回大量可疑用户。 DataFunTalk 成就百万数据科学家! 24 因此,通过图表征学习与聚类相结合的方式进行召回。通过图表征学习将图结构 的节点属性以及结构特征映射到一个节点低维空间,由此产生一个节点特征,然 后再去进行下游的任务,如用户定性即节点分类等。其中,图表征学习的关键点 在于在进行低维的映射当中需要保留原始图的结构和节点属性信息。 DataFunTalk 成就百万数据科学家! 25 2. 图算法设计的目标 ① 算法的覆盖率和精准度; ② 用户分群规模合理,保证分群的可用性; ③ 支持增量特征,下游任务易用性。 由于业务场景更多为动态网络,当新增节点时,如果模型支持增量特征,则不需 要重复训练模型,可以极大的减少开发的流程,节省机器学习的资源,缩短任务 完成的时间。 02 图算法 GraphSAGE 落地及优化 1. GraphSAGE 核心思想 DataF
下载文档到本地,方便使用
共 377 页, 还有 4 页可预览, 继续阅读
文档评分
请文明评论,理性发言.