ppt文档 电商网站智能客服应用方案(54页PPT) VIP文档

4.02 MB 53 页 0 下载 4 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
大数据,成就未来 电商网站智能客服应用 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模 大数掘挖掘专家 2 目 录 3 背景与挖掘目标 智能客服场景一 大数掘挖掘专家 背景与挖掘目标 智能客服场景一 大数掘挖掘专家 4 背景与挖掘目标 智能客服场景二 大数掘挖掘专家 5 智能客服描述 > 目前常用的智能客服应用的原理是 :先建立好标准问题 -- 答案库 ,每个标准问题都对应一个标准回答;当 客户提出问题后 ,系统经过一定的规则运算 ,将客户提问和标准问题关联起来 ,再把对应的标准回答反馈 给客户 ,让客户在与客服机器人交流的过程中有更便捷的体验。 背景与挖掘目标 大数掘挖掘专家 6 背景与挖掘目标 案例数据 大数掘挖掘专家 7 案例目标 > 根据提供的客服应用场景数据 ,建立文本相似度计算模型 ,对客服数据中的客户提问和标准问题是否相关 联做判断 ,返回相应结果以支持后续智能客服场景应用。 背景与挖掘目标 大数掘挖掘专家 8 案例流程 > 1 、文本预处理工作 ,包括分词、去停用词、近义词及错词处理 > 2 、提取基础 NLP 文本相似度特征 ,如编辑距离、 n-garm 距离 > 3 、计算词向量 ,并提取词向量相关特征 > 4 、提取深度学习特征 ,主要通过 LSTM 网络编码 > 5 、构建 Stacking 集成学习分类模型 ,并进行评价 分析方法与过程 大数掘挖掘专家 9 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模 大数掘挖掘专家 10 目 录 分词 去停用词 近义词和错词替换 第一步 第二步 第三步 文本预处理 大数掘挖掘专家 11 中文分词 > 中文分词是指以词作为基本单元 ,使用计算机自动对中文文本进行词语的切分 ,即使词之间有空格 ,这样 方便计算机识别出各语句的重点内容。 分词结果: " 将 " " 汽车 " " 工程 " " 和 " " 建筑 " " 设计 " " 完美 " " 融为一体 " 分词之前: " 将汽车工程和建筑设计完美融为 一 体 " 中文分词 文本预处理 大数掘挖掘专家 12 python 结巴分词 (jieba) 支持三种分词模式 > 精确模式 ,试图将句子最精确地切开 ,适合文本分析; > 全模式 ,把句子中所有的可以成词的词语都扫描出来 , 速度非常快 ,但是不能解决歧义; > 搜索引擎模式 ,在精确模式的基础上 ,对长词再次切分 ,提高召回率 ,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 文本预处理 大数掘挖掘专家 13 源数据: " 家 长 您 好 : 旗 帜 数 学 本 着 提 高 学 生 成 绩 的 宗 旨 , 新 学 期 开 课 啦 。 招 生 电 话 : 地 址 : 五 完 小 西 十 " 分词之后: " 家长 " " 您好 " " 旗帜 " " 数学 " " 本着 " " 提高 " " 学生 " " 成绩 " " 的 " " 宗旨 " " 新 " " 学期 " " 开课 " " 啦 " " 招生 " " 电话 " " 地址 " " 五 " " 完小 " " 西 " " 十 " 停⽤词过滤: " 家长 " " 您好 " " 旗帜 " " 数学 " " 提高 " " 学生 " " 成绩 " " 宗旨 " " 新 " " 学期 " " 开 课 " " 招生 " " 电话 " " 地址 " " 五 " " 完小 " " 西 " " 十 " > 中文表达中最常用的功能性词语是限定词 ,如“的”、“一个”、 “这”、 “那 ”等。这些词语的使用较 大的作用仅 仅是协助一些文本的名词描述和概念表达 ,并没有太多的实际含义。 > 而大多数时候停用词都是非自动生产、人工筛选录入的 ,因为需要根据不同的研究主题人为地判断和选择 合适的停用词语。 大数掘挖掘专家 14 文本预处理 停用词过滤结果 停用词过滤 错词替换 > 在检查数据的过程中发现 ,部分词语会出现拼写错误的情况 ,举例如下 ,把“滴滴打车”写成“嘀嘀打 车” ,把“借呗”写成“结呗” ,这些都把它做纠正处理 文本预处理 大数掘挖掘专家 15 > 此外 ,还会有部分近义词 ,主要出现在一些疑问词上 ,举例如下 : “为何”、 “为什么”、 “为啥”等 , 这里都把这些词替换为同一个词。 文本预处理 近义词替换 大数掘挖掘专家 16 提取 NLP 文本相似度特征 > a. 两个语句的长度上的差距 > b. 两个语句的编辑距离 > c. 两个语句的 n-gram 相似性的特征 > d. 两个语句 Jaccard 相似度 > e.TF-IDF 相似度 基础特征提取 大数掘挖掘专家 17 提取 NLP 文本相似度特征 > a. 两个语句的长度上的差距 : 1 - 分词后两个句子词数量的差的绝对值 / 最大词数量 > b. 两个语句的编辑距离 : 经过多少次处理才能从一个字符串变成另一个字符串 > c. 两个语句的 n-gram 相似性的特征 > d. 两个语句 Jaccard 相似度 :两个字符串字的交集 / 字的并集 > e.TF-IDF 相似度 :通过计算 TF-IDF 比较相似度 基础特征提取 大数掘挖掘专家 18 > 编辑距离 : 通过 n 次增加、删除、替换一个字符的操作 ,将一段字符串转换为另外一段字符串。 基础特征提取 大数掘挖掘专家 19 > n_garm 模型 : 假设有一个字符串 s ,那么该字符串的 n-gram 就表示按长度 n 切分原词得到的词段 ,也就是 s 中所有 长 度为 n 的子字符串。 对字符串 s ( ”今天晚上要去看电影” )进行 2-garm 划分 : 今天 ,天晚 ,晚上 ,上要 ,要去 ,去看 ,看电 ,电影 基础特征提取 大数掘挖掘专家 20 > n_garm 距离 : 对于两段字符串 s 、 t , n_garm 距离定义为 : GN (s) + G N (t) − 2 × GN (s)∩GN (t) GN (s) 表示字符串 s 的 n_garm 集合。 以 n=2 为例 ,对字符串 Gorbachev 和 Gorbechyov 进行分段 ,可得如下结 果 Go, or, rb, ba, ac, ch, he, ev 和 Go, or, rb, be, ec, ch, hy, yo, ov ; n_garm 距离为 : 8+9-2*4 = 9 基础特征提取 大数掘挖掘专家 21 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模 大数掘挖掘专家 22 目 录 > 自然语言理解的问题要转化为机器学习的问题 ,第一步肯定是要找一种方法把这些文字数学化。 > 传统的语言模型常用 one-hot 编码表示一个词 ,举个例子 : “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] “ 麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …] > 缺点 :任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系 ,哪怕是话筒和麦克这样 的同义词也不能幸免于难。语料库大的时候纬度变得很高。 词向量 大数掘挖掘专家 23 词向量 > 又称“ Word Embedding”, 采用一种低维的向量表示方法来表示一个词 ,使得相似词的词向量距离相近 , 同 时又能避免纬度过高的问题。 > 核心思想 :根据词语的上下文来计算词向量 ,一个词的语义是由它周围的词决定的。 > 词向量实际上是一类技术 ,单个词在预定义的向量空间中被表示为实数向量 ,每个单词都映射到一个向量 (用向量储存文本信息) 。 词向量 大数掘挖掘专家 24 词向量 > 举个例子 ,比如在一个文本中包含“猫” “狗 ” “爱情”等若干单词 ,而这若干单词映射到向量空间 中 ,“猫 ”对应的向量为( 0.1 0.2 0.3 ),“狗 ”对应的向量为( 0.2 0.2 0.4 ), “爱情”对应的映射为 ( -0.4 -0.5 -0.2 ),这个映射的过程就叫做词嵌入。 > 通过词嵌入这种方式将单词转变为词向量 ,机器便可对单词进行计算 , 通过计算不同词向量之间夹角余弦值 cosine 而得出单词之间的相似性。 > 例如 : v(“ 国王” ) - v(“ 男人” ) + v(“ 女人” ) ≈v(“ 女王” ) 词向量 大数掘挖掘专家 25 两种训练模型 : CBOW (Continuous Bag-of-Words Model) > CBOW 将一个词所在的上下文中的词作为输入 ,而那个词本身作为输 出 ,也就是说 ,看到一个上下文 ,希望大概能猜出这个词和它的意思。 通过在一个大的语料库训练 ,得到一个从输入层到隐含层的权重模型。 2-gram 比较常用。 > 其中 , w↓t =(0,…,1,…,0) ,是 one-hot 编码。 词向量 大数掘挖掘专家 26 两种训练模型 : Skip-gram (Continuous Skip-gram Model) > Skip-gram 它的做法是 ,将一个词所在的上下文中的词作为输出 ,而 那个词本身作为输入 ,也就是说 ,给出一个词 ,希望预测可能出现的 上下文的词 , 2-gram 比较常用。 > 其中 , w↓t =(0,…,1,…,0) ,是 one-hot 编码。 词向量 大数掘挖掘专家 27 以 CBOW 演示词向量生成过程 > 输入层 :上下文单词的 one-hot. > 所有 one-hot 分别乘以共享的输入权重矩阵 W. > 所得的相加求平均作为隐层向量 , size 为 1*N. > 乘以输出权重矩阵 W' > 得到向量 {1*V} 激活函数处理得到 V-dim 概率分布 ,概 率 最大的 index 所指示的单词为预测出的中间词 ( target word ) > 与 true label 的 one-hot 做比较 ,误差越小越好 词向量 大数掘挖掘专家 28 词向量 大数掘挖掘专家 29 词向量 大数掘挖掘专家 30 词向量 大数掘挖掘专家 31 词向量 大数掘挖掘专家 32 词向量 大数掘挖掘专家 33 > 最终词向量的计算 : 用词语的 one-hot 编码乘以权重矩阵 W 即某个词的词向量就是矩阵 W 的某一行 > 可以看到 ,词向量不是一般模型训练的任务 ,而是为了完成任务附带的附属品。 词向量 大数掘挖掘专家 34 python 计算词向量 gensim.models.word2vec.Word2Vec(sentences, size=100, window=5, min_count=5, sg=0) . sentences: 一段分好词的文本 . size :词向量纬度 . window :词向量计算的窗口 ,即上下文的长度 . min_count: 最小词频数 . sg :词向量计算方式 , 0 表示 CBOW , 1 表示 Skip-garm 词向量 大数掘挖掘专家 35 词向量构建特征 > 假如词向量的维度为 300 ,那么包含 n 个词语的短文本会组成一个 n*300 的矩阵 ,对于另外一段由 m 个词 语组成的短文本则会组成一个 m*300 的矩阵 ,如何计算文本的相似度? > 容易想到 ,可以对行求均值 ,把矩阵转化为一个一维的向量 ,再进行计算。 词向量 大数掘挖掘专家 36 词向量构建特征 > 这里采用另外一种方式表示 : 假设语料库中有 10000 个词 ,那么每个短文本都表示为一个 10000 维的向量 ,每个维度的取值为 :该短文 本的词与对应维度的词的相似度的最大值。 词向量 大数掘挖掘专家 37 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 3 集成学习建模 大数掘挖掘专家 38 目 录 RNN 网络结 构 RNN 网 络 大数掘挖掘专家 39 RNN 网络结 构 RNN 网 络 大数掘挖掘专家 40 LSTM 网络结 构 LSTM 网 络 大数掘挖掘专家 41 细胞状态 > LSTM 的关键是细胞状态 C ,一条水平线贯穿于图形的上方 ,这条线上只有些少量的线性操作 ,信息在上 面流传很容易保持。 LSTM 网 络 大数掘挖掘专家 42 忘记门 > 决定细胞状态中丢弃什么信息。把 ht 1 − 和 xt 拼接起来 ,传给一个 sigmoid 函数 ,该函数输出 0 到 1 之间的值 , 0 表示完全丢弃 , 1 表示完全保留 ,这个值乘到细胞状态 Ct 1 − 上去。 LSTM 网 络 大数掘挖掘专家 43 上 ,起到一个缩放的作用 ,极端情况下 sigmoid 输出 0 说明相应维度上的细胞状态不需要更新。 44 大数掘挖掘专家 输入门 > 上一步的细胞状态 Ct −1 已经被忘记了一部分 ,接下来本步应该把哪些信息新加到细胞状态中呢?这里又 包含 2 层 :一个 tanh 层用来产生更新值的候选项 ~Ct , tanh 的输出在 [-1,1] 上 ,说明细胞状态在某些 维度上 需要加强 ,在某些维度上需要减弱;还有一个 sigmoid 层(输入门层) ,它的输出值要乘到 tanh 层的输出 LSTM 网 络 输入门 > 现在可以让旧的细胞状态 Ct −1 与 ft ( f 是 forget 忘记门的意思)相乘来丢弃一部分信息 ,然后再加个 需要 更新的部分 it*~Ct ( i 是 input 输入门的意思) ,这就生成了新的细胞状态 Ct 。 LSTM 网 络 大数掘挖掘专家 45 输出门 > 最后该决定输出什么了。输出值跟细胞状态有关 ,把 Ct 输给一个 tanh 函数得到输出值的候选项。候选项 中 的哪些部分最终会被输出由一个 sigmoid 层来决定。在那个预测下一个词的例子中 ,如果细胞状态告诉我 们当前代词是第三人称 ,那我们就可以预测下一词可能是一个第三人称的动词。 LSTM 网 络 大数掘挖掘专家 46 提取深度学习特征 > h. 两个语句神经网络编码的曼哈顿距离相似度和余弦相似度。主要是根据两个语句的预训练词向量输入经 过 LSTM 进行编码 ,计算出两个语句的语义向量的曼哈顿距离和余弦相似度 ,作为最后的机器学习的分 类 模型特征之一 > i. 两个语句的神经网络编码的 match vector 形式计算的相似度 > j. 两个语句的神经网络编码的改进的 Compare-Aggregate 模型的相似度 LSTM 网 络 大数掘挖掘专家 47 分析方法与过程 特征示例 大数掘挖掘专家 48 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模 大数掘挖掘专家 49 目 录 Stacking 集成学 习 集成学习建模 大数掘挖掘专家 50 Stacking 集成学习 > Stacking 集成学习分两步 : l 用一系列的初级分类器进行训练 ,得出对应的训练结果 l 把训练结果当作是特征 ,输入到次级学习器 ,最终的输出结果由次级学
下载文档到本地,方便使用
共 53 页, 还有 2 页可预览, 继续阅读
文档评分
请文明评论,理性发言.