电商网站智能客服应用方案（54页PPT）

语言	格式	评分
中文（简体）	.pptx	3
概览
大数据，成就未来电商网站智能客服应用 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模大数掘挖掘专家 2 目录 3 背景与挖掘目标智能客服场景一大数掘挖掘专家背景与挖掘目标智能客服场景一大数掘挖掘专家 4 背景与挖掘目标智能客服场景二大数掘挖掘专家 5 智能客服描述 > 目前常用的智能客服应用的原理是：先建立好标准问题 -- 答案库，每个标准问题都对应一个标准回答；当客户提出问题后，系统经过一定的规则运算，将客户提问和标准问题关联起来，再把对应的标准回答反馈给客户，让客户在与客服机器人交流的过程中有更便捷的体验。背景与挖掘目标大数掘挖掘专家 6 背景与挖掘目标案例数据大数掘挖掘专家 7 案例目标 > 根据提供的客服应用场景数据，建立文本相似度计算模型，对客服数据中的客户提问和标准问题是否相关联做判断，返回相应结果以支持后续智能客服场景应用。背景与挖掘目标大数掘挖掘专家 8 案例流程 > 1 、文本预处理工作，包括分词、去停用词、近义词及错词处理 > 2 、提取基础 NLP 文本相似度特征，如编辑距离、 n-garm 距离 > 3 、计算词向量，并提取词向量相关特征 > 4 、提取深度学习特征，主要通过 LSTM 网络编码 > 5 、构建 Stacking 集成学习分类模型，并进行评价分析方法与过程大数掘挖掘专家 9 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模大数掘挖掘专家 10 目录分词去停用词近义词和错词替换第一步第二步第三步文本预处理大数掘挖掘专家 11 中文分词 > 中文分词是指以词作为基本单元，使用计算机自动对中文文本进行词语的切分，即使词之间有空格，这样方便计算机识别出各语句的重点内容。分词结果： " 将 " " 汽车 " " 工程 " " 和 " " 建筑 " " 设计 " " 完美 " " 融为一体 " 分词之前： " 将汽车工程和建筑设计完美融为一体 " 中文分词文本预处理大数掘挖掘专家 12 python 结巴分词 (jieba) 支持三种分词模式 > 精确模式，试图将句子最精确地切开，适合文本分析； > 全模式，把句子中所有的可以成词的词语都扫描出来 , 速度非常快，但是不能解决歧义； > 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典文本预处理大数掘挖掘专家 13 源数据： " 家长您好：旗帜数学本着提高学生成绩的宗旨，新学期开课啦。招生电话：地址：五完小西十 " 分词之后： " 家长 " " 您好 " " 旗帜 " " 数学 " " 本着 " " 提高 " " 学生 " " 成绩 " " 的 " " 宗旨 " " 新 " " 学期 " " 开课 " " 啦 " " 招生 " " 电话 " " 地址 " " 五 " " 完小 " " 西 " " 十 " 停⽤词过滤： " 家长 " " 您好 " " 旗帜 " " 数学 " " 提高 " " 学生 " " 成绩 " " 宗旨 " " 新 " " 学期 " " 开课 " " 招生 " " 电话 " " 地址 " " 五 " " 完小 " " 西 " " 十 " > 中文表达中最常用的功能性词语是限定词，如“的”、“一个”、 “这”、 “那 ”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达，并没有太多的实际含义。 > 而大多数时候停用词都是非自动生产、人工筛选录入的，因为需要根据不同的研究主题人为地判断和选择合适的停用词语。大数掘挖掘专家 14 文本预处理停用词过滤结果停用词过滤错词替换 > 在检查数据的过程中发现，部分词语会出现拼写错误的情况，举例如下，把“滴滴打车”写成“嘀嘀打车” ，把“借呗”写成“结呗” ，这些都把它做纠正处理文本预处理大数掘挖掘专家 15 > 此外，还会有部分近义词，主要出现在一些疑问词上，举例如下： “为何”、 “为什么”、 “为啥”等，这里都把这些词替换为同一个词。文本预处理近义词替换大数掘挖掘专家 16 提取 NLP 文本相似度特征 > a. 两个语句的长度上的差距 > b. 两个语句的编辑距离 > c. 两个语句的 n-gram 相似性的特征 > d. 两个语句 Jaccard 相似度 > e.TF-IDF 相似度基础特征提取大数掘挖掘专家 17 提取 NLP 文本相似度特征 > a. 两个语句的长度上的差距 : 1 - 分词后两个句子词数量的差的绝对值 / 最大词数量 > b. 两个语句的编辑距离 : 经过多少次处理才能从一个字符串变成另一个字符串 > c. 两个语句的 n-gram 相似性的特征 > d. 两个语句 Jaccard 相似度：两个字符串字的交集 / 字的并集 > e.TF-IDF 相似度：通过计算 TF-IDF 比较相似度基础特征提取大数掘挖掘专家 18 > 编辑距离：通过 n 次增加、删除、替换一个字符的操作，将一段字符串转换为另外一段字符串。基础特征提取大数掘挖掘专家 19 > n_garm 模型：假设有一个字符串 s ，那么该字符串的 n-gram 就表示按长度 n 切分原词得到的词段，也就是 s 中所有长度为 n 的子字符串。对字符串 s （ ”今天晚上要去看电影” ）进行 2-garm 划分：今天，天晚，晚上，上要，要去，去看，看电，电影基础特征提取大数掘挖掘专家 20 > n_garm 距离：对于两段字符串 s 、 t ， n_garm 距离定义为： GN (s) + G N (t) − 2 × GN (s)∩GN (t) GN (s) 表示字符串 s 的 n_garm 集合。以 n=2 为例，对字符串 Gorbachev 和 Gorbechyov 进行分段，可得如下结果 Go, or, rb, ba, ac, ch, he, ev 和 Go, or, rb, be, ec, ch, hy, yo, ov ； n_garm 距离为： 8+9-24 = 9 基础特征提取大数掘挖掘专家 21 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模大数掘挖掘专家 22 目录 > 自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些文字数学化。 > 传统的语言模型常用 one-hot 编码表示一个词，举个例子： “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] “ 麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …] > 缺点：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕是话筒和麦克这样的同义词也不能幸免于难。语料库大的时候纬度变得很高。词向量大数掘挖掘专家 23 词向量 > 又称“ Word Embedding”, 采用一种低维的向量表示方法来表示一个词，使得相似词的词向量距离相近，同时又能避免纬度过高的问题。 > 核心思想：根据词语的上下文来计算词向量，一个词的语义是由它周围的词决定的。 > 词向量实际上是一类技术，单个词在预定义的向量空间中被表示为实数向量，每个单词都映射到一个向量（用向量储存文本信息）。词向量大数掘挖掘专家 24 词向量 > 举个例子，比如在一个文本中包含“猫” “狗 ” “爱情”等若干单词，而这若干单词映射到向量空间中，“猫 ”对应的向量为（ 0.1 0.2 0.3 ），“狗 ”对应的向量为（ 0.2 0.2 0.4 ）， “爱情”对应的映射为（ -0.4 -0.5 -0.2 ），这个映射的过程就叫做词嵌入。 > 通过词嵌入这种方式将单词转变为词向量，机器便可对单词进行计算，通过计算不同词向量之间夹角余弦值 cosine 而得出单词之间的相似性。 > 例如： v(“ 国王” ) － v(“ 男人” ) ＋ v(“ 女人” ) ≈v(“ 女王” ) 词向量大数掘挖掘专家 25 两种训练模型： CBOW (Continuous Bag-of-Words Model) > CBOW 将一个词所在的上下文中的词作为输入，而那个词本身作为输出，也就是说，看到一个上下文，希望大概能猜出这个词和它的意思。通过在一个大的语料库训练，得到一个从输入层到隐含层的权重模型。 2-gram 比较常用。 > 其中， w↓t =(0,…,1,…,0) ，是 one-hot 编码。词向量大数掘挖掘专家 26 两种训练模型： Skip-gram (Continuous Skip-gram Model) > Skip-gram 它的做法是，将一个词所在的上下文中的词作为输出，而那个词本身作为输入，也就是说，给出一个词，希望预测可能出现的上下文的词， 2-gram 比较常用。 > 其中， w↓t =(0,…,1,…,0) ，是 one-hot 编码。词向量大数掘挖掘专家 27 以 CBOW 演示词向量生成过程 > 输入层：上下文单词的 one-hot. > 所有 one-hot 分别乘以共享的输入权重矩阵 W. > 所得的相加求平均作为隐层向量 , size 为 1N. > 乘以输出权重矩阵 W' > 得到向量 {1V} 激活函数处理得到 V-dim 概率分布，概率最大的 index 所指示的单词为预测出的中间词（ target word ） > 与 true label 的 one-hot 做比较，误差越小越好词向量大数掘挖掘专家 28 词向量大数掘挖掘专家 29 词向量大数掘挖掘专家 30 词向量大数掘挖掘专家 31 词向量大数掘挖掘专家 32 词向量大数掘挖掘专家 33 > 最终词向量的计算：用词语的 one-hot 编码乘以权重矩阵 W 即某个词的词向量就是矩阵 W 的某一行 > 可以看到，词向量不是一般模型训练的任务，而是为了完成任务附带的附属品。词向量大数掘挖掘专家 34 python 计算词向量 gensim.models.word2vec.Word2Vec(sentences, size=100, window=5, min_count=5, sg=0) . sentences: 一段分好词的文本 . size ：词向量纬度 . window ：词向量计算的窗口，即上下文的长度 . min_count: 最小词频数 . sg ：词向量计算方式， 0 表示 CBOW ， 1 表示 Skip-garm 词向量大数掘挖掘专家 35 词向量构建特征 > 假如词向量的维度为 300 ，那么包含 n 个词语的短文本会组成一个 n300 的矩阵，对于另外一段由 m 个词语组成的短文本则会组成一个 m300 的矩阵，如何计算文本的相似度？ > 容易想到，可以对行求均值，把矩阵转化为一个一维的向量，再进行计算。词向量大数掘挖掘专家 36 词向量构建特征 > 这里采用另外一种方式表示：假设语料库中有 10000 个词，那么每个短文本都表示为一个 10000 维的向量，每个维度的取值为：该短文本的词与对应维度的词的相似度的最大值。词向量大数掘挖掘专家 37 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 3 集成学习建模大数掘挖掘专家 38 目录 RNN 网络结构 RNN 网络大数掘挖掘专家 39 RNN 网络结构 RNN 网络大数掘挖掘专家 40 LSTM 网络结构 LSTM 网络大数掘挖掘专家 41 细胞状态 > LSTM 的关键是细胞状态 C ，一条水平线贯穿于图形的上方，这条线上只有些少量的线性操作，信息在上面流传很容易保持。 LSTM 网络大数掘挖掘专家 42 忘记门 > 决定细胞状态中丢弃什么信息。把 ht 1 − 和 xt 拼接起来，传给一个 sigmoid 函数，该函数输出 0 到 1 之间的值， 0 表示完全丢弃， 1 表示完全保留，这个值乘到细胞状态 Ct 1 − 上去。 LSTM 网络大数掘挖掘专家 43 上，起到一个缩放的作用，极端情况下 sigmoid 输出 0 说明相应维度上的细胞状态不需要更新。 44 大数掘挖掘专家输入门 > 上一步的细胞状态 Ct −1 已经被忘记了一部分，接下来本步应该把哪些信息新加到细胞状态中呢？这里又包含 2 层：一个 tanh 层用来产生更新值的候选项 ~Ct ， tanh 的输出在 [-1,1] 上，说明细胞状态在某些维度上需要加强，在某些维度上需要减弱；还有一个 sigmoid 层（输入门层），它的输出值要乘到 tanh 层的输出 LSTM 网络输入门 > 现在可以让旧的细胞状态 Ct −1 与 ft （ f 是 forget 忘记门的意思）相乘来丢弃一部分信息，然后再加个需要更新的部分 it~Ct （ i 是 input 输入门的意思），这就生成了新的细胞状态 Ct 。 LSTM 网络大数掘挖掘专家 45 输出门 > 最后该决定输出什么了。输出值跟细胞状态有关，把 Ct 输给一个 tanh 函数得到输出值的候选项。候选项中的哪些部分最终会被输出由一个 sigmoid 层来决定。在那个预测下一个词的例子中，如果细胞状态告诉我们当前代词是第三人称，那我们就可以预测下一词可能是一个第三人称的动词。 LSTM 网络大数掘挖掘专家 46 提取深度学习特征 > h. 两个语句神经网络编码的曼哈顿距离相似度和余弦相似度。主要是根据两个语句的预训练词向量输入经过 LSTM 进行编码，计算出两个语句的语义向量的曼哈顿距离和余弦相似度，作为最后的机器学习的分类模型特征之一 > i. 两个语句的神经网络编码的 match vector 形式计算的相似度 > j. 两个语句的神经网络编码的改进的 Compare-Aggregate 模型的相似度 LSTM 网络大数掘挖掘专家 47 分析方法与过程特征示例大数掘挖掘专家 48 1 背景与挖掘目标 2 文本预处理及基础特征提取 3 词向量及特征提取 4 深度学习特征提取 5 集成学习建模大数掘挖掘专家 49 目录 Stacking 集成学习集成学习建模大数掘挖掘专家 50 Stacking 集成学习 > Stacking 集成学习分两步： l 用一系列的初级分类器进行训练，得出对应的训练结果 l 把训练结果当作是特征，输入到次级学习器，最终的输出结果由次级学