在公司中,傳統電話銷售占公司總銷售額的大半部分,電話銷售客服中心每天呼出幾萬通電話,話術都是有跡可循。但傳統的電銷客服存在流動性大,培養周期長,人力成本高的缺點,如何降低公司的成本又不減少電話銷售的份額,是每個公司所面臨的難題。智能電銷機器人的出現,讓以上傳統銷售難題引刃而解。
本文提出了一種組合使用文本相似度計算與特征詞規則匹配的方法,可以提高語義識別準確率,實現更為友好的人機對話。
傳統的語義識別要靠程序開發人員寫一些規則來解決語義識別問題。但是,要窮舉并制定這些規則對于開發人員來說工作量無法想象。因為在自然語言處理領域中永遠有寫不完的規則,這時就需要機器人運用自己的學習能力進行推理。TF-IDF詞袋模型能根據詞的重要程度添加對應權重,更符合對話語義邏輯,但會使原文檔轉換為高維的稀疏向量,為向量存儲和相似度計算帶來了很大的困難。其主要技術包含如下:
1、對電銷對話語料數據進行清洗,刪除對話邏輯不合理的數據,刪除語音轉文本過程中識別誤差過大的數據,保留部分語音轉文本過程中的錯字,從而提高模型的抗干擾能力。
2、使用python分詞工具jieba包對清洗后的語料進行分詞,同時刪除停用詞和低頻詞。
3、建立詞袋模型,依據TF-IDF算法計算各詞的重要程度并做加權處理。
4、使用LSI對TF-IDF詞袋模型進行降維,剔除小的奇異值,將文檔特征空間變為文檔概念空間。
5、梳理電銷總體流程,提取電銷流程中的各個場景,針對不同場景設置多種意圖樣句。
6、將客戶的實時對話數據與各樣句比對(概念向量之問使用內積的夾角余弦相似度計算比原來基于原文本向量的相似度計算更可靠),大于設置的相似度閾值即識別為該場景下的對應意圖。
7、進行電銷的對應話術,完成一輪人機對話。
對語音轉文本數據處理流程如下:
例如,客戶說:“我在開車,等會說。”規則匹配詞典中只有“忙碌”“有事”等,無法正確判定客戶是“忙”的場景。將客戶的對話與意圖樣句進行相似度比對,若大于預設閾值則可判定為“忙”的狀態。
文本相似度計算使用無監督算法,無需大量人力標注,同時添加新語料時,可實時更新特征矩陣,不用重新訓練,適合產品快速迭代上線;組合使用文本相似度計算方法與特征詞規則匹配方法,在智能電銷對話過程中能更準確的把握客戶意圖識別,并有效提升了語義識別準確率。