背景
傳統(tǒng)語音質檢通常是指質檢員聽取一定比例的電話錄音進行人工質檢,檢測坐席在通話過程中是否有違規(guī)或非標準話術行為,如罵人、嘲諷、推諉、過度承諾等,以規(guī)范坐席人員行為,進而提升客戶服務質量。純人工聽取錄音效率低,單人日均僅能聽取約3小時,在大規(guī)模呼叫中心中往往只能實現少量錄音的抽檢,覆蓋率低。隨著語音識別、自然語言理解技術的高速發(fā)展,近年來誕生了智能語音質檢系統(tǒng),在語音質檢上起到了越來越重要的作用。
智能語音質檢一般采用機器質檢與人工復檢相結合的方式,會覆蓋客戶和坐席的每一句話,可以很好地輔助提升人工坐席的服務質量,智能語音質檢相比傳統(tǒng)語音質檢具有以下優(yōu)勢:
目前58同城呼叫中心每年有上億通電話,為了能夠實現海量電話錄音全量自動化質檢,TEG技術工程平臺群AI Lab自研了智能語音質檢系統(tǒng),它是利用語音識別、自然語言處理、大數據技術構建起來的質檢管理系統(tǒng),集成了數據收集、存儲、質檢、分析等功能。58智能語音質檢系統(tǒng)的工作流程是:首先收集話務中心話務數據,其次利用語音識別技術將錄音轉成文本,然后利用自然語言處理技術與深度學習技術對文本進行分析處理,最終將質檢的結果在Web管理平臺上展示,由質檢人員進行人工復檢。
整體架構
語音質檢架構包括基礎能力層、數據層、邏輯層、編輯運營層和Web管理層,如下圖所示:
基礎層為語音質檢提供了基礎的語義分析能力,包括由NLP自然語言處理模塊和ASR語音識別模塊組成。NLP模塊主要功能包含分詞、文本聚類、文本分類、關鍵詞提取、實體提取等。ASR(語音識別)模塊集成封裝了第三方語音識別接口,用于語音轉文本、角色分離。
數據層提供了數據接入能力,接入了Kafka、WMB(58自研消息總線)實時話務數據,并提供了質檢話務數據接口服務,實現對實時錄音數據、離線語音數據的多種數據格式質檢、存儲支持。
邏輯層是語音質檢的核心部分,實現了從音頻數據到坐席客戶對話文本、質檢標簽識別的全部流程,包括角色識別、語義標簽、語音評分、質檢結果通知等模塊。其中角色識別實現了兩個對話角色的識別: 誰是坐席,誰是客戶。語義標簽模塊使用機器學習和深度學習技術,通過語義分析檢測出預定義質檢標簽如客戶表示不需要、銷售辱罵客戶等。
編輯運營層是一套集數據標注、效果評估、數據分析功能于一體的Web系統(tǒng)。編輯人員通過質檢Web平臺完成質檢標簽、角色識別等的標注工作,并定期進行數據分析和效果評測。
WEB管理層即提供了人工復檢功能的支持,包括機檢數據概覽、質檢任務分配、人工復檢、統(tǒng)計等模塊。
語音識別
語音識別是一種將語音轉換成文本的技術,對于雙聲道的錄音,客戶和坐席的聲音在不同的聲道,因此可以很容易地將通話雙方的說話內容分開并轉寫成文本,對于單聲道錄音(我們的質檢錄音絕大多數都是單聲道),客戶和坐席的聲音混在一起,將說話內容轉寫成文本之前,我們還需要進行語音分離,將雙方的說話內容在語音粒度上分開。語音分離的效果直接影響到后續(xù)的質檢工作,假如誤把客戶的說話內容判別為坐席的說話內容,必然會降低質檢的效果。衡量語音分離的通用指標是分離錯誤率(DiarizationError Rate)DER,它指的是語音總時長中識別錯誤的語音時長所占的比重,DER越小說明分離的效果越好。
此外對于單聲道的語音,我們將分離后的語音識別成文本后,還需要進行角色識別的工作,語音分離只是識別出哪些說話內容是A的,哪些是B的,還需要依靠角色識別來判斷A和B哪個是坐席,哪個是客戶。
角色識別服務分兩步進行,首先會根據音頻特征判斷說話人雙方是否是異性,如果是異性,使用語音性別模型識別出每一句說話內容的性別,然后進行角色的判定。如果無法確定認為雙方為異性,則會進行通用角色識別:獲得A和B的說話內容之后,第一步是整體判別A和B的角色,整體判別之后可能還會有部分語句的角色是錯的(由于語音分離不完全準確造成),比如有什么還可以幫您的嗎?明顯是坐席說的話,但是卻被分到了客戶的角色上,因此第二步我們會做單句角色糾正。客戶和坐席的說話內容都有明顯的角色特征,在角色整體判別和單句角色糾正中,我們使用了深度學習模型Transformer和TextCNN并結合挖掘到的一些規(guī)則來進行識別。
語音轉文字
質檢標簽識別
銷售質檢包括銷售違規(guī)質檢和銷售常規(guī)質檢。銷售違規(guī)質檢是為了找出客戶有投訴傾向的錄音,為此我們定義了客戶表示將去投訴,銷售辱罵客戶,客戶表示被騷擾,客戶表示打錯了等標簽。語音質檢系統(tǒng)可以檢測出包含這些標簽的錄音,并將這些錄音反饋給銷售主管,銷售主管獲取這些錄音做進一步的處理以避免客戶投訴的發(fā)生。
銷售常規(guī)質檢針對所有業(yè)務線的銷售錄音,包括過度承諾,工作作假,銷售辱罵客戶等標簽,銷售常規(guī)質檢對于監(jiān)督銷售工作、規(guī)范銷售行為起到了重要作用。
客服質檢針對的是客服錄音,目標是檢測出通話中客服不文明或者不合規(guī)的行為,客服質檢對于提升客服服務質量有重要作用。比如招聘業(yè)務線新戶客服的工作是告知新會員需要注意的事項,包括安全提示,號碼保護和客戶熱線等標簽,語音質檢系統(tǒng)會給出新戶首通客服錄音包含的所有標簽,并對本次通話給出一個評分。
質檢標簽識別是一個復雜同時又具有挑戰(zhàn)的問題,需要考慮業(yè)務,語氣和上下文等因素,同時還要避免語音識別錯誤帶來的影響。在語義理解上,我們采用了TextCNN,Transformer和Bert等深度學習模型,同時基于對業(yè)務的理解使用了相應的規(guī)則,在標簽識別準確率上,銷售質檢準確率為達到90%以上,客服質檢準確率達到87%。
復檢系統(tǒng)
復檢系統(tǒng)是Web管理平臺的一部分,我們會把質檢結果展示在Web頁面上,質檢員可以看到整體質檢報表,也可以對單通語音進行復檢,人工復檢的詳情頁面如下所示:
質檢員在標簽欄可以看到質檢系統(tǒng)給出的標簽,點擊標簽可以直接定位到標簽的說話內容,點擊說話內容左側的播放按鈕可以聽這句話的錄音,同時最下側的錄音進度條也會移動到相應位置。質檢員不僅可以很快地復檢標簽內容,也可以通過快速瀏覽文字檢查質檢系統(tǒng)未覆蓋到的內容并手動添加標簽,復檢結果會存入數據庫中供后續(xù)分析使用。傳統(tǒng)的人工質檢,質檢時邊聽錄音邊做記錄,一通語音要反復聽好幾遍才會有一個質檢結果,效率非常低下。相比于傳統(tǒng)的人工質檢方式,使用復檢系統(tǒng)的人效提高2至3倍。
后端架構設計
語音質檢后臺系統(tǒng)基于58同城自研RPC框架SCF實現,使用WMonitor實現對各個服務的監(jiān)控,存儲依據不同數據的特性分別選用了WOS(58自研對象存儲服務)、Redis、WTable(58自研KV存儲服務)、WCS(58自研索引服務)、MySQL等。整個后臺服務的設計如下圖所示:
語音質檢接入了呼叫中心的實時話務消息隊列,以實現對坐席電話的實時質檢功能,此外還額外提供了話務數據接口服務,實現對離線數據的提交質檢。
語音質檢后臺系統(tǒng)由數據服務、主體服務、ASR服務、ASR回調服務、說話人識別服務、質檢標簽服務等多個微服務組成。
數據服務負責實現對多種數據源的接入,補全客戶以及坐席組織架構信息,并實現對存于話務系統(tǒng)中原始錄音文件的WOS轉存功能。主體服務貫穿整個質檢過程,負責控制整個數據流:調用日晷平臺獲取ABTest實驗配置,向ASR服務發(fā)起轉寫請求,調用說話人識別服務、質檢標簽服務獲取角色識別結果以及質檢標簽,向質檢員發(fā)送違規(guī)通知、向其他內部系統(tǒng)同步質檢結果等。
語音轉寫算法模型耗時較長,故對第三方服務的封裝采用異步調用的方式:由ASR服務負責對HTTP提交任務接口的封裝,對內提供一個SCF接口;并設立回調HTTP服務接收ASR轉寫結果轉存WTable,并使用WMB向主體服務發(fā)送質檢回調請求。
說話人識別以及質檢語音標簽分析依賴的模型經離線訓練后部署在WPAI中,此外WPAI提供了算法模型在線預測服務,供說話人識別服務、質檢語義標簽服務在線調用,質檢結果由主體服務統(tǒng)一存儲到MySQL中。
在將錄音轉寫成文本、給每通錄音打上質檢標簽后,為便于質檢員實時復檢操作,我們構建了智能質檢Web平臺,平臺提供機檢標簽查詢、人工復檢、錄音文本查看、錄音調聽、統(tǒng)計報表匯總等功能。Web系統(tǒng)涉及大量的標簽查詢以及統(tǒng)計功能,單一的SQL查詢難以滿足性能指標,對此我們引入了58自研的58云搜(WCS)搜索私有云平臺,將質檢結果數據實時同步至WCS中,Web查詢由WCS統(tǒng)一承載,目前在千萬級數據接口查詢速度約為20ms。
列表查詢
總結
本文主要介紹了智能語音質檢系統(tǒng)的架構設計,包括整體架構、角色識別、質檢標簽識別、系統(tǒng)的服務設計等。
目前智能語音質檢系統(tǒng)已穩(wěn)定接入58同城呼叫中心銷售、客服全量錄音,涉及13個業(yè)務,日均質檢電話錄音數十萬通,其中客服錄音質檢場景折合節(jié)省人力近千人,提高了呼叫中心人效和服務質量。
同時智能語音質檢系統(tǒng)提供了通用的語音分析能力,除了目前應用的語音質檢場景外同樣的技術也可以用于C2B平臺語音分析場景,58同城作為平臺方為商家以及客戶搭建了方便快捷的溝通途徑,其中語音電話也是一大重要的溝通方式,對于C端客戶與B端商家的語音分析可提供如低質通話過濾、客戶需求挖掘分析等多種業(yè)務能力。C2B的語音一般是雙聲道,不需要做語音分離和角色識別,可以很好地區(qū)分客戶和商家說話內容,因此具有更好的分析效果。
此外語音質檢后續(xù)將重點提高角色識別、標簽識別準確率,提供簡單快捷的接入平臺的能力,進一步挖掘語音數據中潛藏信息,服務業(yè)務方,提高語音質檢、分析工作人效,為廣大用戶提供更好更優(yōu)質的服務。
作者簡介
劉晟源,58同城 AI Lab 后端資深開發(fā)工程師,主要負責智能語音質檢平臺開發(fā)相關工作。
陳璐,58同城 AI Lab 算法高級工程師,主要負責58智能質檢的算法開發(fā)工作。
AI Lab簡介
58同城TEG技術工程平臺群AI Lab,旨在推動AI技術在58生活服務行業(yè)的落地,打造AI中臺能力,以提高前臺業(yè)務的人效和用戶體驗。AI Lab目前負責的產品包括:智能客服機器人、智能語音機器人、智能語音質檢系統(tǒng)、智能寫稿、AI算法平臺等,未來將持續(xù)加速創(chuàng)新,拓展AI應用。