■作為顧客意見分析方法的一種,關(guān)注度上升
文本挖掘是分析像文章這樣的定性數(shù)據(jù)的技術(shù)。因為能對定量數(shù)據(jù)分析無法徹底把握的顧客意見進行有效梳理而受到關(guān)注,如第六章中所介紹的對話分析和錄音分析在
呼叫中心已開始得到活用。在實際分析中,首先要制作性別、年齡、地域等屬性和數(shù)值的數(shù)據(jù),然后再結(jié)合進行定性數(shù)據(jù)的文本挖掘,從而得到高利用價值的知識。
■支持文本挖掘基礎(chǔ)的技術(shù):形態(tài)要素解析
形態(tài)要素解析是將文章分解的技術(shù)。將文中出現(xiàn)的有意義的最小單位稱作形態(tài)要素,以此解析句子,標注詞性,進行處理。例如今天天氣好這句句子,就可以分解為今天/天氣/好。具體來說,需要進行以下三個方面的處理:
①語匯單元化(tokenization)
將句子進行以單詞為單位的劃分。
②還原活用語(Stemming,Lemmatization)
對英語的動詞和名詞的詞尾,日語的活用語詞尾等進行還原性處理。
③標注詞性(Pait-of-?speechtagging)
對每個單詞進行詞性標注的處理形態(tài)要素解析工具中,奈良尖端科學技術(shù)研究院大學的圓筒竹刷非常著名。
■文本挖掘工具
使用市場上銷售的文本挖掘工具可以迅速分析出大量數(shù)據(jù)。在transcosmos,使用的是野村綜合研究所的文本挖掘工具TRUETELLER"。"TRUETELLER被評價為具有多種機能,且用戶操作起來很方便。具體分析功能請參考下表。