11月15日-17日,第23屆亞洲語言處理國(guó)際大會(huì)(IALP)在中國(guó)上海舉行,會(huì)議由中文與東方語文信息處理學(xué)會(huì)(COLIPS)主辦、華東師范大學(xué)承辦。本次會(huì)議吸引了來自15個(gè)國(guó)家和地區(qū)約100位大學(xué)、研究機(jī)構(gòu)和工業(yè)界的研究人員前來參會(huì)。小i機(jī)器人與阿里巴巴達(dá)摩院、復(fù)旦大學(xué)等知名院校企業(yè)一同受邀出席大會(huì),探討東方語言信息處理領(lǐng)域未來的創(chuàng)新和發(fā)展,并圍繞知識(shí)圖譜的建設(shè)、應(yīng)用與發(fā)展發(fā)表了主題演講。
知識(shí)圖譜作為自然語言處理技術(shù)的應(yīng)用之一,在幫助機(jī)器理解自然語言方面具有重要意義。小i機(jī)器人研究院算法研究員沈大框在大會(huì)上提到,知識(shí)圖譜最早是由Google提出,主要是用來優(yōu)化現(xiàn)有的搜索引擎。不同于傳統(tǒng)的基于關(guān)鍵詞檢索的搜索引擎,知識(shí)圖譜基于預(yù)先構(gòu)建的實(shí)體屬性關(guān)系三元組內(nèi)蘊(yùn)含的豐富的關(guān)聯(lián)信息,能夠更快速有效地反饋準(zhǔn)確結(jié)果,并提供更豐富的關(guān)聯(lián)參考信息,讓搜索引擎從關(guān)鍵詞檢索向語義檢索邁進(jìn)。
小i機(jī)器人研究院算法研究員沈大框
目前,知識(shí)圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式,而這兩種構(gòu)建方式都離不開知識(shí)抽取這一步驟。沈大框在此次大會(huì)上分享到小i機(jī)器人在構(gòu)建知識(shí)圖譜的過程中提出了一種基于BERT的管道式的關(guān)系抽取方法,可以從各種信息源中抽取三元組關(guān)系知識(shí),并集成到現(xiàn)有結(jié)構(gòu)化知識(shí)庫(kù)中。該關(guān)系抽取方法先識(shí)別句子中存在的關(guān)系,然后根據(jù)關(guān)系抽取句子中的主語和賓語。存在關(guān)系識(shí)別可以看成一個(gè)多標(biāo)簽分類任務(wù),模型使用BERT獲取深度語義信息,然后增加CNN網(wǎng)絡(luò)獲取句子的詞性與分詞信息極大提升了關(guān)系識(shí)別的準(zhǔn)確度。主語與賓語識(shí)別模型則采用BERT+CRF序列標(biāo)注的方式,解決了句子中單個(gè)關(guān)系多主語或者多謂語的問題。這兩種模型結(jié)合的使用,使得單句中存在多個(gè)復(fù)雜關(guān)系的抽取的問題迎刃而解。
小i機(jī)器人也在運(yùn)用包括知識(shí)圖譜相關(guān)技術(shù)在內(nèi)的全套解決方案,以認(rèn)知智能賦能行業(yè)企業(yè)的智能化升級(jí)。小i機(jī)器人為行業(yè)企業(yè)提供的智能客服解決方案便融合了知識(shí)圖譜的相關(guān)能力,能夠在行業(yè)領(lǐng)域內(nèi)快速自動(dòng)地生成背景知識(shí)庫(kù),輔助客服機(jī)器人深度理解用戶問題,讓客服系統(tǒng)的業(yè)務(wù)能力得到進(jìn)一步提升,很好的滿足銀行業(yè)務(wù)、信通訊業(yè)務(wù)、保險(xiǎn)業(yè)務(wù)、電商業(yè)務(wù)、政府公共服務(wù)業(yè)務(wù)等領(lǐng)域的業(yè)務(wù)需求。