新冠病毒還在世界范圍內(nèi)傳播肆虐,對(duì)醫(yī)療資源提出巨大挑戰(zhàn)。許多醫(yī)院都建議醫(yī)生取消不必要的出診,以防止發(fā)生交叉感染的情況。這樣一來,大量的患者就涌入了遠(yuǎn)程醫(yī)療應(yīng)用程序和服務(wù)。
如何讓程序更懂新冠病毒,從而幫助病人進(jìn)行有意義的醫(yī)療對(duì)話?
加州大學(xué)圣地亞哥分校、卡內(nèi)基梅隆大學(xué)和加州大學(xué)戴維斯分校研究人員提出了利用人工智能聊天機(jī)器人來解決這個(gè)問題。目前他們的研究已經(jīng)發(fā)表在預(yù)印本網(wǎng)站上。根據(jù)他們的研究,該聊天機(jī)器人可以對(duì)患者就有關(guān)新冠病毒的問題做出回應(yīng)。
“在這項(xiàng)工作中,我們首次嘗試開發(fā)可以提供有關(guān)新冠病毒的醫(yī)學(xué)咨詢對(duì)話系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,這些經(jīng)過訓(xùn)練的模型有望就新冠病毒產(chǎn)生具有臨床意義的高質(zhì)量咨詢。”研究人員在論文中稱。
據(jù)悉,整個(gè)團(tuán)隊(duì)用英語和中文數(shù)據(jù)集訓(xùn)練了支持這些聊天機(jī)器人的算法模型。數(shù)據(jù)集內(nèi)容包含醫(yī)生與患者之間談?wù)撔鹿诓《镜膶?duì)話,研究人員稱實(shí)驗(yàn)證明這個(gè)模型對(duì)進(jìn)行有益的醫(yī)學(xué)對(duì)話很有希望。
具體來說,研究人員在CovidDialog數(shù)據(jù)集訓(xùn)練了集中對(duì)話模型,模型則來自在線醫(yī)療論壇。整個(gè)數(shù)據(jù)集包括603次英文數(shù)據(jù),1088次中文數(shù)據(jù)。每次對(duì)話均以簡(jiǎn)短描述患者的醫(yī)療狀況開始,然后是患者與醫(yī)生之間的對(duì)話,并且視情況提供醫(yī)生給出的診斷和治療建議。
論文合作者稱,他們基于谷歌的Transformer架構(gòu)、OpenAI的GPT、BERT-GPT三方面來訓(xùn)練模型。由于在相對(duì)較小的數(shù)據(jù)集上直接訓(xùn)練模型會(huì)導(dǎo)致結(jié)果的泛化性,所以該團(tuán)隊(duì)利用了轉(zhuǎn)移學(xué)習(xí)技術(shù)。即先在大型語料庫上對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后再在CovidDialog數(shù)據(jù)集上進(jìn)行微調(diào)。預(yù)訓(xùn)練的語料庫則主要來自Reddit用戶、維基百科、中文聊天機(jī)器人、新聞、書籍、故事和其他網(wǎng)絡(luò)文本。
經(jīng)過訓(xùn)練后,對(duì)三種方法下訓(xùn)練模型進(jìn)行測(cè)試,來評(píng)估機(jī)器的表現(xiàn)。評(píng)估標(biāo)準(zhǔn)包括混亂程度,用來判斷機(jī)器人響應(yīng)的質(zhì)量和是否流暢;熵和距離,用來衡量詞匯的多樣性。最后結(jié)果顯示,利用BERT-GPT框架來懸鏈的模型,能對(duì)患者的問題進(jìn)行回答,提供的答案更具相關(guān)性、信息量和人性化,并且語法和語義表達(dá)正確。
目前,研究人員已經(jīng)將數(shù)據(jù)集和代碼在網(wǎng)上進(jìn)行開源。