近日,NEC宣布開發(fā)出“聲音狀況識別技術(shù)”,作為NEC最先進(jìn)的AI技術(shù)群“NEC the WISE”(注1)的技術(shù)之一,該技術(shù)可根據(jù)聲音判斷事態(tài)。
聲音具有可跨越障礙物和人群,把握目不可及之處狀況的優(yōu)勢,因此很早之前NEC就開始研究聲音識別技術(shù)。然而,當(dāng)識別范圍很大時,會混入很多環(huán)境雜音,因此檢測靈敏度和識別精度不高成為一個課題。
本次開發(fā)的“聲音狀況識別技術(shù)”將麥克風(fēng)收集到的目標(biāo)音與環(huán)境雜音分離開,使用從目標(biāo)音中抽取細(xì)小構(gòu)成音的構(gòu)成音抽取技術(shù)與根據(jù)構(gòu)成音的組合模式判斷事件有無的事件判別技術(shù),可以從需要辨別的若干事件中判斷正在發(fā)生的狀況(注2)。
NEC通過“聲音狀況識別技術(shù)”可以監(jiān)測公共設(shè)施、旅游景點(diǎn)等地的犯罪和事故,也可以實(shí)現(xiàn)對老年人的默默守護(hù),總而言之可以在不同環(huán)境下高度感知危險(xiǎn)狀況。
值得一提的是,此技術(shù)在國際聲音檢測大賽DCASE2016中,在噪聲(注3)中的日常聲音檢測類別榮獲第一名的好成績。此外,NEC的驗(yàn)證實(shí)驗(yàn)也證實(shí),此技術(shù)可以檢測5倍于原來檢測距離的聲音(注4)。
NEC專注社會解決方案事業(yè),并強(qiáng)化安全領(lǐng)域的解決方案。今后NEC將通過提供以此技術(shù)為代表的利用了傳感技術(shù)的產(chǎn)品,為實(shí)現(xiàn)安心、安全、豐富多彩的社會做貢獻(xiàn)。
背景
近年來,作為安心,安全的舉措,在攝像頭難以拍攝的地點(diǎn)用聲音來判斷情況的技術(shù)不斷開發(fā)改進(jìn)。
原來的技術(shù)是通過在不同環(huán)境下大量學(xué)習(xí)目標(biāo)音,從而實(shí)現(xiàn)聲音檢測。然而,在大范圍檢測目標(biāo)音時,因?yàn)榛烊牒芏喹h(huán)境雜音,對于遠(yuǎn)處發(fā)生的很小的目標(biāo)音的檢測精度下降,需要在各個環(huán)境下學(xué)習(xí)目標(biāo)音等,因而難以導(dǎo)入未知環(huán)境成為課題。
本次開發(fā)的“聲音狀況識別技術(shù)”,可以從麥克風(fēng)收集到的聲音中將未知環(huán)境雜音分離,可以高精度的監(jiān)測不受環(huán)境影響的構(gòu)成音,并通過對構(gòu)成音的組合模式來判斷是否有事件發(fā)生,從而解決了過去面臨的課題。
【圖1】聲音狀況識別技術(shù)概要
新技術(shù)的優(yōu)勢
1、可高靈敏地檢測細(xì)小聲音的構(gòu)成音抽取技術(shù)
例如,“玻璃碎了”這種情況發(fā)生的時候,因環(huán)境而異可能會發(fā)出“哐當(dāng)”“啪”“嘭”等聲音。而構(gòu)成音抽取技術(shù)則可提前學(xué)習(xí)麥克風(fēng)采集的聲音,分成“哐”“當(dāng)”“啪”“嘭”等不受環(huán)境影響的更細(xì)小的構(gòu)成音,將不需要學(xué)習(xí)的聲音劃入環(huán)境雜音,從而在不受環(huán)境雜音影響的前提下抽取構(gòu)成音。
2、可判斷發(fā)生事件性質(zhì)的事件判別技術(shù)
事件判別技術(shù)可以將不受環(huán)境影響的構(gòu)成音“哐”,“當(dāng)”“啪”以及“嘭”等組合作為新的事件模式提前學(xué)習(xí),通過構(gòu)成音抽取技術(shù)高精度地抽取構(gòu)成音,并進(jìn)行比對,從而判斷是否出現(xiàn)了目標(biāo)事件。通過這種檢測方法,即便是在大范圍內(nèi)也可以在存在各種雜音的環(huán)境下高敏感度地檢測出微小的聲音,且無需逐一學(xué)習(xí)在不同環(huán)境下的目標(biāo)聲音,因此可以輕易導(dǎo)入到未知的環(huán)境當(dāng)中。
【圖2】構(gòu)成音抽取技術(shù)?事件判別技術(shù)概要
NEC集團(tuán)致力于在全球范圍內(nèi)推進(jìn)社會解決方案,提供安心、安全、高效、公平的社會價值,將先進(jìn)的ICT技術(shù)與知識相融合,為實(shí)現(xiàn)更加光明更加豐富多彩的高效社會盡一份力量。
(注1)
“NEC the WISE”的標(biāo)志中所蘊(yùn)含的意義
“NEC the WISE”的標(biāo)志采用了立體圖形中最簡單的三角錐體,三角錐體的中心有一個立方體。銳角的三角錐體作為基礎(chǔ)預(yù)示著堅(jiān)固、難以動搖,而位于中央的立方體則象征著聚集了智慧的AI技術(shù)。該商標(biāo)的傾斜角度體現(xiàn)了通過人與人、人與社會、人與AI技術(shù)的協(xié)調(diào)解決所有社會課題,使其由不穩(wěn)定轉(zhuǎn)化為穩(wěn)定,創(chuàng)造更美好的社會這一想法。
(注2)無法識別會話的意思。
(注3)IEEE AASP Challenge
Detection and Classification of Acoustic Scenes and Events 2016,
Task2-Sound event detection in synthetic audio
URL:http://www.cs.tut.fi/sgn/arg/dcase2016/
(注4)可實(shí)現(xiàn)將原來在4m左右的檢測距離擴(kuò)大到20m,通過情景模擬演練,確認(rèn)可以無縫覆蓋監(jiān)控?cái)z像頭的設(shè)置間隔。