科大訊飛已經(jīng)在做了。
一段 20 分鐘的音頻,只用 20 秒就轉(zhuǎn)錄成比較準確的文字。
作為一個經(jīng)常需要采訪并且整理成文字的編輯,在如何將語音轉(zhuǎn)化成文字這件事上著實花費了不少心思。
最傳統(tǒng)的方式是先開啟錄音功能,然后一邊打電話一邊速記要點,然后再利用音頻播放工具反復(fù)重聽將所需要的細節(jié)進行完善。我知道你也許會說我很笨,但是我的確做不到一次性將采訪的內(nèi)容全部記住。
相信這樣的人也不在少數(shù),那么還有什么其他好辦法么?在我看來,訊飛聽見算一個。
訊飛聽見作為科大訊飛自己的一套產(chǎn)品,包括三部分:PC 端網(wǎng)站、電銷機器人端 App 錄音寶、聽見錄音筆,形成了一套“軟件+硬件+服務(wù)”的完整體系。
轉(zhuǎn)錄語音這件事,精確最重要!
在去年的訊飛年度發(fā)布會上,訊飛聽見就展現(xiàn)了一把自己的轉(zhuǎn)錄精確度,董事長在臺上演講,旁邊的屏幕上就直接出現(xiàn)演講的內(nèi)容智能語音系統(tǒng),精確度幾乎達到 99%。當(dāng)然,這個具體的精確度還是要具體使用才知道。
除了識別率之外,三款產(chǎn)品還有非常多的亮點,PC 端的處理速度非???,官網(wǎng)上表示 1 小時的音頻只需 10 分鐘就可以處理完成。而在實際使用中,速度比這個還快,20 分鐘出頭的音頻通常不用 1 分鐘就可以完成轉(zhuǎn)錄。
點擊進入轉(zhuǎn)錄完成的頁面之后,你會看到一個非常有特點的操作頁面。頂部是語音的波形圖,用戶能夠選擇播放、加/減速播放,快進/退等常見的操作。
波形圖的下方,則直接分成兩部分:左邊是轉(zhuǎn)錄出來內(nèi)容,右邊則是一個功能完善的文字編輯器。左邊的內(nèi)容被智能的分隔成很多段,用戶可以選擇將其中一段、幾段或是全文導(dǎo)入到編輯器中。
似乎沒有什么意思?接下來才是重點
上圖左側(cè)的轉(zhuǎn)錄內(nèi)容能夠直接通過搜索關(guān)鍵字的方式進行篩選,點擊其中的文字還能直接播放對應(yīng)片段的音頻,這也就讓用戶能夠直接完成“轉(zhuǎn)錄-聽錄音-修正結(jié)果”整個過程。
右側(cè)的編輯器功能也比較強大,主要的文字格式編輯,比如字體、大小、顏色、背景色、粗體、斜體、劃線、下劃線都有,此外提供了猶如對齊和縮進的段落格式功能。
只不過添加一個編輯器而已,真的有那么重要么?從實際的使用效果來看智能語音系統(tǒng),除非錄音設(shè)備很高級、錄音對象的發(fā)音非常清晰,通過機器轉(zhuǎn)錄的效果目前還沒有辦法達到 100% 準確。這也是添加一個編輯器的最大意義所在。
當(dāng)然如果你自己比較懶,訊飛聽見還提供了收費的人工轉(zhuǎn)錄服務(wù),只要上傳了錄音你就能夠直接獲得最終的精準文字結(jié)果。
從定位上來說,這款產(chǎn)品主要面向記者、律師、速記員等有音頻轉(zhuǎn)文字需求的用戶。當(dāng)然這其中的語音分析技術(shù)同樣能夠運用到其他應(yīng)用上,開發(fā)者能夠通過訊飛開放平臺中選擇自己所需的服務(wù)構(gòu)建 API 結(jié)構(gòu),實現(xiàn)自己產(chǎn)品的交互升級。