主頁 > 知識庫 > 人工智能何時能夠把所有語音轉(zhuǎn)錄為文字?

人工智能何時能夠把所有語音轉(zhuǎn)錄為文字?

熱門標(biāo)簽:三亞電銷 潛江電銷 黑龍江電銷 廊坊電銷 梧州電銷 安順電銷 天津電銷 平?jīng)鲭婁N

科大訊飛已經(jīng)在做了。

一段 20 分鐘的音頻,只用 20 秒就轉(zhuǎn)錄成比較準確的文字。

作為一個經(jīng)常需要采訪并且整理成文字的編輯,在如何將語音轉(zhuǎn)化成文字這件事上著實花費了不少心思。

最傳統(tǒng)的方式是先開啟錄音功能,然后一邊打電話一邊速記要點,然后再利用音頻播放工具反復(fù)重聽將所需要的細節(jié)進行完善。我知道你也許會說我很笨,但是我的確做不到一次性將采訪的內(nèi)容全部記住。

相信這樣的人也不在少數(shù),那么還有什么其他好辦法么?在我看來,訊飛聽見算一個。

訊飛聽見作為科大訊飛自己的一套產(chǎn)品,包括三部分:PC 端網(wǎng)站、電銷機器人端 App 錄音寶、聽見錄音筆,形成了一套“軟件+硬件+服務(wù)”的完整體系。

轉(zhuǎn)錄語音這件事,精確最重要!

在去年的訊飛年度發(fā)布會上,訊飛聽見就展現(xiàn)了一把自己的轉(zhuǎn)錄精確度,董事長在臺上演講,旁邊的屏幕上就直接出現(xiàn)演講的內(nèi)容智能語音系統(tǒng),精確度幾乎達到 99%。當(dāng)然,這個具體的精確度還是要具體使用才知道。

除了識別率之外,三款產(chǎn)品還有非常多的亮點,PC 端的處理速度非???,官網(wǎng)上表示 1 小時的音頻只需 10 分鐘就可以處理完成。而在實際使用中,速度比這個還快,20 分鐘出頭的音頻通常不用 1 分鐘就可以完成轉(zhuǎn)錄。

點擊進入轉(zhuǎn)錄完成的頁面之后,你會看到一個非常有特點的操作頁面。頂部是語音的波形圖,用戶能夠選擇播放、加/減速播放,快進/退等常見的操作。

波形圖的下方,則直接分成兩部分:左邊是轉(zhuǎn)錄出來內(nèi)容,右邊則是一個功能完善的文字編輯器。左邊的內(nèi)容被智能的分隔成很多段,用戶可以選擇將其中一段、幾段或是全文導(dǎo)入到編輯器中。

似乎沒有什么意思?接下來才是重點

上圖左側(cè)的轉(zhuǎn)錄內(nèi)容能夠直接通過搜索關(guān)鍵字的方式進行篩選,點擊其中的文字還能直接播放對應(yīng)片段的音頻,這也就讓用戶能夠直接完成“轉(zhuǎn)錄-聽錄音-修正結(jié)果”整個過程。

右側(cè)的編輯器功能也比較強大,主要的文字格式編輯,比如字體、大小、顏色、背景色、粗體、斜體、劃線、下劃線都有,此外提供了猶如對齊和縮進的段落格式功能。

只不過添加一個編輯器而已,真的有那么重要么?從實際的使用效果來看智能語音系統(tǒng),除非錄音設(shè)備很高級、錄音對象的發(fā)音非常清晰,通過機器轉(zhuǎn)錄的效果目前還沒有辦法達到 100% 準確。這也是添加一個編輯器的最大意義所在。

當(dāng)然如果你自己比較懶,訊飛聽見還提供了收費的人工轉(zhuǎn)錄服務(wù),只要上傳了錄音你就能夠直接獲得最終的精準文字結(jié)果。

從定位上來說,這款產(chǎn)品主要面向記者、律師、速記員等有音頻轉(zhuǎn)文字需求的用戶。當(dāng)然這其中的語音分析技術(shù)同樣能夠運用到其他應(yīng)用上,開發(fā)者能夠通過訊飛開放平臺中選擇自己所需的服務(wù)構(gòu)建 API 結(jié)構(gòu),實現(xiàn)自己產(chǎn)品的交互升級。

標(biāo)簽:???/a> 桂林 洛陽 懷化 宜賓 廣安 連云港 通化

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《人工智能何時能夠把所有語音轉(zhuǎn)錄為文字?》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《人工智能何時能夠把所有語音轉(zhuǎn)錄為文字?》相關(guān)的同類信息!
  • 本頁收集關(guān)于人工智能何時能夠把所有語音轉(zhuǎn)錄為文字?的相關(guān)信息資訊供網(wǎng)民參考!
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266