一级毛片在线播放全部,青柠视频在线观看高清完整bd

主頁 > 知識庫 > 語音人福音：你和我的區(qū)別可能只差一個1400小時開源數(shù)據(jù)集

語音人福音：你和我的區(qū)別可能只差一個1400小時開源數(shù)據(jù)集

　　Mozilla昨日發(fā)布了語音識別數(shù)據(jù)集，稱為Common Voice。該數(shù)據(jù)集由18種不同的語言（包括英語，法語，德語，普通話，威爾士語，卡比爾等）組成，并增加了來自42，000多名貢獻者的約1，400小時錄制的語音片段。

　　從體量上來看它可以算的上是同類項目中最大的多語言數(shù)據(jù)集之一，對比之前發(fā)布的Common Voice語料庫數(shù)據(jù)集，20，000個人的近40萬個錄音（500小時語音數(shù)據(jù)），其提升效果也是十分顯著。

　　當然這也得益于Mozilla從18年6月宣布為了使Common Voice更具全球性和包容性。使用多語言支持，通過Common Voice網(wǎng)站和移動應用，短短8個月從22種語言開展數(shù)據(jù)收集到目前共有70多個語言的數(shù)據(jù)收集工作正在進行中。

　　語音技術(shù)對于人工智能的重要性不言而喻，但無奈的是，目前語音技術(shù)資源的話語權(quán)卻牢牢的掌握在大型科技公司。

　　首先目前行業(yè)內(nèi)普遍認為語音將成為下一個重要的技術(shù)平臺，近年來隨著人工智能理論與技術(shù)的迅猛發(fā)展，語音識別技術(shù)在不斷突破，通過語音助手如Alexa、GoogleAssistant、Siri和Cortana，各公司將收集到的用戶語音數(shù)據(jù)歸為公司自己所有。

　　其次這些數(shù)據(jù)的價值或許目前很難被外界看出來，但是在信息化高度發(fā)達，特別是今天這樣一個大數(shù)據(jù)和人工智能時代，為開發(fā)機器學習模型提供語音數(shù)據(jù)集怎么看都是一件有深遠意義的事，這些語音數(shù)據(jù)的意義會慢慢體現(xiàn)。而最終當它們的價值逐漸顯現(xiàn)，人們會發(fā)現(xiàn)在這背后亞馬遜、谷歌、蘋果和微軟等公司已經(jīng)牢牢鎖住了語音技術(shù)的命門，主導了這場語音市場之爭。

　　基于此CommonVoice項目就是為了避免這樣的事情而誕生的，它的目的是將收集到的語音數(shù)據(jù)集開源給公眾，使得任何人都可以自由使用這些數(shù)據(jù)集來將語音識別技術(shù)智能地構(gòu)建到各種應用程序和服務中。

　　Mozilla首席創(chuàng)新官Katharina Borchert表示：希望用戶使用自己的語言甚至方言的時候是可以被機器理解的，但是我們相信這些技術(shù)上的接口不應該由少數(shù)幾家公司控制，他們不能像守門員一樣來完全把控語音服務。

　　CommonVoice項目的意義與用于打擊私人平臺的開放許可證項目類似，OpenStreetMap就是一個很好的例子。OpenStreetMap為開發(fā)者提供了開放且可自由使用的世界地圖，使得開發(fā)商不再需要依賴于GoogleMaps這樣的競爭對手，不僅降低了成本開銷，技術(shù)上也不再受到限制。

　　總之，雖說目前CommonVoice相較于其他語音數(shù)據(jù)集還略有不足，比如在數(shù)量上，但是其綜合多樣性、豐富性和質(zhì)量方面都遙遙領(lǐng)先，但這也給了我們一個想象空間，未來隨著時間的推移，其語料庫的不斷增加，CommonVoice的影響力也會與日俱增，到時候?qū)蝗澜绺蠓秶鷥?nèi)的開發(fā)者們所關(guān)注并受益。

　　或許正如Mozilla所設(shè)想：未來語音技術(shù)的民主化不僅會降低全球創(chuàng)新的障礙，也會讓人們獲取信息更加便捷。

　　地址：https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/

標簽：河南上饒滁州江門濰坊通化黃石昭通

巨人網(wǎng)絡(luò)通訊聲明：本文標題《語音人福音：你和我的區(qū)別可能只差一個1400小時開源數(shù)據(jù)集》，本文關(guān)鍵詞語音,人,福音,你,和,我的,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。