主頁 > 知識庫 > 專訪 | 標貝科技劉博:洞見智能語音賽道未來之路

專訪 | 標貝科技劉博:洞見智能語音賽道未來之路

熱門標簽:淘寶地圖標注類目怎么樣 地圖標注都有什么項目 河南400電話辦理公司 400電話辦理皆往翰諾科技 加拿大400電話辦理 高德地圖標注點客服電話 電話外呼系統(tǒng)有前景 安陽防封卡電話機器人優(yōu)勢 滄州外呼系統(tǒng)免費
  聚焦成長|賦能品牌
  為助力園區(qū)企業(yè)品牌宣傳、打造企業(yè)創(chuàng)新生態(tài),中關村東升科技園推出原創(chuàng)欄目《企業(yè)家專訪》。以聚焦成長+賦能品牌為主題,深入了解企業(yè)成長歷程、角色定位、企業(yè)文化等,并深入挖掘企業(yè)需求,提升企業(yè)長期發(fā)展競爭力。
  本期《企業(yè)家專訪》欄目特別邀請標貝(北京)科技有限公司創(chuàng)始人CEO劉博,透過標貝科技在智能語音領域的技術深研與發(fā)展路徑,洞見智能語音賽道未來之路。
  標貝科技創(chuàng)始人CEO劉博
  中歐EMBA,對外經貿大學碩士;連續(xù)創(chuàng)業(yè)者,曾創(chuàng)立蓋博資本管理有限公司,擔任創(chuàng)始人兼CEO;2016年,創(chuàng)立標貝科技,負責整體戰(zhàn)略發(fā)展、運營管理及資本等。
  語音作為語言的物質載體和人類日常生活交流的重要信息載體,承載著豐富的語言內涵,是人類進行信息交流的重要傳遞通道。日常生活中,超過20%以上的交流都需要通過語音來完成。同一語音情境下,不同的語調、語氣和情緒的不同都會影響語義的傳達。隨著人工智能時代的到來,智能語音交互技術也成為了人機智能交流的重要載體。智能語音作為橋接人和機器語音交流的人工智能應用,一方面承載著機器和人的交流,另一方面直達知識和邏輯。如何通過海量數(shù)據(jù)的快速學習,讓機器理解不同情緒、語調下的多人語音內容和含義,通過機器生成更加自然的聲音體驗,是語音交互始終致力解決的難題。
  標貝科技通過語音技術與數(shù)據(jù),將情感與用戶的有機串聯(lián),不斷拓展AI語音技術的應用場景,圍繞生活場景、辦公效率、行業(yè)協(xié)同,打造完整的智能語音生態(tài)服務體系。
  據(jù)了解,標貝科技從2016年成立至今,基于先進AI語音算法及海量數(shù)據(jù)規(guī)模優(yōu)勢,已推出多場景應用的語音交互方案,包括通用場景的語音合成、語音識別,以及高音色TTS定制、聲音復刻、情感合成和聲音轉換等在內的語音技術產品。為機器賦予生命力,能夠有溫度的、有情感的與用戶進行交流,讓人機交互變得更簡單、美好。
  短短幾年時間,標貝科技從默默無聞到科技黑馬,從悄無聲息到一鳴驚人,更是在2020年成功入選中國科創(chuàng)產業(yè)新銳TOP50榜單。讓我們回顧標貝科技的成長歷程,共同探索標貝如何實現(xiàn)從0到1的技術夯實,以及從1到10的快速成長,從而處于智能語音交互領域行業(yè)標桿地位的探索升級之路。
  第一階段
  語音賽道數(shù)據(jù)為王
  2016年,標貝科技于中關村東升科技園成立。作為一家專注于智能語音交互和AI數(shù)據(jù)服務的人工智能公司,短短5年時間,標貝科技已與華為、騰訊、阿里、字節(jié)跳動、人民日報、新華社等百余家知名企業(yè)及機構客戶建立戰(zhàn)略合作,服務項目累計超過1000項,涵蓋有聲閱讀、智能客服、智慧金融、AI教育、泛娛樂、自動駕駛、智慧城市等眾多領域。
  作為語音交互技術領域的黑馬,標貝除了技術的深研和專注外,創(chuàng)始人劉博對于智能語音賽道的專注和獨到的戰(zhàn)略布局,也是標貝能在短時間內脫穎而出、巨量增長的關鍵。
  回望整個標貝科技發(fā)展進程及技術路徑,劉博表示,標貝創(chuàng)立之初便進行了前瞻性的數(shù)據(jù)產業(yè)布局,基于3-5年的經驗及技術累積迭代,標貝已經建立了超過10萬小時的數(shù)據(jù)庫,這些數(shù)據(jù)累積也為下一階段的技術運用打下了堅實基礎,初步建立了標貝的核心競爭力。
  專注、務實、創(chuàng)新,是標貝一路積微成著,走向行業(yè)領先道路上不可或缺的因素。
  第二階段
  算法深耕創(chuàng)新語音合成
  2017年,標貝邁入第二發(fā)展階段,即從數(shù)據(jù)的累積到基于算法的深層探索。劉博表示,海量的數(shù)據(jù)積累,為垂直行業(yè)多元化場景的深度結合打下了堅實的基礎?;诤A空鎸崱⒂袦囟?、有情感的語音積累,結合算法的優(yōu)化迭代,標貝科技推出了可應用于泛娛樂、智能家居、智能客服等多個行業(yè)的多語種,多音色,多情緒的語音交互解決方案,實現(xiàn)了無差別與真實交互的虛擬語音交互。
  例如為金融領域提供的具有雙錄主播功能解決方案,通過提供無感知的虛擬數(shù)字人交互,在時效保證、服務標準、服務質量、服務時長等方面既保證了輸出的一致性,也減緩了企業(yè)的運營成本。
  同時,標貝科技融合了語音喚醒、語音識別、語音合成、語義理解和人臉識別等系列技術,通過移動設備、智能大屏等終端展現(xiàn)形式,從多場景的實際需求出發(fā),打造的人機交互解決方案-AI虛擬數(shù)字人,以高仿真服務和7*24小時無差別的服務輸出,滿足場館介紹、產品介紹、業(yè)務介紹使用者只需選擇想要了解的內容進行問詢或操縱,虛擬數(shù)字人便可以娓娓道來,效果不輸真人,實現(xiàn)用戶與虛擬數(shù)字人之間的面對面互動交流、服務導覽、智能問答、業(yè)務咨詢等服務,以豐富的行業(yè)知識庫、靈活的配置管理、交互數(shù)據(jù)快速迭代更新,進一步實現(xiàn)了企業(yè)的降本增效。
三星堆講解
  語音合成方面,標貝科技發(fā)展至今已歷經三個階段,無論是在場景落地還是技術演化方面,均有巨大突破。
  1.0階段注意力機制深度學習首次商用
  為了提高語音合成的自然流暢度,標貝科技的語音合成技術在聲學、韻律上采用了基于Attention機制的深度神經網絡技術模型,充分利用文本數(shù)據(jù),構建前端模塊、選擇合適的聲碼器,降低運算量,實現(xiàn)合成語音的發(fā)音自然、清晰、韻律感流暢,讓機器與人的互動顯得更親近。
  2.0階段音色擴展個性化合成
  為了滿足不同場景的需求,標貝科技在音色和場景豐富度上持續(xù)發(fā)力?;诤A空Z音數(shù)據(jù)的優(yōu)勢,對音色庫進行充分擴充,推出支持不同年齡、性別、以及語種的多類型音色的TTS2.0解決方案,并支持用戶個性化需求定制,滿足了多場景及多業(yè)務的需求。
  語音技術方面,標貝打造了支持聲音復刻、情感合成等個性化、差異化的語音技術服務。聲音復刻與情感合成是基于語音技術本身的創(chuàng)新型應用。通過復刻聲音,為聲音注入豐富的情感,深度挖掘合成語音的個性化、定制化價值,更好的匹配有聲閱讀、AI教育等應用場景。
  3.0階段深度學習框架升級,更有表現(xiàn)力更自然的聲音
  全新升級的TTS3.0技術采用全新的Transformer機制和GAN聲碼器,升級了全新的模型結構的基礎上,依舊保持了對tts2.0舊模型的全部兼容,最大程度地保證無縫升級。同時,新系統(tǒng)使用了高維度的聲學信息,可以承載更多的聲音細節(jié),顯著提升了現(xiàn)有發(fā)音效果。無論是自然講話、情緒講話、還是角色模仿,都大大提升了多場景下角色和情感表達判斷的精確性,同時保障了輸出音質的穩(wěn)定、清晰、順暢,聲碼器采用GAN結構,不但高效且真實的還原了波形,同時為合成聲音注入了真實質感。
  第三階段
  需求出發(fā)打造AI語音生態(tài)戰(zhàn)略
  提及智能語音的未來愿景及標貝的發(fā)展,劉博的戰(zhàn)略格局則更為宏觀。在訪談中劉博透露:人工智能的終極目的是解決實際需求。任何單點產品都無法完全解決核心問題,標貝更希望通過數(shù)據(jù)的積累,以及算法的深度融合,最終實現(xiàn)一套完整的解決方案,形成優(yōu)化、快速響應的能力,從而打造標貝獨特的競爭優(yōu)勢和技術壁壘。近年來,高性能計算、信號處理、模式識別及聲學技術發(fā)展迅速,針對不同應用需求而研究開發(fā)語音識別系統(tǒng)已成為可能,因此,語音識別技術在智慧辦公、智慧政務、物聯(lián)網、車聯(lián)網等眾多領域得到了廣泛的推廣和應用。同時,標貝還在不斷拓展金融和泛娛樂版塊,通過三大場景的場景布局,打造未來戰(zhàn)略方向。
  劉博補充說道,為進一步提升技術產品服務能力及人工智能語音場景落地,滿足更多開發(fā)者和商業(yè)化客戶對于智能語音交互的需求,全效助力開發(fā)者構建AI語音生態(tài),標貝科技在今年4月正式推出智能語音開放平臺。
  目前,標貝開放平臺提供的智能語音服務主要包括語音合成(TTS)與語音識別(ASR),開發(fā)者可以在平臺操作界面創(chuàng)建多個智能語音應用,系統(tǒng)會為該應用自動匹配語音識別和語音合成服務。語音識別包括一句話識別、長語音識別、錄音文件識別;語音合成可選擇在線合成、離線合成、長文本合成三種,用戶可根據(jù)自身需求進行用量、音色、并發(fā)等接入試用。通過快速的體驗、測試,讓開發(fā)者和合作伙伴直接感受標貝語音技術的能力,通過豐富的文本接入指導,以及便捷的支付方式,讓用戶可以一站式的購買接入標貝的語音服務。
  未來
  屬于智能語音最好的時代即將到來
  談及智能語音的未來發(fā)展,劉博給出了自己的理解和預測,其實從20-21年開始。我們可以發(fā)現(xiàn)整個語音市場已經逐漸進入快速爆發(fā)性的增長階段。隨著人工智能、計算技術和信號處理技術的飛速發(fā)展,以及自然語言與計算機網絡的結合,語音信息智能處理作為人機交互的關鍵技術,已成為世界各國研究者廣泛關注的熱點問題之一。尤其是隨著數(shù)字化及5G時代的到來,人們迫切需要對具有多通道、多場景、多語言特征的海量語音信息技術進行智能語音的深化研究與創(chuàng)新突破。
  智能語音第一次帶來了不需要任何門檻的全人類的協(xié)作,人工智能的自我演化就此開始,目前智能語音在進化的道路上,還需要突破語義理解這道門檻,一旦機器能真正用人類的方式進行溝通,做出超越經驗的預判,才真正實現(xiàn)了所謂的智能。但我相信不會太久,屬于語音最好的時代,便會到來!
  官網:https://www.data-baker.com/#/index

標簽:張掖 定州 新疆 欽州 金華 安順 邯鄲 銅川

巨人網絡通訊聲明:本文標題《專訪 | 標貝科技劉博:洞見智能語音賽道未來之路》,本文關鍵詞  專訪,標貝,科技,劉博,洞見,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《專訪 | 標貝科技劉博:洞見智能語音賽道未來之路》相關的同類信息!
  • 本頁收集關于專訪 | 標貝科技劉博:洞見智能語音賽道未來之路的相關信息資訊供網民參考!
  • 推薦文章