百度宣布在其語音開放平臺上線三周年之際,向公眾開放四項全新語音技術的接口,以使用戶在使用語音與機器進行交流時,享受到更奇妙的交互體驗。
百度公司首席科學家吳恩達在演講中對百度最新的語音技術進展表示滿意,他簡單介紹了這四項深具革命性的語音技術,即情感合成、遠場方案、喚醒二期技術和長語音方案,并宣布即日起百度將這幾項技術免費開放給用戶和開發者共享。
這些技術旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關鍵問題。例如,百度情感合成技術主要聚焦在為合成語音“加入情感”,目前可達到接近真人發聲效果,百度今年早些時候曾利用此技術,復原已逝明星張國榮的聲音。
類似地,開發者還可以利用新的接口,使語音識別距離增加到3-5米,將設備的語音喚醒率提升到95%以上同時更省電誤報更少,或提升長時間語音識別的準確率問題。這將為語音技術帶來遠比現在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,前兩者的代表是百度的“小度機器人人機語音交互點餐”,已在上海肯德基旗艦店投入應用,可遠距離隨時應答點餐。后者則已經在諸多內容記錄、智能客服、視頻轉寫等應用場景表現出巨大的想象空間。
在這場名為“極智開放·共語未來”的慶典上,來自斯坦福大學的人工智能專家JamesLanday,也分享了一項與百度合作的最新研究成果,該研究發現智能手機在語音輸入時,輸入速度比鍵盤輸入快3倍。他表示,“近兩年,受益于大數據和深度學習技術的不斷發展,語音識別技術突飛猛進,速度及準確性都有了長足進步。”
吳桂林打開視頻應用“愛奇藝”的手機客戶端,說“VIP續費”,系統準確跳轉到了相應的充值頁。這位愛奇藝技術總監指出,借助百度語音開放平臺,每天有百萬以上的愛奇藝用戶使用語音搜索,其中80%以上轉化為有效點擊。
讀者甘肅數碼科技有限公司總經理金大時認為,語音開放平臺的價值并不止于商業。“讀者數字農家書屋”已在甘肅慶陽市試點成功,完成了65個新農村“數字農家書屋”。他表示,“很多不識字的老年人和留守兒童,語音合成讓他們也享受到了閱讀的樂趣。
目前,百度語音開放平臺的合作伙伴已涵蓋多個領域和場景,包括智能手機領域的聯想、中興;智能家居領域的長虹智能電視、康佳智能電視、SONY智能電視;汽車行業的特斯拉、途勝;智能設備領域的惠普、艾米通訊;智能服務領域的攜程、手機QQ閱讀等。
“語音是人類交流最自然的方式,通過開放語音技術,百度希望可以引領語音功能產品的繁榮發展。”吳恩達表示。
作為國內最為開放的領先語音技術開放平臺,百度語音開放平臺自2013年10月上線以來,每日在線語音識別要求從2013年的500萬上升到今天的1億4千萬,在線語音合成每日請求達2億,開發者數量超過14萬。
在技術指標方面,百度語音識別準確率目前已高達97%,居于全球領先。今年2月,百度深度語音識別系統DeepSpeech2入選MIT2016十大突破技術。包括語音技術在內的百度大腦,入選2016第三屆烏鎮世界互聯網大會15大領先科技成果,成為國內唯一入選的綜合型人工智能技術。