實時語音識別

基于Deep voice2的端到端建模，將音頻流實時識別為文字，并返回每句話的開始和結束時間，適用于長句語音輸入、音視頻字幕、會議等場景

功能介紹

introduce

基于Deep voice2端到端建模，超過10萬小時數(shù)據(jù)訓練，多采樣率多場景聲學建模，近場中文普通話識別準確率達98%

支持普通話和略帶口音的中文識別；支持英文識別

使用大規(guī)模數(shù)據(jù)集訓練語言模型，對識別中間結果進行智能糾錯，并根據(jù)語音的內容理解和停頓智能匹配合適的標點符號，。??？

支持WebSocket API，支持Android、iOS、Linux SDK，可以在多種操作系統(tǒng)、多種設備終端上調用，快速上手，簡單易用

首包響應時間毫秒級，并實時展示中間文字結果，快速識別音頻流

文字識別結果支持時間戳識別返回的文字結果帶有時間戳，展示VAD切分句子開始和結束時間，方便進行功能開發(fā)

scene

語音輸入準確高效，解放雙手，說話內容實時展示在屏幕上，聊天順暢

直播新玩法，主播說話可以直接將說話內容實時轉寫為字幕展示在屏幕上，或者可進行二次字幕編輯

大會演講可以在屏幕上實時展示嘉賓演講字幕，逐字展示并智能糾錯

會議場景中，每個說話人的語音可以實時記錄，提升會議記錄效率

對老師課堂內容實時記錄，校方可以進行教學內容記錄以及教學質量評估

advantage

基于Deep Peak2端到端建模，多采樣率多場景聲學建模，近場中文普通話識別準確率達98%

支持WebSocket API方式、Android、iOS、Linux SDK方式調用，可以適用于多種操作系統(tǒng)、多設備終端均可使用

企業(yè)級穩(wěn)定服務保障，專有集群承載大流量并發(fā)，高效靈活，服務穩(wěn)定

中文普通話模型可在語音自訓練平臺上零代碼自助訓練，上傳文本語料即可有效提升業(yè)務詞匯的識別準確率5-25%