簡介:快科技6月1日消息,今天,阿里云正式公布了人工智能加持下的會議記錄AI助手通義聽悟。通義聽悟的誕生,離不開阿里的通義千問大模型,但同時,阿里達摩院推出的自研語音識別基礎模型Paraformer,以及說話人識別基礎模型CAM++,也至...

快科技6月1日消息,今天,阿里云正式公布了人工智能加持下的會議記錄AI助手通義聽悟。

阿里云會議神器通義聽悟如何煉成

通義聽悟的誕生,離不開阿里的通義千問大模型,但同時,阿里達摩院推出的自研語音識別基礎模型Paraformer,以及說話人識別基礎模型CAM++,也至關重要。

據悉,Paraformer是目前業界首個應用落地的非自回歸端到端語音識別模型,在推理效率上,最高可較傳統模型提升10倍之高,且準確度方面在多個權威數據集上位列榜首。

在通義聽悟中,該模型的主要功勞,就是讓AI能夠“聽清楚”會議中人們都說了什么。

根據此前達摩院Paraformer開發團隊發布的論文提供的信息,該模型采用單輪非自回歸模型,解決了自回歸端到端模型Transformer存在的計算并行度低,無法高效結合GPU進行推理的問題。

同時,Paraformer通過創新的預測器設計,實現對目標文字個數及對應聲學隱變量的高準確度預測,并引入機器翻譯領域的瀏覽語言模型思路,顯著增強了模型對上下文語義的建模。

阿里云會議神器通義聽悟如何煉成

如果說Paraformer模型解決的是通義聽悟“聽清楚”的問題,那么CAM++說話人識別基礎模型,就解決了通義聽悟分辨“誰在說話”的問題。

在1953年,Colin Cherry提出了語音領域著名的“雞尾酒會問題”,該問題用于討論在酒會等嘈雜環境下,準確區分出不同說話人信號的問題。

顯然,通義聽悟面對的會議、課堂等主要應用場景,就是典型的“雞尾酒會問題”場景。

為了解決這一問題,達摩院在CAM++說話人識別基礎模型中,采用了基于密集型連接的時延網絡(D-TDNN),每一層的輸入均由前面所有層的輸出拼接而成。

這種層級特征復用和時延網絡的一維卷積,可以顯著提高網絡的計算效率。

阿里云會議神器通義聽悟如何煉成

據悉,CAM++在行業主流的中英文測試集VoxCeleb和CN-Celeb上,均刷新了最優準確率,并且在計算效率和推理速度上有著明顯優勢。

不難看出,通義聽悟之所以能夠成為新一代的“音視頻會議神器”,除了通義千問大模型作為負責思考理解“大腦”外,充當“耳朵”的Paraformer與CAM++,也至關重要。

可以說,在阿里達摩院于人工智能領域的大量研究與技術積累下,通義聽悟的誕生并非空中樓閣,而是基礎扎實,相當“水到渠成”的一件事。

同理,在此之后,我們也可以期待更多與之類似的,基于達摩院自研AI技術誕生的人工智能應用工具。

阿里云會議神器通義聽悟如何煉成

以上是小編為大家整理的【阿里云會議神器通義聽悟如何煉成?達摩院自研AI模型立功】全部內容,本文章來源于互聯網,如若有侵權行為,請聯系站長刪除。

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

晚上一个人睡不着偷偷看b站苹果视频