阿里云會議神器通義聽悟如何煉成？達摩院自研AI模型立功

時間：2023年06月01日14時00分46秒 admin 6℃ 0

簡介：快科技6月1日消息，今天，阿里云正式公布了人工智能加持下的會議記錄AI助手通義聽悟。通義聽悟的誕生，離不開阿里的通義千問大模型，但同時，阿里達摩院推出的自研語音識別基礎模型Paraformer，以及說話人識別基礎模型CAM++，也至...

快科技6月1日消息，今天，阿里云正式公布了人工智能加持下的會議記錄AI助手通義聽悟。

阿里云會議神器通義聽悟如何煉成

通義聽悟的誕生，離不開阿里的通義千問大模型，但同時，阿里達摩院推出的自研語音識別基礎模型Paraformer，以及說話人識別基礎模型CAM++，也至關重要。

據悉，Paraformer是目前業界首個應用落地的非自回歸端到端語音識別模型，在推理效率上，最高可較傳統模型提升10倍之高，且準確度方面在多個權威數據集上位列榜首。

在通義聽悟中，該模型的主要功勞，就是讓AI能夠“聽清楚”會議中人們都說了什么。

根據此前達摩院Paraformer開發團隊發布的論文提供的信息，該模型采用單輪非自回歸模型，解決了自回歸端到端模型Transformer存在的計算并行度低，無法高效結合GPU進行推理的問題。

同時，Paraformer通過創新的預測器設計，實現對目標文字個數及對應聲學隱變量的高準確度預測，并引入機器翻譯領域的瀏覽語言模型思路，顯著增強了模型對上下文語義的建模。

阿里云會議神器通義聽悟如何煉成

如果說Paraformer模型解決的是通義聽悟“聽清楚”的問題，那么CAM++說話人識別基礎模型，就解決了通義聽悟分辨“誰在說話”的問題。

在1953年，Colin Cherry提出了語音領域著名的“雞尾酒會問題”，該問題用于討論在酒會等嘈雜環境下，準確區分出不同說話人信號的問題。

顯然，通義聽悟面對的會議、課堂等主要應用場景，就是典型的“雞尾酒會問題”場景。

為了解決這一問題，達摩院在CAM++說話人識別基礎模型中，采用了基于密集型連接的時延網絡（D-TDNN），每一層的輸入均由前面所有層的輸出拼接而成。

這種層級特征復用和時延網絡的一維卷積，可以顯著提高網絡的計算效率。

阿里云會議神器通義聽悟如何煉成

據悉，CAM++在行業主流的中英文測試集VoxCeleb和CN-Celeb上，均刷新了最優準確率，并且在計算效率和推理速度上有著明顯優勢。

不難看出，通義聽悟之所以能夠成為新一代的“音視頻會議神器”，除了通義千問大模型作為負責思考理解“大腦”外，充當“耳朵”的Paraformer與CAM++，也至關重要。

可以說，在阿里達摩院于人工智能領域的大量研究與技術積累下，通義聽悟的誕生并非空中樓閣，而是基礎扎實，相當“水到渠成”的一件事。

同理，在此之后，我們也可以期待更多與之類似的，基于達摩院自研AI技術誕生的人工智能應用工具。

阿里云會議神器通義聽悟如何煉成

以上是小編為大家整理的【阿里云會議神器通義聽悟如何煉成？達摩院自研AI模型立功】全部內容，本文章來源于互聯網，如若有侵權行為，請聯系站長刪除。

◎歡迎參與討論，請在這里發表您的看法、交流您的觀點。

晚上一个人睡不着偷偷看b站苹果视频