换了30多种方言，我们竟然没能考倒中国电信的语音大模型

今日应用

《动手学深度学习》 — 动手学深度学习 2.0.0 documentation

换了30多种方言，我们竟然没能考倒中国电信的语音大模型

重点标签 方言、语音助手、中国电信、星辰语音识别大模型、人工智能

TeleAI通过多年积累，构建了超过30种、30万小时的高质量方言数据库，为模型提供了丰富的训练材料。团队还自主研发了“蒸馏+膨胀”联合训练算法，实现了单一模型支持30种方言自由混说语音识别。星辰语音识别大模型是业内首个开源的基于离散语音表征的语音识别大模型，通过新范式降低了推理时语音传输比特率。

星辰语音识别大模型在多个国际赛事中获得冠军，如Interspeech 2024离散语音单元建模挑战赛的ASR赛道。在多方言语音识别数据集KeSpeech任务上，实现了92.97%的字准确率。此外，中国电信在算力方面具有优势，拥有丰富的网络和算力资源，能够支持大模型的训练和推理。

星辰超多方言语音识别大模型已经在智能客服系统等领域试点应用，能够准确识别和转录各种方言的语音输入，提升交互体验。长远来看，该模型的方言能力可在社会生活场景中发挥价值，如智能座舱、情感陪伴等。此外，大模型技术的应用还将推动对方言文化的保护，帮助记录和保护濒危方言，促进方言的传承和学习。

中国电信在AI领域具有资源优势和业务优势，是国内最早布局AI的运营商之一。TeleAI还同步研发了超自然语音生成大模型，实现零样本声音复刻，将进一步突破语音识别和生成应用水平，加速通用AI语音助手的落地应用。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...