自动语音识别 (ASR),也称为语音到文本或音频转录,是一种将存储在音频或视频文件中的口语转换为书面文本的技术。
ASR 旨在通过两种方式使计算机与人类用户之间的交流更加顺畅:让计算机理解口头命令,并从基于语音的来源(例如,根据口述或会议记录)转录文本,目的是以易于处理和显示的方式存储记录。
尽管 ASR 已经存在了几十年,但导致转录变得广泛可用的真正突破发生在过去十年,这得益于训练数据的日益普及、硬件成本的民主化以及深度学习模型的兴起。
这些因素促成了强大的 ASR 系统的开发,能够为各种业务应用程序提供支持,例如指挥助理、语义搜索、自动呼叫机器人、长文本听写、社交媒体应用程序中的自动字幕、虚拟会议中的笔记工具等等。
在这里,我们将回顾现代 ASR 引擎及其驱动模型,重点关注我们提出的当今最先进的语音识别系统,引领实用的企业级语音识别之路。

ASR 技术简史
ASR 研究始于 20 世纪中叶,其标志是早期尝试使用计算机进行语言处理。最初的声学模型难以处理口音、方言、同音词(发音相同但含义不同且拼写不同的词)以及语音细微差别,例如特定主题的术语、地方表达等。
随着该领域统计模型和符号自然语言处理 (NLP) 的进步,一些软件供应商开始尝试在其产品中加入基于语音的功能。然而,直到 2010 年代,随着机器学习的兴起和 Transformer 的引入(由 Google 的一个研究小组于 2017 年推出),高质量语音识别才走上真正商品化的道路。

通过利用“注意力机制”,Transformer 能够在处理输入时捕获长距离依赖关系。在语音识别中,这意味着对一个单词的准确识别需要通过对句子或命令的前一个和后一个单词的识别来辅助,这在实践中可以更好地实现“情境化”的语音整体识别(而不是纯粹基于声学的识别)。
将转换器集成到 ASR 架构中意味着从单纯的语音识别转向更广泛的语言理解,这与专门用于语言处理的 AI 模型齐头并进。这种语言理解不仅包括将音频转录为文本或命令,还包括在检测到上下文时即时调整输出、识别不同的说话者(即“说话者分类”,目前只有最先进的 ASR 模型才能做到这一点)、添加具有单词解析的时间戳(“单词级时间戳”)、过滤脏话和填充词、随时进行翻译、处理标点符号等等。

ASR 系统的工作原理
语音转文本人工智能涉及一个复杂的过程,其中有多个阶段和多个人工智能模型协同工作。在深入探讨这篇文章的主题之前,我们先来简要介绍一下语音识别的关键阶段。
第一步是通过降噪和其他技术对音频输入进行预处理,以提高其质量和适合下游处理。清理后的音频将进行特征提取,在此过程中,音频信号被转换为模型可处理的表示元素,模型将实际转换为文本。
接下来,一个专门的模块会提取音素,即声音的最小单位。然后,这些片段会用某种语言模型进行处理,该模型会决定单词序列,然后将这些决定解码为构成原始转录音频的单词或标记序列。最后,至少要执行一个额外步骤来提高准确性和连贯性、解决错误并格式化最终输出。
在现代 ASR 中,大多数(如果不是全部)步骤都是耦合的,并由包含变换器的 AI 模块组成,以保留所含信息中的长距离耦合 – 换句话说,保留远距离单词之间的关系,以便更好、更连贯地塑造转录的文本。
但当然,每个确切的 ASR 模型都会以不同的方式处理这些步骤,从而导致不同的准确度、速度和对输入音频问题的容忍度。此外,每个 ASR 系统都会使用不同种类和数量的数据进行训练,这也会影响它们的性能和属性,例如不同语言之间的平衡性。
更多资讯 2img.ai
相关配图由微信小程序【字形绘梦】免费生成,直接扫码进入免费使用
暂时无法在飞书文档外展示此内容
2023 年最佳 ASR 发动机及其驱动型号评测
在过去的十年中,ASR 系统已经发展到前所未有的精确度,能够在几分钟内处理多种语言数小时的语音,并且具有丰富的音频智能功能,可以从文字记录中获取有价值的见解。
以下是 2023 年 ASR 领域最领先的开源和商业提供商,这些提供商基于其在企业用例中的整体表现。请注意,我们在本文中主要关注商业语音转文本提供商,并计划很快在单独的帖子中介绍开源替代方案。

OpenAI 的 Whisper ASR
OpenAI 的开源模型Whisper是当下的明星,它为 ASR 的准确性和灵活性树立了新的标准。
该 ASR 模型/系统经过了令人印象深刻的 680,000 小时音频的训练,在准确转录和速度方面表现出色,该模型能够在几分钟内转录数小时的音频。
2022 年 9 月发布时,Whisper 也被认为是一项突破,因为它支持 99 种语言的多语言转录,并且能够将其中任何一种语言的语音翻译成英语。它的最新版本Whisper v3发布,并被誉为在代表性不足的语言的准确性方面比其前身有所改进。
工作原理
Whisper 的架构基于端到端方法,以编码器-解码器转换器的形式实现。清理后的输入音频被分成 30 秒的片段,转换成频谱图,然后输入到编码器中。
然后,训练解码器预测相应的文本标题,并与特殊标记混合,指导单一模型执行语言识别、短语级时间戳、多语言语音转录和翻译等任务(如果需要)。

换句话说,预先训练的 Transformer 架构使模型能够掌握转录句子的更广泛背景,并根据这种理解“填补”转录中的空白。从这个意义上讲,可以说 Whisper ASR 利用生成式 AI 技术将口语转换为书面文本。
权力与限制
用于训练 Whisper 模型的数十万个音频包括来自各种在线来源的 2/3 的英语。虽然这使得该模型最适合英语,但它默认对各种口音、地方表达和其他语言细微差别比大多数替代方案更敏感。
此外,它是少数能够随时自动检测语言的 ASR 系统之一,而大多数其他 ASR 系统需要预先定义语言。
Whisper 最大的缺点之一是会产生幻觉。一些用户报告称,最新型号 Whisper v3(据称在少数语言的准确度方面比其前身 v2 有所改进)比其前一版本产生了更多的幻觉。
好消息是,Whisper 模型是开源的,因此可以根据特定需求对其进行调整、调整和改进,例如,针对特定语言和术语进行微调并扩展其功能集。它有五种大小可供选择,从“仅”3900 万到超过 15 亿个参数,允许开发人员根据预期用途平衡计算成本、速度和准确性。
也就是说,在为企业项目内部部署 Whisper 模型时,应该准备好承担因高计算要求和先进的工程资源而产生的巨大成本,这些成本是大规模提升核心模型功能所必需的。
Google 语音转文本(Google Cloud)
Google Speech-to-Text是 Google 的一套云计算系统,提供用于计算、数据存储、数据分析、管理和 AI 的模块化服务。云 AI 服务包括文本转语音和语音转文本 (ASR) 工具。这些工具支持 Google 助手、基于语音的搜索系统、语音辅助翻译、Google 地图等程序中的语音控制、YouTube 上的自动转录等。
工作原理
谷歌的 ASR 服务利用了各种模型,这些模型充分利用了该公司先进的 AI 能力。虽然这些模型的具体性质尚未披露,但它们自然是建立在该巨头自身在该领域的研究基础之上的。
较早的博客文章披露了其早期 ASR 系统的工作原理。然而,这些都早于 transformer 的时代,而谷歌研究的最新博客文章包括对谷歌大脑的 Conformer的描述,这是一种用于语音识别的卷积增强转换器。
Google Research 博客的最新信息解释说,其最新的 ASR 模型是通用语音模型 (USM)。该模型实际上是一个语音模型系列,拥有 20 亿个参数,这些参数是在 1200 万小时的语音和 280 亿句涵盖 300 多种语言的文本上训练的。正如他们在 USM 博客文章中明确指出的那样,底层模型仍然是 Conformer,它应用注意力、前馈和卷积模块通过卷积子采样处理语音信号的输入频谱图,然后一系列 Conformer 块和投影层产生最终输出。
权力与限制
谷歌的 ASR 系统经过了来自300 多种语言和方言的数据训练,理论上可以成为迄今为止最多语言的系统,尤其是他们的目标是在不久的将来覆盖约 1,000 种语言!然而,这种说法应该谨慎对待:鉴于语音转文本技术的现状,在所有这些语言中实现足够高的准确度以供实际使用是极具挑战性的。
更现实的是,如今使用 Google ASR 系统的主要优势在于其享有盛誉的业绩记录。作为云计算行业的主要参与者,Google 提供了多功能集成解决方案,可满足各种 AI 和机器学习需求。
原则上,得益于其 googolplex 资源,Google 的 ASR 系统应该具有很高的可扩展性。然而,在实践中,我们的许多客户在反复体验到质量差和等待时间过长后才来找我们。
此外,与规模较小、高度专业化的 ASR 提供商相比,Google ASR 系统的用户可能会遇到更高的成本。其计费系统在对 ASR 时间进行四舍五入时非常不方便,例如,15.14 秒的语音到文本转换会被四舍五入为 30 秒。此外,与专注于音频智能功能的平台相比,定制选项更加有限。
Google 语音转文本系统的最大优势可能就是它们原生集成到了 Google Meet 和 Google Chrome 中。您可以使用 JavaScript 中的 WebSpeech API 为您的应用添加语音识别和语音合成功能,只需编写简单的代码,即使是非专家也可以免费编写,并且不需要任何 API 密钥
然而,请注意,根据我们的经验,这项免费服务远未达到最先进的水平,与其他模型相比,其准确性相当差,而且停机时间很长——可能只是没有应用谷歌的最新模型,而是应用了一些较旧的模型。
此外,Chrome 中提供的 ASR 系统不可自定义(例如,众所周知,Web Speech API 中指定的语法扩展多年来一直不起作用)。当然,只有当您的用户使用 Chrome 浏览器访问您的网页时,此 ASR 系统才会起作用。
Azure(微软的云计算平台)
微软是另一家推出自有 ASR 技术的科技巨头,其产品为Azure Speech-to-Text。Azure符合预期的最新技术水平,提供说话人分类、单词级时间戳和其他功能,支持实时和预录音频。其最大的优势可能是可定制性,如下所述。
工作原理
如果谷歌很少透露其用于 ASR 的 USM 系统的工作原理,那么微软就更接近其专有的语音识别技术。
权力与限制
根据该公司网站,Azure 可以将音频转录为 100 多种语言和变体的文本,执行说话人日志分析以确定谁在何时说了什么,接受现场或录制的音频,清理标点符号,并将相关格式应用于输出。
开发人员可以将 Azure 的强大功能融入多种编程语言,并且与谷歌的解决方案一样,它不仅拥有丰富的文档,还拥有庞大的用户群可供咨询。
与其他大公司不同,Azure 最有趣的功能是可以自定义模型以提高特定领域术语的准确性。特别是,您可以上传音频数据和转录文本以自动获得经过微调的模型。此外,使用您在 Office 365 中创建的自己的文件,您可以在实践中优化其内容的语音识别准确性,从而获得适合您的特定需求或组织的模型。
亚马逊转录
亚马逊的转录工具 Amazon Transcribe 于 2017 年 11 月首次发布,多年来不断发展壮大,支持多种语言,并通过自定义词汇和行业特定工具(如医疗保健和呼叫中心)满足各种垂直业务需求。
最新消息是,他们的转录引擎几周前刚刚升级。正如AWS 博客上宣布的那样,该服务现在支持 100 多种语言(之前为 39 种),这要归功于新的基础 ASR 模型,该模型经过数百万小时未标记的多语言音频的训练,主要目的是提高系统对历史上代表性不足的语言的准确性。
工作原理
和微软的情况一样,亚马逊专有引擎的内部工作原理鲜为人知。由于我们自己还无法测试该模型,以下是我们对最新版本的了解。首先,该模型旨在均匀提高 100 种语言的性能,这要归功于优化的训练配方,据报道,“通过智能数据采样来平衡语言之间的训练数据。”根据博客文章,这帮助按量付费的 Amazon Transcribe 在大多数语言中将整体准确率提高了 20-50%。
此外,最新版本扩展了所有 100 多种语言的几个关键功能,包括自动标点符号、自定义词汇、自动语言识别、说话人分类、单词级置信度分数和自定义词汇过滤器。
权力与限制
通过新模式,亚马逊巩固了其提供一站式转录体验的 记录,将语音转文本与一系列与易用性、定制、用户安全和隐私相关的附加功能相结合。
该公司的明显优势在于它可以直接访问大量专有数据,并且拥有可实现规模化的整体云基础设施。该公司针对特定垂直行业的定位同样前景光明,据称,呼叫中心分析部门由生成式 AI 模型提供支持,这些模型可以总结客服人员与客户之间的互动。
现在说说缺点:与所有大型技术提供商一样,较长的处理时间是广泛报道的使用不便之处。与谷歌一样,AWS Transcribe 是最昂贵的商业替代方案之一,每小时转录收费超过 1 美元。虽然新模型是否真正提供更好的准确性还有待观察,但之前的性价比对用户来说大多是不利的。
我们还期待收到有关最新模型在各种语言中的真实表现的更多反馈,因为即使是像 Whisper ASR 这样一流的多语言模型,在其支持的 99 种语言的准确性方面也 难以取得均匀的结果。

Gladia 的 Whisper-Zero
作为该领域的新手,Gladia 于 6 月底推出了音频转录 API,其使命是为企业提供快速、准确、多语言的零麻烦转录和音频智能 AI,并提供基于 Whisper ASR 的最佳生产级解决方案。其关键差异化在于对开源模型进行了许多优化,旨在克服其历史局限性并增强其适应企业规模和需求的能力。
Gladia 的最新模型Whisper-Zero于 2023 年 12 月发布,使用超过 150 万小时的真实音频构建,可消除幻觉并大幅提高准确性。
工作原理
如前所述,Whisper 有五种不同的尺寸,其中较大的模型可以提供更好的准确性,但代价是更长的处理时间和更高的计算成本。
Gladia 的主要目标是在 Whisper 频谱上找到完美的平衡,并将该模型转变为面向企业客户的顶级质量、快速且经济可行的转录工具。如今,Whisper-Zero 的转录引擎基于专有的混合架构,其中优化发生在前面描述的端到端转录过程的所有关键阶段。
最终的系统以 ML 集成的形式运行,其中每个步骤均由增强型 Whisper 架构与多个附加 AI 模型相结合提供动力。由于这种多层优化,该模型能够实现优于开源和 API Whisper 的准确性和速度,尤其是在实际用例中。
权力与限制
Gladia API 充分利用了 Whisper ASR 的优点并克服了其局限性。更具体地说,任何希望大规模实现 Whisper 级准确度并包含更多功能的公司都可以在这里找到合适的选择。
Gladia 团队的核心成就之一是消除了 99.9% 的幻觉,这是原版 Whisper 的一个臭名昭著的缺点,为太多用户所知。此外,该公司特别注重集成高价值专有功能,如说话人分类、代码转换和带时间戳的实时转录。
他们的产品还以多语言功能而脱颖而出,Whisper-Zero 集成了一种新的语言模型,解决了口音浓重这一长期以来得不到满足的痛点。然而,与其他替代方案相比,该 API 目前在音频智能功能方面较为有限。
Assembly AI 的 Conformer-2
AssemblyAI打算为 ASR 相关任务提出一个安全且可扩展的 API,从基本的语音识别到自动转录和语音摘要,力图在呼叫中心和媒体应用的易用性和专业化方面脱颖而出。
工作原理
支持 AssemblyAI ASR 系统的主要 ASR 模型是Conformer-2,它是最近作为 Conformer-1 的演进而发布的。这些 Conformer 系统依赖于 Google Brain 的 Conformer,正如上文对 Google ASR 系统的介绍,它由一个与卷积层相结合的转换器架构组成 – 卷积层是 ASR 中使用的一种主要深度神经网络。
正如 AssemblyAI 在其网站上所解释的那样,常规的 Conformer 架构在计算和内存效率方面并不是最理想的。捕捉和保留输入序列中的长期信息所必需的注意力机制实际上是这些处理单元众所周知的瓶颈。AssemblyAI 的 Conformer-2 大概解决了这一限制,实现了更高效、更可扩展的系统。
AssemblyAI 目前的 ASR 模型 Conformer-2 是基于 110 万小时的英语音频数据进行训练的,对于专有名词和字母数字等有问题的词语的识别具有很强的鲁棒性,而且对噪声更稳定,延迟比其前身 Conformer-1 更低。

高效的 Conformer 编码器模型架构。来源:AssemblyAI
权力与限制
AssemblyAI 的 API 包括说话者计数和标记、单词级时间戳和分数、脏话过滤、自定义词汇表(现在的标准功能,用于整合特定主题的术语)和自动语言检测等功能。该系统因其始终如一的英语准确性而受到用户的普遍赞赏。
缺点是,一些用户报告了除英语以外的其他语言的性能不一致。语言检测和代码转换等问题可能会带来挑战。用户应该考虑这些因素,特别是在需要强大语言处理的应用程序中。
更新:截至 2024 年 4 月,Assembly AI 的最新核心模型是Universal-1,相对于 Conformer-2 而言具有一系列增强功能。
Deepgram 的 Nova
Deepgram提供语音到文本转换和音频智能产品,包括由语言模型驱动的自动摘要系统。
使用 Deepgram,开发人员可以处理实时流或录制的音频并快速转录,以支持媒体转录、对话式 AI、媒体分析、自动联络中心等用例。
工作原理
Deepgram 的 ASR 系统依赖于 Nova(自今年9 月起为版本 2 ),这是该公司基于两个基于变换器的子网络的专有模型。一个变换器将音频编码为音频嵌入序列,第二个变换器充当语言变换器,根据输入提示中的某些初始上下文将音频嵌入解码为文本。信息通过注意力机制在这两个子网络之间流动。
基于专有技术,Nova 使用的变压器已从原型变压器进行了修改,以纠正导致音频转录准确性和速度不理想的弱点。

Nova 2 的 Transformer 架构模型。来源:Deepgram
权力与限制
Deepgram 以其卓越的处理速度脱颖而出,成为市场上最快的 API 提供商之一。
另一方面,Deepgram 的用户可能会遇到准确性的潜在权衡,特别是在快速处理需求可能影响转录结果的准确性的情况下,例如实时转录或批量处理大量音频文件。然后,用户应仔细评估其特定要求以及与速度和准确性相关的权衡。
另一个限制是 Deepgram 的重点似乎主要放在英语上,虽然它确实支持其他语言,但对于训练数据不太广泛的语言来说,它可能不那么准确,就像 Whisper 所观察到的那样。
注意:除了 Nova 之外,该公司还提供了针对独特用例训练定制模型的可能性。然而,我们应该记住,微调模型是一种投资巨大的解决方案,而这个问题可以用成本较低但有效的技术(如即时注入)来解决。
Speechmatics 的 Ursa
Speechmatics是我们一系列专业竞争者中的第一个。该公司开发了专有的 ASR 和 NLP 模型,这些模型结合在单个 API 中,为转录系统提供语言识别、翻译、摘要等功能。
Speechmatics 旨在通过对 45 多种语言和方言的强大支持来使其产品脱颖而出。2018 年的一次更新使 Speechmatics 成为第一家开发综合语言包的 ASR 提供商,该语言包将所有英语方言和口音整合到一个模型中。
Speechmatics 网站展示了创建自动化支持中心解决方案、文件或实时供稿的隐藏字幕、监控提及和内容、虚拟会议中的自动笔记和分析等方面的示例应用程序。
工作原理
Speechmatics 将人工智能系统用于 ASR 技术的历史可以追溯到 20 世纪 80 年代,当时其创始人在剑桥大学学习期间率先采用了这种方法。
他们的最新模型名为Ursa,由三个主要模块驱动。首先,一个自监督模型通过 49 种语言的 100 多万小时未标记音频进行训练,掌握语音的声学表征。
其次,这些语音表示通过由成对的音频转录数据训练的网络进行处理,以产生音素概率。
第三,使用大型语言模型将这些音素概率映射到输出记录中,该模型可以根据输入的音素识别最可能的单词序列。
Speechmatics 报告称,其 ASR 系统针对 GPU 进行了优化,以支持大规模操作。虽然这是我们在此讨论的所有企业级 API 的标准先决条件,但这种优化进一步使 Ursa 能够并行处理大量音频流,特别是在执行说话人分类时管理多个语音输入。
权力与限制
Speechmatics 称其 ASR 系统是世界上最准确的系统,声称与微软基于 Azure 的 ASR 和 OpenAI 的 Whisper 相比,其性能准确度有显著提升。然而,其网站上提供的最新比较数据来自 2023 年 3 月,当时 Whisper v3 尚未发布。
您可以立即检查 Speechmatics 的 ASR 系统在实时字幕和翻译服务方面的表现。他们的网站展示了BBC 世界服务的直播示例,该直播几乎完美地实时转录,延迟极小,并配有实时翻译。
缺点是,一些用户报告称,很难扩展模型来处理大量转录请求,这可能是企业级应用程序的一个限制。此外,正如我们在之前的博客文章中提到的,Speechmatics 的定价结构可能很复杂,可能会导致意外成本。
结论
在对 2023 年领先的 ASR 系统的探索中,我们重点介绍了 Deepgram、Assembly AI、Google 和 Whisper/OpenAI 提供的选项的主要功能和注意事项。评估涵盖了速度、准确性、语言支持、功能和定价等因素。
当然,ASR 系统的选择应该符合特定的组织需求和用例:
- 请记住, ASR 的准确性和速度是成反比的,这意味着您通常需要牺牲其中一个(至少在一定程度上)才能获得另一个的 100%。也就是说,特定提供商的工程能力将决定哪个 API 能够以最实惠的成本在两者之间取得适当的平衡。
- 不仅要特别关注成本、速度和准确性,还要特别关注除英语之外与您的应用相关的语言的覆盖范围和准确性等细节。请记住,商业上对语言支持程度的宣传并不总是与现实相符。
- 决定模型正确识别不同说话者的重要性。
- 确定您的应用程序是否需要内置音频智能功能(如摘要),或者您是否可以单独运行它。
- 评估您的用例在多大程度上需要使用自定义词汇表或甚至微调进行额外指导,或者您可能需要自动检查亵渎和填充词、处理标点符号等。
最好的办法可能是尝试每个 ASR 系统,在您自己的数据集上运行独立的基准测试,然后根据这些测试做出明智的决定。
我们的研究表明,对于优先考虑速度和可定制 AI 模型的企业来说,Deepgram 成为以英语为主要语言的高度专业化用例的有力选择。
对于重视呼叫中心和媒体应用程序的易用性和专业性的用户,Assembly AI 凭借其用户友好的 API 和 Google Conformer 的专有版本脱颖而出。或者,您可以立即使用 Google 自己的解决方案,但需注意上述注意事项。
Speechmatics 似乎最适合那些需要多语言支持和实时翻译的用户,但用户应该注意其复杂的定价结构和可扩展性挑战。
Whisper 具有增强的准确性和实时转录功能,推荐用于优先考虑转录精度的应用程序,尽管它在音频智能功能和处理非英语的音频/文本方面可能存在一些限制,更重要的是通过Gladia 的定制解决方案,它在准确性、速度、灵活性和成本之间取得了平衡,同时也消除了 Whisper 繁琐的限制。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9183