如何通过自动配音从视听资产中释放更多价值

全球大约50% 的互联网用户将观看视频作为他们上网的主要原因。鉴于对视频内容的需求,配音需求也在上升也就不足为奇了。这对内容制作者提出了重大挑战,因为配音是最耗费人力的媒体本地化类型。
幸运的是,有一种不断改进的创新解决方案:自动配音,而AppTek拥有满足各种需求的正确产品套件。
顾名思义,自动配音是自动对视频进行配音,以目标受众的母语重现原始体验的过程。它的目的是使视频内容可以大规模地以其他语言访问——而时间和成本仅为传统配音的一小部分。
AppTek 处于这项技术的前沿,正在推出一种支持 AI、扬声器自适应的自动配音技术,彻底改变口语翻译。它允许内容制作者(是您吗?)以快速且经济的方式为国际观众创造引人入胜的体验。
有关该技术的示例,请查看下面的演示并注意语音的自动识别、更改和扬声器自适应定时翻译。
AppTek 如何改进自动配音技术
创造这种最先进的技术并非没有挑战。投入大量研发时间和资金,看看 AppTek 可以将通过自动配音实现的质量扩展到什么程度。这包括为配音管道开发独特的系统,包括:
- 适应性自动语音识别 (ASR),用于考虑方言、口音、域、频道和人口统计的更高质量的源转录。
- 语音分离,将语音与其他音频分离并使源语音元素静音,同时保留源媒体文件中的其他音频。
- 等距机器翻译 (MT) 控制语音输出的长度,满足时间限制,并更好地将目标语言与源输入匹配。
- 元数据感知 MT 可进一步自定义输出,并控制方言、体裁、形式、主题、性别等,以更好地将翻译与其源内容相匹配。
- 说话人二分法将说话人的变化分成时间分组。
- 零样本说话者采用文本转语音 (TTS) 技术,利用源说话者声音的特征将声音重塑为目标语言,使翻译听起来与原始说话者相似。
AppTek 的语音翻译首席科学架构师 Mattia Di Gangi 解释说:“AppTek 的自动配音是一个不断发展的过程,其目标是优化许多高质量机器学习模型之间的协作。我们的模型会随着时间的推移而变化,这不仅是为了质量,也是为了处理输入或输出中的不同信息。此外,我们的管道会根据我们从配音视频中获得的信息随时间变化,以改善整体观看体验。”
自动配音层和用例
虽然自动配音中嵌入的基础 ASR、MT 和 TTS 技术已经开发和改进多年,但这种组合为视听本地化提供了一个相对较新的产品。
随着越来越多的市场开始评估这项技术,我们根据目标、预算和每种方法最适合的市场对公司可以采取的方法进行了划分。不同的层级可作为最佳应用技术的指南。
全自动配音
堆栈:带说话人分类的自适应自动语音识别 > 带等时性的自适应元数据通知 MT > 说话人自适应语音合成
业务案例:需要可扩展的语音翻译,并且缺乏可用的翻译或配音资源和/或预算受限的情况。
全自动管道作为一种低成本的可扩展解决方案,可提供更具吸引力的体验,而不是仅提供自动字幕。虽然基线 ASR/MT 模型对大多数一般新闻、媒体和其他内容表现足够,但可以通过调整模型以适应更专业的特定领域内容来实现更高的准确性。
最适合:旨在为消费者提供所讲内容的重要要点,同时以更身临其境的方式呈现内容的内容。
示例市场包括:非关键新闻、用户生成内容的形式以及任何形式的一般内容,这些内容可以通过为说外语的最终用户提供可访问性来扩大受众范围。
在这些情况下,建议使用可见的免责声明,声明“机器生成的翻译和扬声器配音”。这会告知用户正在使用自动化系统,并且他们正在观看的内容可能存在错误。
从更正的成绩单自动配音成多种语言
堆栈:现有或更正的源语言抄本 > 具有等时性的自适应元信息 MT > 说话人自适应语音合成
商业案例:可以提供更正的源转录本,但出于预算原因或缺乏翻译人员,机器翻译与说话人自适应语音合成一起使用以产生输出。
机器翻译的输出将通过使用更正的源抄本得到改善,从而将输出的整体准确性提高到可接受的水平。
最适合:这种翻译准确度水平足够且源转录本可用的内容。当可以使用人工参与步骤来改进机器翻译时,它也非常适合。
示例市场包括:通常为其制作字幕文件的节目,例如新闻节目和媒体档案。或者,市场希望通过改进翻译在预算范围内扩大内容范围,例如用户生成的内容,如烹饪、游记、健身或开箱视频。
当展示自动配音的视频时,建议使用明显的免责声明,说明“机器生成的翻译和扬声器配音”。这会告知用户正在使用自动化系统,并且他们正在观看的内容可能存在错误。
从更正的翻译自动配音
堆栈:现有或更正的翻译 > 说话者自适应语音合成
商业案例:需要准确的翻译或随时可用,但对专业配音服务存在预算问题,或者需要更高效的工作流程。
这方面的一个例子包括基于 SaaS 的教学视频,其中的内容可能会随着产品的变化而不断变化。另一个例子是一个商业广告,其中正在测试口头提及定价或独特的消息传递方式,但通过多次重拍都无法有效地管理这两种方式。
最适合:要求 100% 准确的内容,例如法律或价格敏感信息。或者,经常需要更改和重新拍摄的内容。
样本市场包括:电子学习、企业传播、营销内容和教学视频。
AppTek 为语言服务提供商提供价格合理的自动配音。随着多媒体内容呈指数增长,这使 LSP 能够产生增量收入并为本地化机会撒下更广泛的网络。
语音合成调整配音
堆栈:现有或更正的翻译 > 预训练和/或手动调整的说话人自适应语音合成
商业案例:使用合成语音更具成本效益和/或效率的内容,并且对话中存在一系列情绪变化。
从源语言和目标语言中的情感训练自适应语音合成模型可用于在内容中产生更多的情感变化和韵律。在存在独特发音或语音合成不符合所需变调的情况下,可以部署专业的语音、音高和速度微调以进一步改善输出。
最适合:存在一定范围的情感、独特的发音或语音变化的内容。
样本市场包括:广告形式、更情绪化的用户生成内容、纪录片、电视剧和低成本电影。
自动配音的市场机遇与未来
综上所述,自动配音使品牌能够以更低的成本分享更广泛的多语种视听内容。许多行业都有机会。从完全自动化的输出服务用例(例如用户生成的内容),到通过管道任何或所有阶段中的人工参与步骤逐步提高输出质量。
机会还存在于中高端市场,从新闻和媒体档案、电子学习和企业视频空间,到游戏和媒体本地化的低端内容。制作此类内容的品牌可以使用自动配音来加快制作速度并提高投资回报率,尤其是因为他们不需要单独依赖配音演员。
AppTek 为语言服务提供商提供价格合理的自动配音。随着多媒体内容呈指数增长,这使 LSP 能够产生增量收入并为本地化机会撒下更广泛的网络。
现在是成为自动配音技术早期采用者的最佳时机。