人工智能语音技术的三大挑战
几十年来,人们一直在谈论可以生成类人数据的人工智能(AI)的前景。然而,数据科学家在解决这个问题方面收效甚微。确定创建此类系统的有效策略带来了从技术到道德以及介于两者之间的各个方面的挑战。然而,生成式人工智能已经成为一个值得关注的亮点。
在最基本的情况下,生成式人工智能使机器能够使用音频文件、文本和图像等元素来生成从语音到写作再到艺术的内容。根据科技投资者红杉资本的说法,“生成式 AI 不仅会变得更快、更便宜,而且在某些情况下比人类手工创造的更好,”根据最近的Tech Monitor采访。
特别是基于生成语音的机器学习技术的最新进展取得了长足的进步,但我们还有很长的路要走。事实上,语音压缩——发生在我们严重依赖的应用程序中,比如 Zoom 和 Teams——仍然基于八九十年代的技术。虽然语音到语音技术具有无限的潜力,但评估为生成式 AI 蓬勃发展造成障碍的挑战和缺点至关重要。
以下是人工智能从业者在语音到语音技术方面面临的三个常见减速带。
1. 音质
可以说,最佳对话中最重要的部分是它是可以理解的。在语音到语音技术的情况下,目标是听起来像人类。例如,Siri 和 Alexa 的机器人语气就像机器一样,并不总是清晰的。人工智能很难实现这一点有几个原因,但人类语言的细微差别起着重要作用。
Mehrabian 规则可以帮助解释这一点。人类对话可以分为三个部分:55% 的面部表情、38% 的语气和仅 7% 的单词。机器理解依赖于文字或内容来操作。只有在自然语言处理(NLP)方面的最新进展,才有可能根据情绪、情绪、音色和其他重要但不一定是口语的语言方面来训练 AI 模型。如果你只处理音频而不是视觉,如果没有超过一半来自面部表情的理解,这将变得更具挑战性。
2. 延迟
人工智能合成分析可能需要时间——但对于语音到语音通信,实时是唯一重要的时间。语音转换必须在说话时立即进行。它也必须是准确的,你可以想象这对于机器来说绝非易事。
实时的必要性可能因行业而异。例如,制作播客的内容创建者可能更关心音质而不是实时语音转换。但对于客户服务等行业来说,时间至关重要。如果呼叫中心座席使用语音辅助 AI来响应呼叫者,他们可能会牺牲一点质量。尽管如此,时间对于提供积极的体验至关重要。
3. 规模
为了让语音到语音技术发挥其潜力,它必须支持各种口音、语言和方言,并且对每个人都可用——而不仅仅是特定的地区或市场。这需要掌握该技术的特定应用以及大量的调整和培训才能有效地扩展。
新兴技术解决方案并非一刀切。所有用户都需要为给定的解决方案提供数千种架构来支持这种 AI 基础架构。用户还应该期望始终如一地测试模型。这并不是什么新鲜事:机器学习的所有经典挑战也适用于生成式 AI 领域。
那么,我们如何着手解决其中的一些问题,从而开始实现语音到语音技术的价值呢?幸运的是,当你逐步分解它时,它就不那么可怕了。首先,你必须掌握问题。之前我举了一个呼叫中心与内容创建者的例子。确保您考虑了用例和期望的结果,然后从那里开始。
其次,确保您的组织拥有正确的架构和算法。但即使在此之前,请确保您拥有正确的数据。数据质量很重要,尤其是在考虑像人类语言和语音这样敏感的东西时。最后,如果您的应用程序需要实时语音转换,请确保支持该功能。最终,没有人愿意与机器人交谈。
虽然围绕生成式 AI 深度伪造、同意和适当披露的伦理问题现已浮出水面,但首先了解和解决基本问题很重要。语音到语音技术有可能彻底改变我们相互理解的方式,为将人们团结起来的创新开辟机会。但为了实现这一目标,我们必须首先面对主要挑战。