OpenAI揭示了新的文本转语音模型既有希望也有危险

导读： OpenAI不断突破人工智能技术的界限。首先，它发布了一款只需描述即可生成数字图像的工具。然后，它推出了Sora，一种可以生成好莱坞品质的动...

OpenAI不断突破人工智能技术的界限。首先，它发布了一款只需描述即可生成数字图像的工具。然后，它推出了Sora，一种可以生成好莱坞品质的动态视频的技术。现在，它正在进军语音娱乐领域。

OpenAI的最新功能是用非常像人类的声音大声朗读文本。人工智能领域的这一突破标志着一次重大飞跃，但也引发了人们对深度造假潜力的担忧(来自彭博社)。

该公司已经公布了测试此功能的早期结果，并提供了演示，您可以在此处收听。这种文本转语音模型被称为语音引擎，目前正处于有限的试用阶段，大约有10名开发人员。OpenAI选择了谨慎的态度，而不是广泛发布。

根据政策制定者和教育工作者等利益相关者的反馈，OpenAI决定缩减其最初的推出规模。该公司承认生成类人语音存在严重风险，尤其是在选举年等敏感时期。

该公司在博客文章中写道：

我们认识到，生成类似于人们声音的言论存在严重风险，这在选举年尤其值得关注。我们正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。

与以前的音频项目不同，语音引擎因其能够以惊人的准确性模仿个人声音、捕捉节奏和语调的细微差别而脱颖而出。它只需要15秒就能一个人的声音。

OpenAI的合作伙伴包括Lifespan的NornPrince神经科学研究所，该研究所使用该技术帮助患者进行语音康复。例如，它被用来帮助一位因脑肿瘤而难以清晰说话的年轻患者恢复言语。人工智能从学校项目的早期录音中学习。

除了在医疗保健领域的应用之外，定制语音模型还引起了Spotify等公司的注意，该公司看到了将播客等音频内容翻译成多种语言的潜力。然而，OpenAI强调使用该技术的道德准则，包括获得原始演讲者的同意以及向听众披露人工智能生成的内容。