导读: OpenAI不断突破人工智能技术的界限。首先,它发布了一款只需描述即可生成数字图像的工具。然后,它推出了Sora,一种可以生成好莱坞品质的动...
OpenAI不断突破人工智能技术的界限。首先,它发布了一款只需描述即可生成数字图像的工具。然后,它推出了Sora,一种可以生成好莱坞品质的动态视频的技术。现在,它正在进军语音娱乐领域。
OpenAI的最新功能是用非常像人类的声音大声朗读文本。人工智能领域的这一突破标志着一次重大飞跃,但也引发了人们对深度造假潜力的担忧(来自彭博社)。
该公司已经公布了测试此功能的早期结果,并提供了演示,您可以在此处收听。这种文本转语音模型被称为语音引擎,目前正处于有限的试用阶段,大约有10名开发人员。OpenAI选择了谨慎的态度,而不是广泛发布。
根据政策制定者和教育工作者等利益相关者的反馈,OpenAI决定缩减其最初的推出规模。该公司承认生成类人语音存在严重风险,尤其是在选举年等敏感时期。
该公司在博客文章中写道:
我们认识到,生成类似于人们声音的言论存在严重风险,这在选举年尤其值得关注。我们正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作,以确保我们在建设过程中吸收他们的反馈。
与以前的音频项目不同,语音引擎因其能够以惊人的准确性模仿个人声音、捕捉节奏和语调的细微差别而脱颖而出。它只需要15秒就能一个人的声音。
OpenAI的合作伙伴包括Lifespan的NornPrince神经科学研究所,该研究所使用该技术帮助患者进行语音康复。例如,它被用来帮助一位因脑肿瘤而难以清晰说话的年轻患者恢复言语。人工智能从学校项目的早期录音中学习。
除了在医疗保健领域的应用之外,定制语音模型还引起了Spotify等公司的注意,该公司看到了将播客等音频内容翻译成多种语言的潜力。然而,OpenAI强调使用该技术的道德准则,包括获得原始演讲者的同意以及向听众披露人工智能生成的内容。