循环神经网络(RNN)是一种主要用于深度学习领域的人工智能。与传统的神经网络不同,RNN具有存储器,可以捕获迄今为止已计算的信息。换句话说,他们利用对先前输入的理解来影响他们将产生的输出。
RNN被称为“循环”,因为它们对序列中的每个元素执行相同的任务,而输出取决于之前的计算。RNN仍然用于为Apple的Siri和GoogleTranslate等智能技术提供支持。
然而,随着像ChatGPT这样的Transformer的出现,自然语言处理(NLP)的格局已经发生了变化。虽然Transformer彻底改变了NLP任务,但它们的内存和计算复杂性随着序列长度呈二次方扩展,需要更多资源。
NVIDIATeslaM40GPU加速器是世界上最快的深度学习训练加速器。它提供准确的语音识别、对视频和自然语言内容的深入理解以及更好地检测医学图像中的异常。
现在,一个新的开源项目RWKV正在为GPU功耗难题提供有前途的解决方案。该项目由Linux基金会支持,旨在大幅降低GPT级语言学习模型(LLM)的计算需求,最高可能降低100倍。
RNN在内存和计算要求方面表现出线性扩展,但由于其并行性和可扩展性方面的限制,很难与Transformer的性能相匹配。这就是RWKV发挥作用的地方。
RWKV(即接收加权键值)是一种新颖的模型架构,它将Transformer的可并行训练效率与RNN的高效推理相结合。结果?运行和训练所需资源(VRAM、CPU、GPU等)显着减少的模型,同时保持高质量的性能。它还可以线性缩放到任何上下文长度,并且通常在英语以外的语言中得到更好的训练。
尽管有这些令人鼓舞的功能,RWKV模型也并非没有挑战。它对提示格式很敏感,但在需要回顾的任务上较弱。然而,这些问题正在得到解决,并且该模型的潜在好处远远超过当前的局限性。