transformer和lstm,transformer和lstm预测对比

⋅ 2024-06-02 17:21:43 ⋅ 阅读 ⋅ 创业

Transformer和LSTM的对比

可以看的到 Transformer 是比 RNN 有明显差距的。虽然读transformer和lstm了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌transformer和lstm，但毫无疑问的是 Transformer 确实是最糟糕的，只是不一定有数字上好几倍这么夸张。

两个不同方向的LSTM模型是互不干扰的，transformer和lstm他们的联系就只有输入的token的embedding是共用的，以及最后的全连接加softmax是通用的。

说句题外话，RetNet也只能算Transformers的一个变种，就算取代了Transformers，和Transformers取代LSTM的意义也还是不一样的。

语言模型介绍

unigram（一元模型）最简单的模型，假定所有词互相独立，相当于0st order假设，不考虑单词之间的顺序。

关于语言模型的介绍语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

GPT是通过Transformer来训练语言模型，它所训练的语言模型是单向的，通过上文来预测下一个单词 BERT通过Transformer来训练MLM这种真正意义上的双向的语言模型，它所训练的语言模型是根据上下文来预测当前词。

语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。

BERT预训练模型

1、Google 称 BERT 为“之一个深度双向、无监督式语言表示，仅使用纯文本语料库预先进行了训练”(Devlin et al. 2018)。双向模型在自然语言处理 (NLP) 领域早已有应用。这些模型涉及从左到右以及从右到左两种文本查看顺序。

2、Bert的模型结构更简单，主要用于上下文语义理解任务，如文本分类、文本相似度计算等。Transformer可以应用于更复杂的任务，如机器翻译、摘要生成等需要生成语言序列的任务。

3、bert是双向语言模型，句子没有shift_mask操作，所以是完整的上下文环境，证实了双向语言模型对文本特征表示的重要性。bert同时证实了预训练模型能够简化很多繁重任务的 *** 结构，在11个nlp任务上都有显著提升。

transformer和lstm的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于transformer和lstm预测对比、transformer和lstm的信息别忘了在本站进行查找喔。

- THE END -

打赏

本文由 @瓜皮网修订发布于 2024-06-02 17:21:43

本文来自投稿，不代表本站立场，如若转载，请注明出处：https://www.jpgp5.com/k/178098.html

identify的名词和形容词,identify的各种词性

cms是什么牌子,cms是哪里