循环神经网络设计同样可以使用预训练词“嵌入”

转载作者：撒哈拉更新时间：2024-12-02 10:27:15

序言：重新训练人工智能大型模型是一项复杂且高成本的任务，尤其对于当前的LLM（大型语言模型）来说，全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支持。因此，无论在科学研究还是实际应用中，人们通常依赖开源的预训练模型及其已经学习到的各种特征信息，就像使用开源的Linux一样。本节将讲解如何利用这些预训练模型中的“嵌入”信息来解决实际问题.

使用预训练嵌入与RNN 。

在之前的所有示例中，我们收集了训练集中要使用的完整单词集，然后用它们训练了嵌入。这些嵌入最初是聚合在一起的，然后输入到密集网络中，而在最近的章节中，我们探讨了如何使用RNN来改进结果。在此过程中，我们被限制在数据集中已经存在的单词，以及如何使用该数据集中的标签来学习它们的嵌入。回想一下在前面有一章，我们讨论了迁移学习。如果，您可以不自己学习嵌入，而是使用已经预先学习的嵌入，研究人员已经完成了将单词转化为向量的艰苦工作，并且这些向量是经过验证的呢？其中一个例子是Stanford大学的Jeffrey Pennington、Richard Socher和Christopher Manning开发的GloVe（Global Vectors for Word Representation）模型.

在这种情况下，研究人员分享了他们为各种数据集预训练的单词向量:

• 一个包含60亿个标记、40万个单词的词汇集，维度有50、100、200和300，单词来自维基百科和Gigaword 。

• 一个包含420亿个标记、190万个单词的词汇集，维度为300，来自通用爬虫。

• 一个包含8400亿个标记、220万个单词的词汇集，维度为300，来自通用爬虫。

• 一个包含270亿个标记、120万个单词的词汇集，维度为25、50、100和200，来自对20亿条推文的Twitter爬虫。

考虑到这些向量已经预训练，我们可以轻松地在TensorFlow代码中重复使用它们，而不必从头开始学习。首先，我们需要下载GloVe数据。这里选择使用Twitter数据集，包含270亿个标记和120万个单词的词汇集。下载的是一个包含25、50、100和200维度的归档文件.

为了让整个过程稍微方便一些，我已经托管了25维版本，您可以像这样将其下载到Colab笔记本中:

!wget --no-check-certificate \ 。

https://storage.googleapis.com/laurencemoroney-blog.appspot.com/glove.twitter.27B.25d.zip \ 。

-O /tmp/glove.zip 。

这是一个ZIP文件，您可以像这样解压缩，得到一个名为glove.twitter.27B.25d.txt的文件:

解压GloVe嵌入

import os 。

import zipfile 。

local_zip = '/tmp/glove.zip' 。

zip_ref = zipfile.ZipFile(local_zip, 'r') 。

zip_ref.extractall('/tmp/glove') 。

zip_ref.close() 。

文件中的每一行都是一个单词，后面跟着为其学习到的维度系数。最简单的使用方式是创建一个字典，其中键是单词，值是嵌入。您可以这样设置这个字典:

glove_embeddings = dict() 。

f = open('/tmp/glove/glove.twitter.27B.25d.txt') 。

for line in f

values = line.split() 。

word = values[0] 。

coefs = np.asarray(values[1:], dtype='float32') 。

glove_embeddings[word] = coefs 。

f.close() 。

此时，您可以简单地通过使用单词作为键来查找任何单词的系数集。例如，要查看“frog”的嵌入，您可以使用:

glove_embeddings['frog'] 。

有了这个资源，您可以像以前一样使用分词器获取语料库的单词索引——但现在，您可以创建一个新的矩阵，我称之为嵌入矩阵。这个矩阵将使用GloVe集中的嵌入（从glove_embeddings获取）作为其值。因此，如果您检查数据集中单词索引中的单词，如下所示:

{' ': 1, 'new': 2, … 'not': 5, 'just': 6, 'will': 7} 。

那么嵌入矩阵的第一行应该是GloVe中“ ”的系数，接下来的行是“new”的系数，依此类推.

您可以使用以下代码创建该矩阵:

embedding_matrix = np.zeros((vocab_size, embedding_dim)) 。

for word, index in tokenizer.word_index.items()

if index > vocab_size - 1

break 。

else

embedding_vector = glove_embeddings.get(word) 。

if embedding_vector is not None

embedding_matrix[index] = embedding_vector 。

这只是创建了一个矩阵，矩阵的维度是您所需的词汇大小和嵌入维度。然后，对于分词器的每个词汇索引项，您会查找GloVe中的系数（从glove_embeddings中获取），并将这些值添加到矩阵中.

接着，您需要修改嵌入层，使用预训练的嵌入，通过设置weights参数，并指定不希望该层被训练，通过设置trainable=False:

model = tf.keras.Sequential([ 。

tf.keras.layers.Embedding(vocab_size, embedding_dim.

weights=[embedding_matrix], trainable=False).

tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim, return_sequences=True)).

tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim)).

tf.keras.layers.Dense(24, activation='relu').

tf.keras.layers.Dense(1, activation='sigmoid') 。

]) 。

现在，您可以像之前一样进行训练。然而，您需要考虑您的词汇大小。在上一章中，您为了避免过拟合，做了一些优化，目的是防止嵌入过多地学习低频单词；您通过使用更小的词汇表、仅包含常用单词来避免过拟合。在这种情况下，由于单词嵌入已经通过GloVe为您学习过，您可以扩展词汇表——但扩展多少呢?

首先要探索的是，您的语料库中有多少单词实际上在GloVe集中。GloVe有120万个单词，但不能保证它包含您的所有单词。所以，这里有一些代码，可以快速对比，让您探索您的词汇表应该多大.

首先，整理数据。创建一个包含Xs和Ys的列表，其中X是词汇索引，Y=1表示该单词在嵌入中，0则表示不在。此外，您可以创建一个累计集，在每个时间步计算单词的比例。例如，索引为0的单词“OOV”不在GloVe中，所以它的累计Y值为0。下一个索引的单词“new”在GloVe中，所以它的累计Y值为0.5（即，到目前为止看到的单词中有一半在GloVe中），然后您会继续这样计算整个数据集:

xs = [] 。

ys = [] 。

cumulative_x = [] 。

cumulative_y = [] 。

total_y = 0 。

for word, index in tokenizer.word_index.items()

xs.append(index) 。

cumulative_x.append(index) 。

if glove_embeddings.get(word) is not None

total_y = total_y + 1 。

ys.append(1) 。

else

ys.append(0) 。

cumulative_y.append(total_y / index) 。

然后，您可以使用以下代码绘制Xs与Ys的关系图:

import matplotlib.pyplot as plt 。

fig, ax = plt.subplots(figsize=(12, 2)) 。

ax.spines['top'].set_visible(False) 。

plt.margins(x=0, y=None, tight=True) 。

plt.axis([13000, 14000, 0, 1])

plt.fill(ys) 。

这将给您一个单词频率图，看起来像图7-17.

                                                      图7-17. 单词频率图

如图表所示，密度在10,000到15,000之间发生变化。这让您直观地看到，大约在13,000标记的位置，未在GloVe嵌入中的单词的频率开始超过那些已经在GloVe嵌入中的单词.

如果您再绘制累计的cumulative_x与cumulative_y的关系，您将能更好地理解这个变化。以下是代码:

import matplotlib.pyplot as plt 。

plt.plot(cumulative_x, cumulative_y) 。

plt.axis([0, 25000, .915, .985]) 。

您可以看到图7-18中的结果.

图7-18. 绘制单词索引频率与GloVe的关系。

现在，您可以调整plt.axis中的参数，放大查看拐点，看看未出现在GloVe中的单词是如何开始超过那些在GloVe中的单词的。这是设置词汇大小的一个不错起点.

使用这种方法，我选择了一个词汇大小为13,200（而不是之前为了避免过拟合而使用的2,000），并使用了以下模型架构，其中embedding_dim是25，因为我使用的是GloVe集:

model = tf.keras.Sequential([ 。

tf.keras.layers.Embedding(vocab_size, embedding_dim.

weights=[embedding_matrix], trainable=False).

tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim, return_sequences=True)).

tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim)).

tf.keras.layers.Dense(24, activation='relu').

tf.keras.layers.Dense(1, activation='sigmoid') 。

]) 。

然后，使用Adam优化器:

adam = tf.keras.optimizers.Adam(learning_rate=0.00001, beta_1=0.9, beta_2=0.999, amsgrad=False) 。

model.compile(loss='binary_crossentropy', optimizer=adam, metrics=['accuracy']) 。

训练30个epoch后，得到了很好的结果。准确率如图7-19所示。验证准确率与训练准确率非常接近，表明我们不再过拟合.

图7-19. 使用GloVe嵌入的堆叠LSTM准确率。

这一点通过损失曲线得到进一步验证，如图7-20所示。验证损失不再发散，这表明尽管我们的准确率只有大约73%，我们可以有信心认为模型的准确性达到了这个程度.

                                                      图7-20. 使用GloVe嵌入的堆叠LSTM损失

训练模型更长时间会得到非常相似的结果，并且表明，尽管大约在第80个epoch左右开始出现过拟合，模型仍然非常稳定.

准确率指标（图7-21）显示模型训练得很好.

损失指标（图7-22）显示大约在第80个epoch左右开始出现发散，但模型仍然拟合得很好.

图7-21. 使用GloVe的堆叠LSTM在150个epoch上的准确率。

图7-22. 使用GloVe的堆叠LSTM在150个epoch上的损失。

这告诉我们，这个模型是早停的好候选者，您只需要训练它75到80个epoch，就能得到最佳结果.

我用来自《洋葱报》的标题（《洋葱报》是讽刺性标题的来源，也是讽刺数据集的来源），与其他句子进行了测试，测试代码如下:

test_sentences = [ 。

"It Was, For, Uh, Medical Reasons, Says Doctor To Boris Johnson, Explaining Why They Had To Give Him Haircut".

"It's a beautiful sunny day".

"I lived in Ireland, so in high school they made me learn to speak and write in Gaelic".

"Census Foot Soldiers Swarm Neighborhoods, Kick Down Doors To Tally Household Sizes" 。

] 。

这些标题的结果如下——记住，接近50%（0.5）的值被认为是中立的，接近0的是非讽刺的，接近1的是讽刺的:

[[0.8170955 ] 。

[0.08711044] 。

[0.61809343] 。

[0.8015281 ]] 。

来自《洋葱报》的第一句和第四句显示了80%以上的讽刺概率。关于天气的陈述则显得非常非讽刺（9%），而关于在爱尔兰上高中这句话被认为可能是讽刺的，但信心不高（62%）.

总结。

本节中我们介绍了循环（递归）神经网络（RNN），它们在设计中使用面向序列的逻辑，可以帮助您理解句子的情感，不仅基于其中的单词，还基于它们出现的顺序。了解了基本的RNN如何工作，以及LSTM如何在此基础上改进，保留长期上下文。您使用这些技术改进了您一直在做的情感分析模型。接着，您研究了RNN的过拟合问题以及改善它们的技术，包括使用从预训练嵌入中进行迁移学习。在接下来的章节中，我们将使用前面全部所学内容探索如何预测单词，进而创建一个能够生成文本的模型，甚至为您写诗！。

最后此篇关于循环神经网络设计同样可以使用预训练词“嵌入”的文章就讲到这里了,如果你想了解更多关于循环神经网络设计同样可以使用预训练词“嵌入”的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： ai大模型流式输出------基于SSE协议的长连接实现

文章推荐：不会前端也能写官网？没问题，Devbox+Cursor带你起飞

文章推荐： vue3+pnpm打造一个monorepo项目

android - java.lang.ClassNotFoundException : android. 网络.网络
这与 Payubiz payment gateway sdk 关系不大一体化。但是，主要问题与构建项目有关。每当我们尝试在模拟器上运行应用程序时。我们得到以下失败: What went wrong:
Docker 链接容器、Docker 网络、Compose 网络 - 我们现在应该如何 'link' 容器
我有一个现有的应用程序，其中包含在同一主机上运行的 4 个 docker 容器。它们已使用 link 命令链接在一起。然而，在 docker 升级后，link 行为已被弃用，并且似乎有所改变。我们现
网络:传输层和网络层之间的区别
在 Internet 模型中有四层:链路 -> 网络 -> 传输 -> 应用程序。我真的不知道网络层和传输层之间的区别。当我读到: Transport layer: include congesti
python ，网络
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
初始 http【网络】
前言：生活中，我们在上网时，打开一个网页，就可以看到网址，如下： https😕/xhuahua.blog.csdn.net/ 访问网站使用的协议类型：https(基于 http 实现的，只不过在
171、HBase性能调整：网络
网络避免网络问题降低Hadoop和HBase性能的最重要因素可能是所使用的交换硬件，在项目范围的早期做出的决策可能会导致群集大小增加一倍或三倍（或更多）时出现重大问题。需要考虑的重要事项：
189、故障排除和调试HBase：网络
网络网络峰值如果您看到定期的网络峰值，您可能需要检查compactionQueues以查看主要压缩是否正在发生。有关管理压缩的更多信息，请参阅管理压缩部分的内容。 Loopback IP
NoFlo - 如何启动图形/网络
Pure Data 有一个 loadbang 组件，它按照它说的做:当图形开始运行时发送一个 bang。 NoFlo 的 core/Kick 在其 IN 输入被击中之前不会发送其数据，并且您无法在 n
kubernetes - Minikube 网络
我有一台 Linux 构建机器，我也安装了 minikube。在 minikube 实例中，我安装了 artifactory，我将使用它来存储各种构建工件我现在希望能够在我的开发机器上做一些工作(这
http - 我需要多少种视频格式？ - 网络
我想知道每个视频需要多少种不同的格式才能支持所有主要设备？在我考虑的主要设备中:安卓手机 + iPhone + iPad . 对具有不同比特率的视频进行编码也是一种好习惯吗？那里有太多相互矛盾的信
Flutter 网络 flavor
我有一个使用 firebase 的 Flutter Web 应用程序，我有两个 firebase 项目(dev 和 prod)。我想为这个项目设置 Flavors(只是网络没有移动)。在移动端，我
passwords - 传输前对密码进行哈希处理？ (网络)
我正在读这篇文章Ars article关于密码安全，它提到有一些网站“在传输之前对密码进行哈希处理”？现在，假设这不使用 SSL 连接 (HTTPS)，a.这真的安全吗？ b．如果是的话，你会如何在
networking - docker 网络
我试图了解以下之间的关系: eth0在主机上；和 docker0桥;和 eth0每个容器上的接口(interface) 据我了解，Docker: 创建一个 docker0桥接，然后为其分配一个与主机上
java - 不可序列化对象 - 网络
我需要编写一个java程序，通过网络将对象发送到客户端程序。问题是一些需要发送的对象是不可序列化的。如何最好地解决这个问题？最佳答案发送在客户端重建对象所需的数据。关于java - 不可序列化对
Java 网络，不仅仅是简单的聊天室
所以我最近关注了this有关用 Java 制作基本聊天室的教程。它使用多线程，是一个“面向连接”的服务器。我想知道如何使用相同的 Sockets 和 ServerSockets 来发送对象的 3d 位
java图像接收(网络)服务器
我想制作一个系统，其中java客户端程序将图像发送到中央服务器。中央服务器保存它们并运行使用这些图像的网站。我应该如何发送图像以及如何接收它们？我可以使用同一个网络服务器来接收和显示网站吗？最佳答
email - 网络::SMTPAuthenticationError
我正在尝试设置我的 rails 4 应用程序，以便它发送电子邮件。有谁知道我为什么会得到: Net::SMTPAuthenticationError 534-5.7.9 Application-spe
Java 网络 - 连接两台计算机
我正在尝试编写一个简单的客户端-服务器程序，它将客户端计算机连接到服务器计算机。到目前为止，我的代码在本地主机上运行良好，但是当我将客户端代码中的 IP 地址替换为服务器计算机的本地 IP 地址时，
Java 网络 - 在同一线程中的不同端口上并行启动多个服务器套接字
我需要在服务器上并行启动多个端口，并且所有服务器套接字都应在 socket.accept() 上阻塞。同一个线程需要启动客户端套接字(许多)来连接到特定的 ServerSocket。这能实现吗？
java - 网络/数据库作业的足够线程数
我的工作执行了大约 10000 次以下任务: 1) HTTP 请求(1 秒) 2)数据转换(0.3秒) 3)数据库插入(0.7秒) 每次迭代的总时间约为 2 秒，分布如上所述。我想做多任务处理，但我

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

循环神经网络设计同样可以使用预训练词“嵌入”

解压GloVe嵌入

plt.axis([13000, 14000, 0, 1])