sách gpt4 ai đã đi

nlp - 您可以使用特定于任务的架构从头开始训练 BERT 模型吗?

In lại 作者:行者123 更新时间:2023-12-03 20:25:43 26 4
mua khóa gpt4 Nike

基础模型的 BERT 预训练是通过语言建模方法完成的,在这种方法中,我们屏蔽了句子中特定百分比的标记,并使模型学习那些缺失的掩码。然后,我认为为了完成下游任务,我们添加了一个新初始化的层,并对模型进行了微调。

然而,假设我们有一个巨大的句子分类数据集。理论上,我们是否可以从头开始初始化 BERT 基础架构,仅用这个句子分类数据集训练额外的下游任务特定层 + 基础模型权重形成scratch,并且仍然取得良好的结果?

Cảm ơn.

1 Câu trả lời

BERT 可以被视为一种语言编码器,它在大量数据上进行训练以很好地学习语言。众所周知,最初的 BERT 模型是在整个英文维基百科和图书语料库上训练的,总和为 3,300M 字。 BERT-base 有 109M 的模型参数。所以,如果你认为你有足够大的数据来训练 BERT,那么你的问题的答案是肯定的。

但是,当您说“仍然取得了不错的结果”时,我假设您是在与原始 BERT 模型进行比较。在这种情况下,答案在于训练数据的大小。

我想知道为什么你更喜欢从头开始训练 BERT 而不是微调它?是因为害怕域名适配问题吗?如果没有,预训练的 BERT 可能是一个更好的起点。

请注意,如果您想从头开始训练 BERT,您可以考虑 较小 建筑学。您可能会发现以下文件很有用。

  • Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
  • 关于nlp - 您可以使用特定于任务的架构从头开始训练 BERT 模型吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61826824/

    26 4 0
    Bài viết được đề xuất: ceph - 用 Cephadm 配置集群网络?
    Bài viết được đề xuất: 删除以 R 中出现次数为条件的空格
    Bài viết được đề xuất: Ada:使用 SET_OUTPUT 重定向输出的灵活 Text_IO File_Type?
    Bài viết được đề xuất: react-native - 已弃用的 Gradle 功能不兼容
    行者123
    Hồ sơ cá nhân

    Tôi là một lập trình viên xuất sắc, rất giỏi!

    Nhận phiếu giảm giá Didi Taxi miễn phí
    Mã giảm giá Didi Taxi
    Giấy chứng nhận ICP Bắc Kinh số 000000
    Hợp tác quảng cáo: 1813099741@qq.com 6ren.com