用于大型数据集分类的 NLP 软件-6ren

用于大型数据集分类的 NLP 软件

In lại 作者：行者123 更新时间：2023-12-02 16:17:21

33

4

lý lịch

多年来，我一直使用自己的类似贝叶斯方法，根据大型且不断更新的训练数据集对来自外部来源的新项目进行分类。

每个项目都有三种类型的分类:

30 个类别，其中每个项目必须属于一个类别，且最多属于两个类别。
10 个其他类别，其中每个项目仅在存在强匹配的情况下才与一个类别相关联，并且每个项目可以属于与匹配的类别一样多的类别。
4 个其他类别，其中每个项目必须仅属于一个类别，如果没有高度匹配，则该项目将分配到默认类别。

每项由约 2,000 个字符的英文文本组成。在我的训练数据集中，大约有 265,000 个项目，其中包含粗略估计的 10,000,000 个特征(独特的三词短语)。

我的自制方法相当成功，但肯定还有改进的空间。我读过 NLTK 书的“学习分类文本”一章，这章很棒，让我对 NLP 分类技术有一个很好的概述。我希望能够尝试不同的方法和参数，直到获得数据的最佳分类结果。

câu hỏi

有哪些现成的 NLP 工具可以有效地对如此大的数据集进行分类？

到目前为止我尝试过的:

NLTK
TIMBL

我尝试使用包含不到 1% 的可用训练数据的数据集来训练它们:1,700 个项目，375,000 个特征。对于 NLTK，我使用了稀疏二进制格式，对于 TIMBL 使用了类似的紧凑格式。

两者似乎都依赖于在内存中完成所有操作，并且很快耗尽了所有系统内存。我可以让他们处理很小的数据集，但不能处理很大的数据集。我怀疑如果我尝试增量添加训练数据，那么或者在进行实际分类时都会出现相同的问题。

我查看了 Google 的 Prediction API，它似乎可以完成我正在寻找的大部分功能，但并非全部。如果可能的话，我还想避免依赖外部服务。

关于功能的选择:在多年来我的自制方法的测试中，三个单词短语产生了迄今为止最好的结果。尽管我可以通过使用单词或两个单词短语来减少特征数量，但这很可能会产生较差的结果，并且仍然会产生大量特征。

1 Câu trả lời

this post之后根据个人经验，我推荐 Vowpal Wabbit 。据说它拥有最快的文本分类算法之一。

关于用于大型数据集分类的 NLP 软件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7248372/

33

4

0

Bài viết được đề xuất: java - Java 中 mixin 的示例？

Bài viết được đề xuất: opencv - OpenCV findHomography和WarpPerspective效果不佳

Bài viết được đề xuất: opencv - OpenCV的离散傅立叶变换的实际输出公式是什么？

Bài viết được đề xuất: ios - Swift 如何向函数添加编译器警告

一键清理Maven失效依赖-脚本+软件
前言在进行Maven开发时，往往需要下载大量jar包，而由于网络不稳定等其他因素可能导致jar未下载完毕，然后保留了lastUpdated文件，导致无法更新失效的jar包。本文分享 bat脚本，自
string - 软件/操作系统中存储的字母表顺序是什么级别？
按字母顺序排序并不是我们花太多时间担心的事情。我们在很小的时候就学习了字母表，现在我们知道它(拉丁文)以 A 开头，然后是 B，然后是 C 等等，一直到 Z。但是这个订单究竟存储在计算机系统中的什么
matlab - 如何证明二维DFT的信号可分离性？软件
我尝试使用可分离为 2 个一维向量的二维矩阵来证明二维傅里叶变换的信号属性的可分离性。地点: f(x,y) = f(x)*f(y) 那么 F(u,v) = F(u)*F(v) 使用以下代码: % Se
sqlite - SQLite数据库文档模板/软件？
我需要为几个小型sqlite数据库编写文档。想描述数据的使用方式，包括表和行说明以及示例数据。是否可以使用MySQL Workbench？如果没有其他选择，或者我可以使用任何模板？ TIA！最佳答
Homebrew 软件 - 如何安装旧版本
我正在尝试使用旧版本(例如:1.4.5)安装 memcached，但我不知道该怎么做。 brew install memcached安装最新的。我也试过 brew install memecache
用于大型数据集分类的 NLP 软件
背景多年来，我一直使用自己的类似贝叶斯方法，根据大型且不断更新的训练数据集对来自外部来源的新项目进行分类。每个项目都有三种类型的分类: 30 个类别，其中每个项目必须属于一个类别，且最多属于两个类
matlab - 如何确定两个数字中更多的数字是否相等？软件
嗨，我需要确定 4 个数字是否相等。数字是 size(A,1)、size(B,1)、size(C,1) 和 size(D,1)，其中，例如A = [1 2; 3 4], B=[1 2 3, 4 5 6
frameworks - 软件/编程框架的实际定义是什么？
Wikipedia 中的文章似乎太冗长了。我将框架理解为一组精心设计的库和工具。 Qt 框架为跨平台 GUI 提供了一组库/工具。 cocoa 框架为 Mac 做了同样的事情。软件框架的实际定义是
jQuery CAD 软件
我们的客户最近发现了这个网站: http://mydeco.com/3d-planner/ 它有一个非常非常奇特且组合良好的 3d CAD Web 应用程序，似乎是使用 jQuery 编写的，而不是
calendar - 独立日历应用程序/软件
我们正在寻找一种独立的(非 cms)日历解决方案来显示在网络上。它可以是开源的或付费服务。我们主要是在寻找一种在 Web 上显示日历的方法，其中包含事件发生的时间和事件的名称。如果它可以按周、月、年
testing - 软件:质量保证VS质量科学？
我想知道与软件相关的“质量保证”和“质量科学”之间的区别。我在Google上进行了研究，但未找到有关“质量科学”的任何信息。最佳答案 Based on the link you have prov
c++ - 你在哪里下载C++软件？
đóng cửa. Câu hỏi này không đáp ứng được hướng dẫn của Stack Overflow. Hiện tại câu hỏi này không chấp nhận câu trả lời. Các câu hỏi yêu cầu chúng tôi đề xuất hoặc tìm công cụ, thư viện hoặc tài nguyên ngoài trang web yêu thích đều không phù hợp với Stack Overflow.
软件 |基于均值和概率区间计算gamma dist的参数
我有一个由 2 个方程和 2 个未知数组成的系统，我想使用 MATLAB 求解，但不知道如何编程。我得到了一些有关 Gamma 分布的信息(平均值为 1.86，90% 的间隔介于 1.61 和 2.1
matlab - 获取矩阵子集的边界单元格的索引。软件
给定一个矩阵，其中 1 是当前子集 test = 0 0 0 0 0 0 0 0 0 0 0 0
matlab - 如何合并重复值和重复值组并保持顺序？软件
我在组合 Matlab“数据”变量的重复元素时遇到问题。我可以使用 unique 和 sort 轻松组合这些值。 [sorted,idx] = sort(data); [~,ij] = unique(
performance - 矢量化代码比循环慢？软件
我在做的问题中有这么一段代码，如下图。定义部分只是为了向您展示数组的大小。下面我粘贴了矢量化版本 - 它慢了 2 倍以上。为什么会这样？我知道如果矢量化需要大的临时变量，我就会发生，但(看起来)这里不
matlab - 如何将一个矩阵存储在另一个矩阵的一行中？软件
我有一个 3D 矩阵，我想将它的每个 2D 分量存储在另一个 2D 矩阵的行中，该 2D 矩阵有许多行作为 3D 矩阵的第 3 维。我该怎么做？最佳答案与 permute & reshape -
c++ - 有什么好的方法可以指示计算机是否可以运行特定的程序/软件？
如果计算机能够使用纯 JavaScript(Google V8)、C++(Windows、Mac OS 和 Linux)运行程序/软件而没有任何性能问题，是否有任何好的方法可以通过要求尽可能少尽可能从
Linux Kiosk 软件？
我的团队的任务是将用于播放媒体文件的全屏、信息亭式应用程序从 Windows 迁移到嵌入式 ARM Linux(瘦客户端)。我们需要在 sd/1080p 中支持 mpeg-2 播放以及 HTML、SW
java - 我需要批量后台删除服务/软件
我们有数以千计的具有白色或黑色或渐变背景的产品图片。我们正在寻找可以去除图片背景的软件或服务。我们需要一款能够很好地完成这项工作的智能软件。最佳答案在 photoshop 中，您可以记录 Acti

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm