python-2.7 - 在NLTK中使用我自己的语料库而不是movie

python-2.7 - 在NLTK中使用我自己的语料库而不是movie_reviews语料库进行分类

In lại 作者：行者123 更新时间：2023-12-04 17:47:25

我使用以下代码并从 Classification using movie review corpus in NLTK/Python 中得到它

import string
from itertools import chain
from nltk.corpus import movie_reviews as mr
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.classify import NaiveBayesClassifier as nbc
import nltk

stop = stopwords.words('english')
documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]

word_features = FreqDist(chain(*[i for i,j in documents]))
word_features = word_features.keys()[:100]

numtrain = int(len(documents) * 90 / 100)
train_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag in documents[:numtrain]]
test_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag in documents[numtrain:]]

classifier = nbc.train(train_set)
print nltk.classify.accuracy(classifier, test_set)
classifier.show_most_informative_features(5)

Đầu ra:

0.655
Most Informative Features
                 bad = True neg : pos = 2.0 : 1.0
              script = True neg : pos = 1.5 : 1.0
               world = True pos : neg = 1.5 : 1.0
             nothing = True neg : pos = 1.5 : 1.0
                 bad = False pos : neg = 1.5 : 1.0

我想创建我自己的文件夹而不是 movie_reviews在 nltk 中，并将我自己的文件放入其中。

1 Câu trả lời

如果您的数据结构与 movie_review 完全相同NLTK 中的语料库，有两种方法可以“破解”你的方式:

1. 将您的语料库目录放入您保存 nltk.data Vị trí

首先检查您的nltk.data在哪里保存:

>>> import nltk
>>> nltk.data.find('corpora/movie_reviews')
FileSystemPathPointer(u'/home/alvas/nltk_data/corpora/movie_reviews')

然后将你的目录移动到 nltk_data/corpora所在的位置已保存:

# Let's make a test corpus like `nltk.corpus.movie_reviews`
~$ mkdir my_movie_reviews
~$ mkdir my_movie_reviews/pos
~$ mkdir my_movie_reviews/neg
~$ echo "This is a great restaurant." > my_movie_reviews/pos/1.txt
~$ echo "Had a great time at chez jerome." > my_movie_reviews/pos/2.txt
~$ echo "Food fit for the ****" > my_movie_reviews/neg/1.txt
~$ echo "Slow service." > my_movie_reviews/neg/2.txt
~$ echo "README please" > my_movie_reviews/README
# Move it to `nltk_data/corpora/`
~$ mv my_movie_reviews/ nltk_data/corpora/

在你的python代码中:

>>> import string
>>> from nltk.corpus import LazyCorpusLoader, CategorizedPlaintextCorpusReader
>>> from nltk.corpus import stopwords
>>> my_movie_reviews = LazyCorpusLoader('my_movie_reviews', CategorizedPlaintextCorpusReader, r'(?!\.).*\.txt', cat_pattern=r'(neg|pos)/.*', encoding='ascii')
>>> mr = my_movie_reviews
>>>
>>> stop = stopwords.words('english')
>>> documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]
>>> for i in documents:
... print i
... 
([u'Food', u'fit', u'****'], u'neg')
([u'Slow', u'service'], u'neg')
([u'great', u'restaurant'], u'pos')
([u'great', u'time', u'chez', u'jerome'], u'pos')

(有关更多详细信息，请参阅 https://github.com/nltk/nltk/blob/develop/nltk/corpus/util.py#L21 Và https://github.com/nltk/nltk/blob/develop/nltk/corpus/khởi tạo.py#L144 )

2. 创建您自己的 CategorizedPlaintextCorpusReader

如果您无权访问 nltk.data目录并且你想使用你自己的语料库，试试这个:

# Let's say that your corpus is saved on `/home/alvas/my_movie_reviews/`

>>> import string; from nltk.corpus import stopwords
>>> from nltk.corpus import CategorizedPlaintextCorpusReader
>>> mr = CategorizedPlaintextCorpusReader('/home/alvas/my_movie_reviews', r'(?!\.).*\.txt', cat_pattern=r'(neg|pos)/.*', encoding='ascii')
>>> stop = stopwords.words('english')
>>> documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]
>>> 
>>> for doc in documents:
... print doc
... 
([u'Food', u'fit', u'****'], 'neg')
([u'Slow', u'service'], 'neg')
([u'great', u'restaurant'], 'pos')
([u'great', u'time', u'chez', u'jerome'], 'pos')

类似问题已在 Creating a custom categorized corpus in NLTK and Python 上提出和 Using my own corpus for category classification in Python NLTK

这是可以工作的完整代码:

import string
from itertools import chain

from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.classify import NaiveBayesClassifier as nbc
from nltk.corpus import CategorizedPlaintextCorpusReader
import nltk

mydir = '/home/alvas/my_movie_reviews'

mr = CategorizedPlaintextCorpusReader(mydir, r'(?!\.).*\.txt', cat_pattern=r'(neg|pos)/.*', encoding='ascii')
stop = stopwords.words('english')
documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]

word_features = FreqDist(chain(*[i for i,j in documents]))
word_features = word_features.keys()[:100]

numtrain = int(len(documents) * 90 / 100)
train_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag in documents[:numtrain]]
test_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag in documents[numtrain:]]

classifier = nbc.train(train_set)
print nltk.classify.accuracy(classifier, test_set)
classifier.show_most_informative_features(5)

关于python-2.7 - 在NLTK中使用我自己的语料库而不是movie_reviews语料库进行分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29275614/

Bài viết được đề xuất: haskell - 无点镜头创建不进行类型检查

Bài viết được đề xuất: prolog - O(1) 术语查找

Bài viết được đề xuất: symfony - 显示/隐藏某些菜单取决于奏鸣曲管理员角色

Bài viết được đề xuất: internet-explorer - 存储在 Amazon AWS S3 上的图像未在 Internet Explorer 中呈现

nltk - NLTK 感知器标记器的标记集是什么？
NLTK 感知器标记器的标记集是什么？预训练模型使用的语料库是什么？我试图从NLTK网站上找到官方信息。但他们没有那个。最佳答案来自 https://github.com/nltk/nltk/p
How nltk.TweetTokenizer different from nltk.word_tokenize?(Nltk.TweetTokenizer与nltk.word_tokenize有什么不同？)
我无法理解这两者之间的区别。不过，我了解到word_tokenize将Penn-Treebank用于标记化目的。但TweetTokenizer上的任何内容都不可用。对于哪种类型的数据，我应该使用Twe
nltk - 当我在 NLTK 中尝试 FreqDist() 时收到错误消息 -- NameError : name 'nltk' is not defined
我正在学习 NLTK 和我的 mac 工作正常，除非我在 FreqDist() 上遇到问题。 (我看到另一个关于 FreqDist() 的问题，但他收到了不同的错误消息。TypeError: unha
nltk - 在 NLTK 中提取非结构化文本
我尝试了正则表达式词干分析器，但我得到了数百个不相关的标记。我只是对“播放”词干感兴趣。这是我正在使用的代码: import nltk from nltk.book import * f = open
nltk - 使用 nltk 将日期识别为命名实体？
我正在尝试使用 NLTK 命名实体标记器来识别各种命名实体。在使用 Python 进行自然语言处理一书中，他们提供了常用命名实体的列表(表 7.4，如果有人好奇的话)，其中包括:日期 6 月，2008
nltk - 零碎训练 NaiveBayesClassifier (NLTK)
我有很多文本数据，我想进行分类。我逐 block 递增地获取这些数据(例如 500 个样本)。我想用这些 block 在 NLTK 中对 NaiveBayesClassifier 进行训练，但要进行零
python - NLTK 实体提取从 NLTK 2.0.4 到 NLTK 3.0 的差异
我在尝试运行实体提取功能时遇到问题。我相信这是版本差异。以下工作示例在 2.0.4 中运行，但不在 3.0 中运行。我确实将一个函数调用:batch_ne_chunk 更改为:nltk.ne_chun
docker - RuntimeWarning : 'nltk.downloader' found in sys. 模块在导入包 'nltk' 之后，但在执行 'nltk.downloader' 之前
我正在使用 docker 运行一个使用 nltk、languagetool 等的 NLP 系统... 当我使用 docker-compose build --build-arg env=dev我收到警
nltk - 使用 NLTK 的命名实体识别。提取关键词的相关性
我正在检查 NLTK 的命名实体识别功能。是否可以找出提取出的哪个关键字与原文最相关？另外，是否可以知道提取的关键字的类型(人/组织)？最佳答案如果你有一个训练有素的标注器，你可以先标注你的文本，
nltk - NLTK 中的 pos_tag 不能正确标记句子
我用过这个代码: # Step 1 : TOKENIZE from nltk.tokenize import * words = word_tokenize(text) # Step 2 : POS
nltk - 运行错误 nltk.gaac.demo()
当我运行 nltk.gaac.demo() 时如果我错过了什么，你能帮我吗？我收到以下错误。我使用的是nltk 3.0.1 Python 3.4.1 (v3.4.1:c0e311e010fc, M
nltk - MALLET 与 NLTK 中的主题建模
我刚刚读了一篇关于如何使用 MALLET 进行主题建模的精彩文章，但我在网上找不到任何将 MALLET 与 NLTK 进行比较的内容，而我已经有过一些经验。它们之间的主要区别是什么？ MALLET
nltk - nltk 是否包含阿拉伯语停用词，如果没有，我该如何添加？
我试过这个，但它不起作用 from nltk.corpus import stopwords stopwords_list = stopwords.words('arabic') print(stop
nltk - 可以通过 Poetry 下载 NLTK 数据吗？
我正在构建一个同时使用 NLTK 和 Spacy 的应用程序，并通过 Poetry 管理依赖项。我可以通过将此行添加到我的 pyproject.toml 来下载 Spacy 数据。下 [tool.po
python - NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式未按预期工作
我正在尝试使用 RegexpTokenizer 对文本进行分词。代码: from nltk.tokenize import RegexpTokenizer #from nltk.tokenize i
nltk - NLTK 的 BLEU 分数和 SacreBLEU 有什么区别？
我很好奇是否有人熟悉使用 NLTK's BLEU score calculation 之间的区别和 SacreBLEU library . 特别是，我使用了两个库的句子 BLEU 分数，对整个数据集进
nltk - 如何为 nltk.word_tokenize 定义特殊的 "untokenizable"单词
我正在使用 nltk.word_tokenize用于标记一些包含编程语言、框架等的句子，这些句子被错误标记。例如: >>> tokenize.word_tokenize("I work with C
python - nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？
我无法理解两者之间的区别。不过，我开始知道 word_tokenize 使用 Penn-Treebank 进行标记化。但是 TweetTokenizer 上没有任何内容可用。对于哪种数据，我应该使用
nlp - nltk.word_tokenize 和 nltk.pos_tag 支持哪些语言
我需要对多种语言的文本进行名称实体提取:西类牙语、葡萄牙语、希腊语、捷克语、中文。是否有这两个功能的所有支持语言的列表？是否有使用其他语料库的方法，以便可以包含这些语言？最佳答案默认情况下，这两
python - 使用 nltk 时。在 nltk 函数之前
我是 python 的新手并使用 nltk，所以实际上我有一个非常基本的问题，但在任何地方都找不到答案。我想知道什么时候在 nltk 模块的函数之前使用 nltk.。我正在处理一些任务，在某些情况下

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

python-2.7 - 在NLTK中使用我自己的语料库而不是movie_reviews语料库进行分类