python - Xác suất đếm/tần số của các từ liên quan? -6ren

python - Xác suất đếm/tần số của các từ liên quan?

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 08:17:00

Tôi đang tìm cách tạo ra các giá trị xác suất bằng số cho các từ riêng lẻ có gốc/nghĩa chung.

Người dùng sẽ tạo nội dung bằng cách sử dụng các từ như "vũ công", "khiêu vũ", "khiêu vũ", v.v.

Nếu "vũ công" được gửi 30 lần và nhảy 5 lần, tôi chỉ cần giá trị "dance:35" để chụp được tất cả.

Nhưng khi người dùng cũng gửi một từ như "tương ứng", nó sẽ không ảnh hưởng đến số lần "nhảy" của tôi mà được thêm vào một số đếm riêng cùng với các từ như "theo" và "tương ứng".

Ngoài ra, tôi không có danh sách các từ gốc được xác định trước để tìm kiếm. Tôi cần tạo nó một cách linh hoạt dựa trên nội dung do người dùng tạo.

Vì vậy, câu hỏi của tôi là, cách tốt nhất để đạt được điều này là gì? Tôi chắc chắn sẽ không có giải pháp hoàn hảo, nhưng tôi nghĩ ai đó ở đây có thể nghĩ ra cách tiếp cận tốt hơn tôi.

Suy nghĩ của tôi cho đến nay là cho rằng những từ có ý nghĩa nhất phải dài ít nhất 3 hoặc 4 chữ cái. Vì vậy, với mỗi từ tôi gặp dài hơn 4, hãy giảm nó xuống còn 4 ("dancers" trở thành "danc"), kiểm tra danh sách từ của tôi để xem tôi đã gặp nó trước đây chưa, và nếu có - hãy tăng nó lên, nếu không - thêm nó vào danh sách, lặp lại.

Tôi thấy một số câu hỏi tương tự ở đây. Nhưng tôi chưa tìm thấy câu trả lời nào cần cân nhắc kỹ lưỡng và tôi có thể triển khai nó trong python. Câu trả lời dường như là cái này hay cái khác.

câu trả lời hay nhất

Bạn không cần trình bao bọc Python cho thư viện Java, nltk có Snowball! :)

>>> từ nltk.stem nhập SnowballStemmer dưới dạng SS
>>> gốc = SS('tiếng Anh')
>>> gốc.stem('dance')
bạn'danc'
>>> gốc.stem('dance')
bạn'danc'
>>> gốc.stem('nhảy múa')
bạn'danc'
>>> gốc.stem('vũ công')
bạn là vũ công'
>>> gốc.stem('accordance')
bạn đồng ý'

Từ gốc không phải lúc nào cũng cung cấp cho bạn gốc chính xác của từ, nhưng đó là một khởi đầu tốt.

Dưới đây là ví dụ về việc sử dụng thân cây. tôi đang xây dựng gốc: (từ, số đếm) từ điển trong khi chọn từ ngắn nhất có thể cho mỗi gốc. Vì vậy ['dancing', 'dance', 'dances', 'dance', 'dancer'] được chuyển đổi thành {'danc': ('dance', 4), 'dancer': ('dancer', 1 )}

Mã mẫu:(Văn bản được lấy từ http://en.wikipedia.org/wiki/Dance)

import re
từ nltk.stem nhập SnowballStemmer dưới dạng SS

text = """Khiêu vũ đã phát triển nhiều phong cách. Khiêu vũ châu Phi mang tính diễn giải.
Ballet, khiêu vũ (chẳng hạn như điệu waltz) và tango là những phong cách khiêu vũ cổ điển
trong khi múa vuông và cầu trượt điện là các hình thức múa bước.
Những hình thức phát triển gần đây hơn là breakdance và các hình thức khiêu vũ đường phố khác,
thường gắn liền với văn hóa hip hop.
Mỗi điệu nhảy, dù theo phong cách nào, đều có điểm chung.
Nó không chỉ liên quan đến sự linh hoạt và chuyển động của cơ thể mà còn cả vật lý.
Nếu không tính đến yếu tố vật lý phù hợp, thương tích có thể xảy ra."""
#trích xuất từ
từ = [word.low() cho từ trong re.findall(r'\w+',text)]

gốc = SS('tiếng Anh')
đếm = dict()

#đếm gốc và trích xuất những từ ngắn nhất có thể
cho từ trong từ:
    gốc = gốc.stem(từ)
    nếu gốc được tính:
        ngắn nhất, đếm = đếm [gốc]
        nếu len(word) < len(ngắn nhất):
            ngắn nhất = từ
        số lượng [gốc] = (ngắn nhất, số lượng + 1)
    khác:
        đếm[gốc]=(từ,1)

#convert {key: (word, count)} thành [(word, count, key)] để sắp xếp và in thuận tiện
đầu ra = [wordcount + (root,) cho root,wordcount trong count.items()]
#trick sắp xếp đầu ra theo số đếm (giảm dần) & từ (theo bảng chữ cái)
đầu ra.sort(key=lambda x: (-x[1],x[0]))
cho mục ở đầu ra:
    in '%s:%d (Gốc: %s)' % mục

输出:

nhảy:7 (Gốc: nhảy)
và:4 (Gốc: và)
là:4 (Gốc: là)
của:3 (Gốc: của)
phong cách:3 (Gốc: phong cách)
the:3 (Gốc: the)
tiến hóa:2 (Gốc: tiến hóa)
biểu mẫu:2 (Gốc: biểu mẫu)
có:2 (Gốc: có)
not:2 (Gốc: không)
vật lý:2 (Gốc: vật lý)
Châu Phi:1 (Gốc: Châu Phi)
cũng:1 (Gốc: cũng)
dưới dạng:1 (Gốc: as)
liên kết:1 (Gốc: liên kết)
múa ba lê:1 (Gốc: múa ba lê)
phòng khiêu vũ:1 (Gốc: phòng khiêu vũ)
cơ thể:1 (Gốc: cơ thể)
breakdance:1 (Gốc: breakdance)
---cắt ngắn---

Tôi sẽ không khuyên bạn nên bổ sung cho các nhu cầu cụ thể của bạn:

>>> từ nltk.stem.wordnet nhập WordNetLemmatizer
>>> lmtzr = WordNetLemmatizer()
>>> lmtzr.lemmatize('dance')
'nhảy'
>>> lmtzr.lemmatize('vũ công')
'vũ công'
>>> lmtzr.lemmatize('nhảy múa')
'khiêu vũ'
>>> lmtzr.lemmatize('dances')
'nhảy'
>>> lmtzr.lemmatize('dance')
'khiêu vũ'

Chuỗi con không phải là một ý tưởng hay vì nó sẽ luôn thất bại ở một số điểm và nhiều khi nó sẽ thất bại thảm hại.

Độ dài cố định: Các từ giả "dancitization" và "dance" sẽ lần lượt khớp với 4 và 5 ký tự của "dance".
Tỷ lệ: Tỷ lệ thấp sẽ trả về hàng giả (như trên)
tỷ lệ: Tỷ lệ cao sẽ không đủ phù hợp (ví dụ: 'đang chạy')

Nhưng với việc bắt nguồn, bạn nhận được:

>>> gốcmer.stem('dancitization')
bạn'dancit'
>>> gốc.stem('dancendence')
bạn sẽ nhảy'
>>> #vì nhảy múa mang lại cho chúng ta điệu nhảy, hãy thử nhảy múa để có được điệu nhảy
>>> gốcmer.stem('dancization')
bạn sẽ nhảy múa'
>>> gốcmer.stem('dancation')
bạn'dancat'

Đây là một sự không phù hợp ấn tượng đối với gốc "danc". Ngay cả khi tính đến việc "vũ công" không bắt nguồn từ "dance", độ chính xác tổng thể vẫn khá cao.

Tôi hy vọng điều này sẽ giúp bạn bắt đầu.

Giới thiệu về python - Xác suất đếm/tần số của các từ liên quan? , chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/12668861/

Bài viết khuyến nghị: mã nhập python từ chuỗi

Bài viết khuyến nghị: Chương trình C chấm dứt sau khi tạo một số luồng

Bài viết khuyến nghị: C: Cách kiểm tra đầu vào NULL của người dùng

Bài viết khuyến nghị: html - Làm cách nào để tạo lưới flexbox của tôi có 2 hàng và 3 cột nhưng vẫn được căn giữa?

liên quan đến mysql 'như'
Đoạn mã đầu tiên hoạt động tốt và cho kết quả tôi cần. Điều tôi muốn làm bây giờ là nó trả về 3 giá trị số trên 'as num' Cho 3 giá trị khác nhau trên 'as num', cho 3 vị trí khác nhau trên cùng một cột SELEC
thuật toán - Hàm toán học ba biến (có liên quan)
Tôi muốn phân tích một số dữ liệu để viết thuật toán định giá. Có sẵn các ngày sau đây: Tôi cần một hàm/bộ tương quan gồm ba biến/thứ nguyên cho thấy sự thay đổi về giá trị trung bình (giá) khi ba thứ nguyên (công suất, số phòng ngủ, số phòng tắm) tăng lên. Ví dụ Y(#pers_c
Sự cố trong nền - liên quan đến Sprite-Kit
Như tiêu đề đã nói - Trò chơi Sprite Kit của tôi thỉnh thoảng gặp sự cố trong nền, luôn kèm theo lỗi này - Loại ngoại lệ: EXC_BAD_ACCESS (SIGSEGV) Ngoại lệ phụ
Thông báo xác thực Phalcon trên các mô hình (bí danh) liên quan
Giả sử tôi cố lưu dữ liệu sau và mô hình Bài hát có trình xác thực Phalcon\Mvc\Model\Validator\PresenceOf được đặt trên thuộc tính tên của nó // Lấy một dữ liệu hiện có
c# - Có liên quan nếu các điều kiện được kiểm soát bởi toán tử &&
Tôi có một điều khiển if như hiển thị bên dưới; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
javascript - Liên quan đến Jscript ReadLine()
Ai đó có thể cho tôi biết cách chúng tôi sử dụng ReadLine() để đọc một dòng cụ thể từ một tệp (.txt) không? Bây giờ tôi muốn đọc toàn bộ nội dung của tệp (không chỉ dòng đầu tiên). Tôi cần sử dụng phương pháp nào cho việc này. Tôi đã googled rất nhiều nhưng không thể tìm ra giải pháp. thế hệ của tôi
fpga - Các ngôn ngữ liên quan đến FPGA như thế nào?
Tôi tin rằng ở trường đại học, tôi đã viết một chương trình cho FPGA bằng ngôn ngữ bắt nguồn từ C. Tôi biết các ngôn ngữ như VHDL và verilog. Tuy nhiên, điều tôi không hiểu là lập trình viên có bao nhiêu lựa chọn về khía cạnh nào để sử dụng? Nó có phụ thuộc vào FPGA không? Tôi sẽ sử dụng Xili
c# - Có liên quan nếu các điều kiện được kiểm soát bởi toán tử &&
Tôi có một điều khiển if như hiển thị bên dưới; if (Directory.Exists(System.IO.Path.Combine(systemPath, "Reports", companyName))
javascript - Đặt nguồn cho đối tượng hình ảnh - Liên quan đến Dashcode
Làm cách nào để thay đổi nguồn của đối tượng hình ảnh trong Dashcode (Javascript) khi chạy? Tôi đã thử: var image = document.getElementById("image").object;ima
Cách thực hành tốt nhất cho tính đa hình trong các lớp C++ có liên quan?
Tôi có một số lớp có liên quan với nhau sẽ được sử dụng bởi một số thuật toán khác nhau. Ví dụ: struct B; struct A { B* parent;
mysql - liên quan đến mySQL
Tôi đang phát triển một trang web nơi người dùng nhập số tiền vào bảng mà khách hàng nhận được, nếu khách hàng nào không cung cấp khoản trả góp (số tiền) thì người dùng không nhập bất kỳ số tiền nào vào bảng và người dùng muốn lấy thông tin về khách hàng vi phạm ở 10 Heaven là cơ sở. Vì vậy, câu hỏi của tôi là bảng và thuộc tính nào cần được xác định
mysql - Chọn một giá trị từ mục nhập biểu mẫu trọng lực trước đó (liên quan đến SQL)
Tôi đang cố gắng chọn một giá trị từ mục trước đó và tăng số đó lên một giá trị mỗi lần. Tôi đã làm cho nó hoạt động để chọn giá trị mục nhập hiện tại (mặc định là 1000) và tăng nó lên 1 rồi xác nhận lại giá trị đó (vì vậy mỗi lần nó sẽ là 1001). Tôi cần nó để chọn mục cuối cùng của trường để nó trở thành
mysql - Cách chọn một hàng từ một bảng và chọn nhiều hàng từ một bảng khác (có liên quan)
Tôi không giỏi trong việc "thực hiện" các truy vấn. Giả sử đây là cơ sở dữ liệu của tôi: ảnh nghệ sĩ ------------------ -
PHP: Bỏ phiếu dài và liên quan đến sao chổi
Gần đây, tôi muốn tạo một hệ thống thông báo tức thời cho trang web của mình. Tôi nghe nói COMET rất cần thiết trong tình huống này. Tôi đã tìm kiếm PHP và Comet được một thời gian, tuy nhiên, các hướng dẫn và bài viết tôi tìm thấy dường như chỉ nói về các yêu cầu ajax trong một vòng lặp. Ví dụ, có
ios - Tại sao tính năng này không hoạt động? (liên quan đến SpriteKit)
Tôi đang làm việc trên một trò chơi iOS và tôi muốn chú hề xuất hiện bên ngoài hiện trường rồi di chuyển xuống. Ý tưởng của tôi là tạo ra tất cả chúng và đặt chúng vô hình trong cảnh ở khoảng cách 360 pixel. Như thế này: SKSpriteNode *clo
Nhóm Mysql theo mệnh đề có liên quan đến vị trí trên kết quả tổng hợp
Tôi có bảng thứ tự phụ sau đây. mysql> chọn * từ đơn hàng phụ +-------------+-------+ | order_state |
java - Khi nào việc mã hóa có liên quan đến Java?
Đây có thể là một câu hỏi dành cho người mới bắt đầu, nhưng việc xem xét việc gỡ lỗi mã hóa trong Java khá phù hợp: Khi nào mã hóa có liên quan đến một đối tượng String? Giả sử tôi có một đối tượng chuỗi mà tôi muốn lưu vào một tệp. Bản thân đối tượng String có sử dụng một số loại
Làm cách nào để quản lý mối quan hệ một-nhiều giữa các đối tượng? (liên quan đến di chuyển)
Đầu tiên tôi muốn nói rằng tôi chưa quen với CPP (tôi đã bắt đầu với cpp11) :) Hãy xem xét các thực thể sau: sinh viên (tên + họ) và nhóm (mô tả + nhiều sinh viên hơn). Tôi đã tạo 2 lớp sau trong C++: class Sinh viên { privat
javascript - Không thể gọi hàm/liên quan đến AJAX
Tôi đang cố gắng cập nhật cơ sở dữ liệu của mình một cách đồng bộ khi hộp kiểm được nhấp vào. Tôi quyết định sử dụng aJax nhưng có vẻ như nó không nhận ra ajax. Mã: Các phần tử sẽ trở thành hàm Switch_Active(this.id)... Vô hiệu hóa
jQuery - Nhấp và thêm lớp để kích hoạt một nhấp chuột (có liên quan) khác?
Tôi đang tạo một thực đơn. Thực đơn như sau. $('.category').mouseover(function() { $(this).removeClass('category').addClass('cate

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - Xác suất đếm/tần số của các từ liên quan?