python - Xác định các từ phổ biến nhất từ danh sách email dựa trên từ điển các từ thú vị

Xác định các từ phổ biến nhất từ danh sách email dựa trên từ điển các từ thú vị

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 10:54:35

hai mươi bốn

Thư mục D chứa hàng nghìn email ở định dạng .eml. Một số email là văn bản thuần túy, một số từ Outlook, một số có tiêu đề ASCII và nội dung HTML/MIME, v.v. Tồn tại một tệp từ điển F chứa danh sách các từ thú vị cần tìm trong các tệp trong thư mục D (tức là red\nblue\ngreen\n...). Có một số lượng lớn các thư mục con trong thư mục D, nhưng không có tệp nào khác ngoại trừ tệp .eml ở trên. Những từ xuất hiện thường xuyên nhất phải được liệt kê theo các thông số kỹ thuật sau:

Đối với mỗi từ thú vị, cần cung cấp thông tin về số lần nó xuất hiện và nơi nó xuất hiện. Nếu nó xảy ra nhiều lần trong một tệp thì nó sẽ được báo cáo nhiều lần cho tệp đó. Báo cáo một lần xuất hiện có nghĩa là báo cáo một bộ số nguyên (L,P), trong đó L là số dòng bắt đầu ở đầu nguồn email và P là vị trí trong dòng nơi sự xuất hiện bắt đầu.

Điều này sẽ xây dựng một chỉ mục để tham chiếu các lần xuất hiện khác nhau và tóm tắt các từ thú vị xuất hiện thường xuyên nhất.

Đầu ra phải nằm trên một tệp đầu ra duy nhất, định dạng không được xác định nghiêm ngặt, miễn là bao gồm các thông tin trên: các từ thú vị, số lần xuất hiện của mỗi từ thú vị và vị trí xuất hiện -> file/line/start- chức vụ.

Đây không phải là bài tập về nhà mà là một bài phân tích văn bản thực tế mà tôi muốn thực hiện trên một tập dữ liệu khá lớn. Thử thách của tôi là chọn đúng công cụ để lọc hiệu quả. Cách tiếp cận lặp đi lặp lại (sản phẩm Descartes của các từ/email/v.v.) quá chậm, sẽ tốt hơn nếu kết hợp nhiều bộ lọc từ cho mỗi dòng của mỗi tệp.

Tôi đã thử xây dựng một biểu thức chính quy thay thế từ danh sách các từ thú vị w1|w2|w3|... , biên dịch và chạy nó trên mỗi dòng của mỗi email, nhưng nó vẫn chậm, đặc biệt là khi tôi kiểm tra nhiều lần xuất hiện trong một chèo thuyền khi tôi cần.

例子:

Email E có dòng chữ:

^ ...đợi đã... táo đỏ... việt quất xanh... cờ đỏ trắng và xanh. $\n

Regex báo cáo chính xác màu đỏ (2) và màu xanh (2) nhưng chậm khi sử dụng một từ điển thực sự rất lớn gồm các từ thú vị.

Một cách tiếp cận khác tôi đã thử là:

Sử dụng cơ sở dữ liệu Sqlite để kết xuất thẻ trong quá trình phân tích cú pháp, bao gồm thông tin (cột, vị trí) cho mỗi mục nhập và cuối cùng truy vấn đầu ra. Với bộ nhớ đệm thích hợp, việc chèn số lượng lớn sẽ giúp ích rất nhiều nhưng lại tăng thêm độ phức tạp.

Tôi chưa thử song song hóa dữ liệu vì tôi không chắc chắn mã thông báo/phân tích cú pháp có phải là điều nên làm ngay từ đầu hay không. Có lẽ một cây bảng chữ cái sẽ phù hợp hơn?

Tôi quan tâm đến các giải pháp sau đây, theo thứ tự ưu tiên:

Các công cụ Bash/GNU CLI (đặc biệt là các công cụ có thể song song hóa thông qua GNU "song song", chỉ dành cho thực thi CLI)
Python (xử lý ngôn ngữ tự nhiên?)
C/C++

Không có Perl, tiếc là tôi không hiểu.

câu trả lời hay nhất

Tôi giả sử bạn có thể tạo/tìm trình chuyển đổi eml sang văn bản. Chà, điều này rất gần với những gì bạn muốn:

tìm -type f | song song --tag 'eml-to-text {} |

Định dạng của đầu ra không phải là 100% những gì bạn muốn:

Tên file \t số dòng: số byte (bắt đầu từ file): word

Nếu bạn có nhiều từ thú vị,grep '-f' trong sẽ khởi động rất chậm, vì vậy nếu bạn có thể tạo phiên bản giải nén của maildir, bạn có thể khởi động nó song song grep Ít lần hơn:

tìm . -type f | song song 'eml-to-text {} >/tmp/unpacked/{#}'
tìm /tmp/unpacked -type f | song song -X grep -H -o -n -b -f /tmp/list_of_interesting_words

由于 grep -f Độ phức tạp về thời gian kém hơn tuyến tính, bạn có thể muốn chia /tmp/list_of_interesting_words thành các khối nhỏ hơn:

cat /tmp/list_of_interesting_words | song song --pipe --block 10k --files > /tmp/blocks_of_words

Sau đó xử lý các khối và tệp song song:

tìm /tmp/unpacked -type f | song song -j1 -I ,, song song --arg-file-sep // -X grep -H -o -n -b -f ,, {} // - :::: /tmp/blocks_of_words

Định dạng của đầu ra này như sau:

Tên file: số dòng: số byte (bắt đầu từ file): word

Sắp xếp kết quả theo từ Thay vì nhóm ống tên tệp:

... | sắp xếp -k4 -t: > index.by.word

Tính tần số:

... | sắp xếp -k4 -t: | tee index.by.word |

Tin vui là tốc độ này sẽ khá nhanh, tôi nghi ngờ bạn sẽ có thể đạt được tốc độ tương tự khi sử dụng Python.

biên tập:

grep -F khi khởi động nhanh hơn nhiều, bạn sẽ muốn -w cho grep (vì vậy từ "gram" không khớp với "sơ đồ"); điều này cũng sẽ tránh các tệp tạm thời và có thể khá nhanh:

tìm . -type f | song song --tag 'eml-to-text {} | grep -F -w -o -n -b -f /tmp/list_of_interesting_words' | từ | awk 'FS="{print $3}' |

Về python - Xác định các từ phổ biến nhất từ danh sách email dựa trên từ điển các từ thú vị, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/10985344/

hai mươi bốn

Bài viết khuyến nghị: java - chuỗi mã hóa-giải mã

Bài viết khuyến nghị: linux - Raspberry Pi đặt lại máy chủ của tôi

Bài viết khuyến nghị: java - nhận được 400 phản hồi khi tôi thử yêu cầu POST

Bài viết khuyến nghị: javascript - Menu thả xuống điều hướng CSS tùy chỉnh

windows - gcc 可被 cmd 识别，但不能被 bash 识别
我使用的是linux的windows子系统，安装了ubuntu，bash运行流畅。我正在尝试使用make，似乎bash 无法识别gcc。尝试将其添加到 PATH，但没有任何改变。奇怪的是 - cmd
installation - Imagick 被 WAMPServer 识别，但不被 PHP 识别
ImageMagick 已正确安装。 WAMP 的“PHP 扩展”菜单也显示带有勾选的 php_imagick。除了 Apache 和系统环境变量外，phpinfo() 没有显示任何 imagick
deterministic - 如果一种语言 (L) 被 n 状态 NFA 识别，它是否也能被状态不超过 2^n 的 DFA 识别？
我是这么想的，因为上限是 2^n，并且考虑到它们都是有限机，n 状态 NFA 和具有 2^n 或更少状态的 DFA 的交集将是有效。我错了吗？最佳答案你是对的。 2^n 是一个上限，因此生成的
r - 识别/描述向量中具有特定值的连续几天的序列
我有一个大型数据集，其中包含每日值，指示一年中的特定一天是否特别热(用 1 或 0 表示)。我的目标是识别 3 个或更多特别炎热的日子的序列，并创建一个包含每个日子的长度以及开始和结束日期的新数据集。
识别 R 向量中的特定元素顺序模式
Tôi có một danh sách các vectơ, mỗi vectơ trông như thế này c("Nhật Bản", "Hoa Kỳ", "quốc gia", "Nhật Bản", "nguồn", "quốc gia", "Anh", "nguồn", "quốc gia"
Các công cụ và phương pháp để xác định/ngăn chặn lỗi tràn bộ đệm tĩnh
Có công cụ hoặc phương pháp nào để xác định lỗi tràn bộ đệm trong các mảng được xác định tĩnh (tức là char[1234] thay vì malloc(1234)) không? Tôi đã dành phần lớn thời gian của ngày hôm qua để theo dõi các sự cố và hành vi kỳ lạ mà cuối cùng hóa ra là do dòng sau gây ra: // e
Ký tự đại diện snakemake được tạo thủ công không được sử dụng/nhận dạng
Tôi đã cố gắng tạo các ký tự đại diện Snakemake theo cách thủ công bằng cách nhập tệp được phân cách bằng tab như thế này: các loài mẫu tập dữ liệu frr PRJNA493818_GSE120639_SRP1628
Ký tự đại diện snakemake được tạo thủ công không được sử dụng/nhận dạng
Tôi đã cố gắng tạo các ký tự đại diện Snakemake theo cách thủ công bằng cách nhập tệp được phân cách bằng tab như thế này: các loài mẫu tập dữ liệu frr PRJNA493818_GSE120639_SRP1628
c# - Nhận dạng/nhận dạng giọng hát
Tôi muốn ghi lại giọng nói của ai đó và sau đó dựa trên thông tin tôi nhận được về giọng nói của họ, tôi có thể nhận ra người đó nếu họ nói lại! Vấn đề là tôi không có bất kỳ dữ liệu nào về số liệu thống kê (như tần số) gây ra sự khác biệt! bằng giọng nói của con người Thông tin nếu có ai có thể giúp tôi cách nhận dạng giọng nói của ai đó? trong quá trình nghiên cứu
Nhận biết "Enter"
Tôi muốn chương trình của mình nhận ra khi người dùng nhấn "enter" và tiếp tục vòng lặp. Nhưng tôi không biết làm cách nào để chương trình nhận ra "đầu vào". Đã thử hai phương pháp: string enter; string ent = "\n";
Mẫu biểu thức chính quy để xác định phần mở rộng tệp trong tập lệnh Bash không chính xác để chụp các tệp nén
Tôi đã tạo tập lệnh Bash nhỏ này có một tham số (tên tệp) và sẽ phản hồi dựa trên phần mở rộng của tệp: #!/bin/bash fileFormat=${1} if [[ ${fileFormat} =~ [F
android — Xác định chế độ xem phụ
Tôi đang tìm cách xác định các đối tượng của chế độ xem phụ trong khi lặp lại bên trong vòng lặp for, về cơ bản tôi nhận được contentView từ UITableView bằng cách thực hiện cell.contentView.subviews
Nhận dạng Swift CallKit
Tôi đang cố gắng sử dụng CallKit trong Swift để xác định người gọi. Tôi đang tìm cách xác định người gọi bằng cách thực hiện yêu cầu URL. Ví dụ: +1-234-45-241 gọi cho tôi, tôi muốn nó vào mydomain.
javascript - Plugin hộp dày - Nhận dạng
Tôi gọi plugin (khá cũ) là "hộp dày" và mô tả nó như sau: Khi một hộp dày được tạo, nó chứa danh sách nội dung dựa trên truy vấn. Sử dụng JavaScript hoặc jQuery, tôi muốn có thể truy cập giá trị của loại (trong ví dụ trên t
Xác định/tạo dạng sóng?
Tôi muốn viết một số mã có thể chấp nhận một số loại đầu vào và nhận dạng nó dưới dạng sóng vuông, sóng tam giác hoặc một loại dạng sóng nào đó. Tôi cũng cần một số cách để tạo ra làn sóng nói trên. Tôi có kinh nghiệm với C/C++, tuy nhiên, tôi không chắc mình sẽ mô phỏng tất cả những điều này như thế nào. Cuối cùng, tôi muốn chuyển đổi nó thành microCo
C# Xác định các mục trong vòng lặp for
Tôi đã tạo một vòng lặp for để hiển thị 8 mục trong mỗi phần, nhưng tôi đang cố gắng xác định một số mục nhất định trong vòng lặp. Ví dụ: tôi muốn nhận dạng hai mục đầu tiên, sau đó là mục thứ năm và thứ sáu, nhưng kỹ thuật nhận dạng của tôi có vẻ đúng. vì (int i = 0; tôi
ios - 识别 UIStoryboard
Làm cách nào để xác định UIStoryboard? Lớp này có các phương thức để tạo và khởi tạo, nhưng tôi không thấy @property có tên như vậy. Ví dụ: lấy đối tượng Storyboard + storyboardWithName:b
Cách xác định số phiên bản của từng phiên bản MSSQL
Cách xác định phiên bản SQLServer2005 bạn đang chạy. Để xác định phiên bản SQLServer2005 bạn đang chạy, hãy sử dụng SQLServer ManagementStudio để kết nối với SQLServer2005 rồi chạy.
Xác định tên hàm hoặc thuộc tính trong Javascript
Câu hỏi này đã có câu trả lời ở đây: Làm cách nào để kiểm tra xem một đối tượng có phải là một ngày tháng không? (26 câu trả lời) Đã đóng 2 năm trước. Tôi đang sử dụng mô-đun npm bị lỗi null
android - nhận dạng hoạt động nền
Tôi đang tạo một ứng dụng sử dụng API nhận dạng hoạt động để theo dõi hoạt động của người dùng ở chế độ nền. Nếu người dùng ở cùng một vị trí trong một khoảng thời gian xác định (ví dụ: 1 giờ), hệ thống sẽ gửi thông báo đẩy cho biết. người dùng đi dạo.

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Xác định các từ phổ biến nhất từ danh sách email dựa trên từ điển các từ thú vị

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Xác định các từ phổ biến nhất từ ​​danh sách email dựa trên từ điển các từ thú vị

Xác định các từ phổ biến nhất từ danh sách email dựa trên từ điển các từ thú vị