python - phân tích cú pháp, tìm chương và viết thành các tệp riêng biệt

python - Phân tích cú pháp, tìm các chương và viết chúng thành các tệp riêng biệt

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-03 20:11:17

Tôi gặp khó khăn khi lấy mã chính xác để phân tích các chương trong cuốn sách điện tử này và sau đó in 27 chương đó ra tệp văn bản của riêng chúng. Điều xa nhất tôi nhận được là in "CHAPTER-1.txt". Tôi không muốn mã hóa bất cứ thứ gì và không chắc mình hoàn toàn thiếu dấu ở đâu.

infile = open('dracula.txt', 'r')

readlines = infile.readlines()

toc_list = readlines[74:185]

toc_text_lines = []
cho dòng trong toc_list:
    nếu len(dòng) > 1:
    bị tước_line = line.strip()
    toc_text_lines.append(stripped_line)

#print(len(toc_text_lines))

tiêu đề chương = []
cho text_lines trong toc_text_lines:
    Split_text_line = text_lines.split()
    nếu chia_text_line[-1].isdigit():
    chaptitles.append(text_lines)

#print(len(chương))
in(tiêu đề)

infile.close()

import re

với open('dracula.txt') là f:
   sách = f.readlines()



trong khi cuốn sách:
    dòng = book.pop(0)
nếu "CHAPTER" trong dòng và book.pop(0) == '\n':
    cho tiêu đề trong chương_names_list: ['CHƯƠNG I.', 'CHƯƠNG II.', 
                                                     'CHƯƠNG III.']
với open("{}.txt".format(chapters_names_list), 'w') :

câu trả lời hay nhất

Tôi nghĩ bạn có thể hưởng lợi từ một trình tạo, giả sử một trong những cuốn sách điện tử quá lớn để có thể nhét vào bộ nhớ, bạn sẽ gặp một số vấn đề.

Những gì bạn có thể làm là xây dựng một số loại quy trình xử lý dữ liệu để trước tiên tìm tệp (ebook.txt) trong hệ thống tệp, nhưng hãy nhớ rằng khi đã có tên tệp, chúng tôi sẽ mở nó và tạo từng dòng một và cuối cùng chúng tôi quét từng dòng để tìm "CHƯƠNG I.", "CHƯƠNG II.", v.v.

hệ điều hành nhập khẩu
import re
nhập fnmatch

def find_files(mẫu, đường dẫn):
    """
    Tại đây bạn có thể tìm thấy tất cả tên tệp khớp với một mẫu cụ thể
    sử dụng mẫu ký tự đại diện shell để tránh mã hóa cứng
    mẫu tệp tức là 'dracula.txt'
    """
    cho root, thư mục, tập tin trong os.walk(path):
        cho tên trong fnmatch.filter(tệp, mẫu):
            mang lại os.path.join(root, name)

def file_opener(tên tập tin):
    """
    Mở một chuỗi tên tệp cùng một lúc
    và đảm bảo đóng tệp sau khi chúng tôi hoàn tất 
    quét nội dung của nó.
    """
    cho tên tệp trong tên tệp:
        nếu tên tệp.endswith('.txt'):
            f = open(tên tệp, 'rt')
        năng suất f
        f.close()

def chain_generators(iterators):
    """
    Xâu chuỗi một chuỗi các vòng lặp lại với nhau
    """
    cho nó trong các vòng lặp:
        # Tra cứu lợi nhuận nếu bạn không chắc chắn nó làm gì
        mang lại lợi nhuận từ nó

def grep(mẫu, dòng):
    """
    Tìm mẫu trong một dòng, ví dụ 'CHƯƠNG I.'
    """
    pat = re.compile(mẫu)
    cho dòng trong dòng:
        nếu pat.search(dòng):
            dòng năng suất

# Cách đơn giản để sử dụng các chức năng này cùng nhau

logs = find_files('dracula*', 'Path/to/files')
tập tin = file_opener(log)
dòng = chain_generators(file)
each_line = grep('CHƯƠNG I.', dòng)
để khớp trong each_line:
    in (khớp)

Bạn có thể xây dựng dựa trên những triển khai này để thực hiện những gì bạn muốn làm.

Xin vui lòng cho tôi biết nếu điều này giúp ích.

Về python - phân tích cú pháp, tìm các chương và viết chúng thành các tệp riêng biệt, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/58703465/

Bài viết khuyến nghị: html - chuyển đổi một

Chia làm 2 theo chiều ngang

, trong khi toàn bộ ở một nơi khác

căn chỉnh theo chiều dọc

Bài viết khuyến nghị: matlab - Tạo điểm di chuyển dọc theo đồ thị trong MATLAB

Bài viết khuyến nghị: matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵

Bài viết khuyến nghị: matlab - Xóa các dòng khỏi biểu đồ đường viền

Cách bắt đầu tải trước nhiều phần/chương của cùng một video
Tôi muốn tải trước từng chương của cùng một video. Bằng cách này, sẽ không có hiện tượng giật khi ai đó chuyển sang chương mới. Ví dụ: nếu chương đầu tiên bắt đầu lúc 00:00 và chương tiếp theo bắt đầu lúc 00:15, tôi muốn người chơi của mình tải trước mỗi chương trước 2-3 giây. Câu trả lời hay nhất bạn có thể thử
lắp ráp - NASM cụ thể - chương so với [chương]
Tôi dường như không thể tìm thấy bất kỳ thông tin rõ ràng nào trong tài liệu của NASM về sự khác biệt giữa việc sử dụng "Phần" hoặc "[PHẦN" (có dấu ngoặc vuông) trong mã. Tôi biết đây là macro nhưng tôi thấy chúng được sử dụng gần như thay thế cho nhau. có phải vậy không? Nói cách khác
html - Chương, Bài viết hay Div? Văn bản nhỏ hơn trong phần và thẻ bài viết?
Gần đây tôi đã truy cập w3schools New HTML5 Elements và phát hiện ra các thẻ "phần" và "bài viết". Câu hỏi của tôi là khi nào tôi nên sử dụng thẻ phần, bài viết hoặc thẻ div, tại sao khi tôi sử dụng thẻ phần và bài viết thì văn bản
javascript - Duyệt các chương Quicktime bằng Javascript
Tôi đang cố gắng sử dụng JavaScript để điều hướng các chương trong video Quicktime. Tôi có thể sử dụng chức năng này để xem mỗi Quicktime có bao nhiêu chương: function GetChapterCount(an
javascript - Chương javascript hùng hồn về các mô-đun. Về phạm vi và chức năng eval
Eloquent javascript viết trong Chương 10 của chương mô-đun: Cách rõ ràng nhất là toán tử đặc biệt eval, sẽ xuất hiện
Nên sử dụng cái gì và sự khác biệt giữa thẻ DIV và phần tử HTML5 (chương, bài viết) là gì?
Tôi đang phát triển một ứng dụng HTML5 trong đó tôi đang sử dụng các thẻ sau. Tôi muốn biết công dụng thực tế của các thẻ này trong ứng dụng HTML5 là gì. Các thẻ chúng tôi đã sử dụng trong ứng dụng cũ của mình cũng hoạt động giống như các thẻ được đưa ra ở trên, vì vậy
Cách triển khai số chương/phần trang một cách khôn ngoan trong quá trình tạo PDF bằng công cụ WKHTMLTOPDF PDF
Tôi đang cố gắng tạo một cuốn sách PDF bằng WKHTMLTOPDF cho Linux và lấy nó từ chương trình Perl. Tôi đang chuyển nhiều tệp html có thông tin bìa và chân trang tới WKH qua tệp html
lập trình chức năng - Chương luồng trong Cấu trúc dữ liệu chức năng thuần túy của Okasaki
Trong chương giới thiệu về luồng, Okasaki cung cấp 2 cách triển khai cho thả. Trên luồng. Anh ấy đề cập rõ ràng rằng cái thứ hai hiệu quả hơn (và cả hai đều có cùng ngữ nghĩa), nhưng tôi dường như không thể hiểu tại sao cái này hiệu quả hơn cái kia. Bất kỳ cái nhìn sâu sắc sẽ được đánh giá rất cao.
ruby-on-rails - Mẫu Rails nâng cao: sắp xếp các chế độ xem xung quanh tài liệu, phần, phân cấp trang lồng nhau
Cách đường ray để hiển thị thứ bậc lồng nhau trong Chế độ xem là gì? Có vẻ như là một câu hỏi đơn giản, nhưng hãy cố gắng chịu đựng và có thể ai đó sẽ hiểu (và hy vọng sẽ làm sáng tỏ) sự nhầm lẫn của tôi. Ứng dụng của tôi là một hệ thống phân cấp đơn giản (đơn giản hơn cho mục đích thảo luận): Trong

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - Phân tích cú pháp, tìm các chương và viết chúng thành các tệp riêng biệt