python - Xử lý các tệp văn bản lớn bằng python Generator-6ren

Xử lý tệp văn bản lớn bằng trình tạo python

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-03 12:26:29

26

4

Tôi mới sử dụng trình tạo và đã đọc một số bài nhưng cần một số trợ giúp để xử lý các tệp văn bản lớn thành các khối. Tôi biết chủ đề này đã được đề cập nhưng phần giải thích về mã ví dụ rất hạn chế và rất khó sửa đổi mã nếu không hiểu chuyện gì đang xảy ra.

Vấn đề của tôi khá đơn giản, tôi có một loạt tệp văn bản lớn chứa dữ liệu giải trình tự bộ gen của con người theo định dạng sau:

chr22 1 0
chr22 2 0
chr22 3 1
chr22 4 1
chr22 5 1
chr22 6 2

Độ dài tệp dao động từ 1Gb đến ~ 20Gb, quá lớn để đọc vào RAM. Vì vậy, tôi muốn đọc các hàng trong một khối/vùng chứa 10000 hàng cùng một lúc để tôi có thể thực hiện các phép tính trên cột cuối cùng của các kích thước vùng chứa này.

Dựa trên liên kết này đâyTôi đã viết như sau:

def read_large_file(file_object):
    """Chức năng tạo để đọc một tệp lớn một cách lười biếng."""

    bin_size=5000
    bắt đầu=0
    kết thúc=bắt đầu+bin_size

    # Đọc một khối từ file: data
    while True:
        dữ liệu = file_object.readlines(end) 
        nếu không phải là dữ liệu:
            break
        bắt đầu=bắt đầu+bin_size
        end=end+bin_size
        dữ liệu năng suất


def process_file (đường dẫn):

    thử:
        # Mở kết nối tới tập tin
        với open(path) là file_handler:
            # Tạo đối tượng tạo cho file: gen_file
            cho khối trong read_large_file(file_handler):
                in (khối)
                # khối quy trình

    ngoại trừ (IOError, OSError):
        print("Lỗi mở/xử lý file")    
    trở lại    

nếu __name__ == '__main__':
            path='C:/path_to/input.txt'
    tiến trình_file (đường dẫn)

Trong "process_block", tôi mong đợi đối tượng "khối" được trả về là danh sách 10000 phần tử, nhưng thực tế không phải vậy? Danh sách đầu tiên có 843 phần tử. Cái thứ hai là 2394 phần tử?

Tôi muốn trả về hàng "N" trong một khối nhưng tôi không hiểu chuyện gì đang xảy ra ở đây?

giải pháp này đâyCó vẻ như nó có thể hữu ích nhưng tôi vẫn không hiểu cách sửa đổi nó để đọc N hàng cùng một lúc?

cái nàyđâyCũng có vẻ là một giải pháp rất tốt, nhưng một lần nữa, không có đủ giải thích cơ bản để tôi hiểu đủ để sửa đổi mã.

Thực sự đánh giá cao sự giúp đỡ nào?

câu trả lời hay nhất

Thay vì sử dụng offset từ tệp, hãy thử xây dựng từ một vòng lặp và tạo danh sách 10000 phần tử:

def read_large_file(file_handler, block_size=10000):
    khối = []
    cho dòng trong file_handler:
        block.append(line)
        nếu len(block) == block_size:
            khối năng suất
            khối = []

    # đừng quên nhường khối cuối cùng
    nếu chặn:
        khối năng suất

với open(path) là file_handler:
    cho khối trong read_large_file(file_handler):
        in (khối)

Về python - xử lý các tệp văn bản lớn bằng trình tạo python, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/49752452/

26

4

0

Bài viết khuyến nghị: android - Sử dụng chip Vật liệu Android

Bài viết khuyến nghị: Chạy Flask từ IPython ném SystemExit

Bài viết khuyến nghị: Tôi có thể lấy thông tin về những thay đổi của trình biên dịch RyuJIT ở đâu?

Bài viết khuyến nghị: python — Thay đổi cột ngày giờ thành số nguyên không có vòng lặp

Sử dụng WebScriptEndpoint Sử dụng javascript Sử dụng dịch vụ WCF
Tôi tìm trên mạng nhưng không tìm thấy bài viết phù hợp giải thích cách sử dụng dịch vụ WCF bằng javascript, đặc biệt là WebScriptEndpoint. Bất cứ ai có thể đưa ra bất kỳ hướng dẫn về điều này? Cảm ơn bạn vì câu trả lời tốt nhất Đây là một bài viết về.
c - Không có kết quả!! Sử dụng fork() bằng dup2 chạy execlp() bằng 2 ống
Tôi đang viết một chương trình C sẽ chạy các lệnh Linux, ví dụ: cat /etc/passwd | grep list cut -c 1-5 Tôi không nhận được kết quả nào *ở đây cha mẹ đợi con đầu lòng (chi
python - Xử lý tải lên tệp, thay đổi kích thước bằng Gối, lưu trữ bằng SQLAlchemy, cung cấp tệp bằng Flask
Vì vậy, tôi đang cố gắng xử lý việc tải tệp lên và sau đó lưu trữ tệp đó vào cơ sở dữ liệu dưới dạng tệp nhị phân. Sau khi lưu trữ, tôi cố gắng phân phát tệp trên URL đã cho. Tôi dường như không thể tìm thấy một phương pháp hoạt động ở đây. Tôi cần sử dụng cơ sở dữ liệu vì tôi sử dụng Google Apps
Excel - Sự cố khi thêm công thức vào ô bằng VBA bằng IF
Tôi đang cố gắng tạo một macro thêm công thức bên dưới vào một ô rồi kéo nó qua cột và sao chép cùng một công thức trong cột H. Tôi muốn nhập dữ liệu vào cột F và H bằng công thức Range("F1") .công thức = "=IF(ISE
Sử dụng OperatorPrecedenceParser để phân tích ứng dụng hàm bằng Fparsec?
Câu hỏi tương tự như câu hỏi này, nhưng tôi muốn sử dụng OperatorPrecedenceParser để phân tích một biểu thức bằng ứng dụng hàm trong FParsec. Đây là AST của tôi: type Expression =.
sql - Sử dụng tuần tự hóa để truy vấn số lượng mã hóa bằng cách sử dụng Where
Tôi muốn thay đổi truy vấn này thành mã tùy thuộc vào vị trí chọn COUNT(giới tính) làm số lượng giới tính từ khách hàng bằng cách sử dụng phần tiếp theo và node.js
Phân bổ Bash bằng cách sử dụng "let" không thành công với "/"
Tôi đang sử dụng GNU bash, phiên bản 5.0.3(1)-distro (x86_64-pc-linux-gnu) và tôi đang tự hỏi tại sao tôi lại gặp lỗi cú pháp với một câu lệnh gán đơn giản: #/bin/bash var1= /tmp
Lỗi khi sử dụng vòng lặp mảng FOR OF bằng JavaScript?
Đây là lý do tại sao mã của tôi không hoạt động trong IE. Mã của tôi hoạt động trong tất cả các trình duyệt. Không có gì. Nhưng khi tôi chạy dự án của mình trên IE thì nó phát hiện lỗi. Và cả lớp jquery của tôi cũng như lớp InsertadjacentHTMl đều không
Thay đổi nội dung thẻ biểu mẫu bằng thuộc tính for bằng javascript
Tôi đang cố gắng thay đổi HTML bên trong của thẻ. Tôi không có quyền truy cập vào biểu mẫu nên không thể chỉnh sửa HTML. Mã định danh duy nhất mà thẻ có là thuộc tính "for". Đây là cấu trúc của đầu vào và nhãn:
Đính kèm sự kiện vào nút được chèn động trên trang bằng cách sử dụng .on() bằng jquery
Tôi có một trang nơi tôi trả lại bài đăng của người dùng, tôi có thể đưa ra nhận xét ngay lập tức về những bài đăng này bằng cách sử dụng một số mã jquery, sau khi nhận xét mới được đăng, tôi chèn nhận xét mới bên dưới bài đăng cùng với nút xóa. Vấn đề là nút Xóa không hoạt động trên các phần tử mới được chèn vào,
Băm bằng awk bằng sha1sum
Tôi có tệp "được phân cách bằng đường ống" với khoảng 20 cột. Tôi chỉ muốn băm cột đầu tiên bằng cách sử dụng sha1sum, một số giống như số tài khoản và trả về phần còn lại của các cột. Cách tốt nhất để làm điều này bằng awk hoặc sed là gì? tài khoản
mysql - sử dụng chèn vào sử dụng mysql
Tôi cần chèn nội dung sau vào bảng của mình... Bảng người dùng của tôi có năm cột id, tên người dùng, mật khẩu, tên, mục nhập. (Tôi chưa gửi bất cứ thứ gì vào mục này, tôi sẽ làm điều đó sau bằng php) Nhưng vì lý do nào đó tôi vẫn gặp lỗi này: #1054 - U
jquery - Cắt bớt các giá trị trường đầu vào thành các ký tự chữ và số/sử dụng jQuery.
Vì vậy, tôi đang cố gắng có một trường nhập để tôi có thể nhập bất kỳ ký tự nào, nhưng sau đó viết thường giá trị đã nhập, xóa mọi ký tự không phải chữ và số, để lại "." Ví dụ mình nhập: 70% trái đất là nước, -!*#$^ & 30% đất bị mất
Làm việc với DOM bằng .innerHTML
Tôi đang cố gắng làm một việc mà tôi nghĩ là rất đơn giản nhưng vì lý do nào đó tôi lại không đạt được kết quả như mong muốn? Tôi mới làm quen với javascript nhưng có kinh nghiệm với java nên tôi tin rằng mình không sử dụng một số loại quy tắc chính xác. Đây là phương thức lấy giá trị đầu vào, kiểm tra lựa chọn
Nhận dữ liệu từ cơ sở dữ liệu bằng mệnh đề Where bằng cách sử dụng Angularjs
Tôi muốn tải dữ liệu từ cơ sở dữ liệu mysql bằng Angularjs. Đây là cách ứng dụng hoạt động; người dùng đăng nhập và tên người dùng của họ được lưu trữ trong cookie. Tên người dùng này được hiển thị trên trang chủ. Tôi muốn nhận giá trị này và chuyển nó qua Angularjs
Sử dụng UITableViewCell bằng AutoLayout
Tôi đang sử dụng autoLayout và tôi muốn đặt nhãn UIlabel trên UITableViewCell, nhãn này phải luôn ở bên phải và chính giữa phía bên phải của ô. Đây là điều tôi đang cố gắng đạt được nên ở đây bạn có thể thấy điều tôi đang nói đến
mysql - Tìm kiếm nhiều trường bằng cách sử dụng toán tử or và bằng cách sử dụng ElasticSearch
Tôi cần truy vấn tương đương với elaticsearch với MySql. Truy vấn sql của tôi: CHỌN DISTINCT t.product_id NHƯ id TỪ tbl_sup_price t
Sử dụng JSON với Swift
Tôi đang triển khai mã để sử dụng JSON. thiết lập func() { if let FlickrURL = NSURL(string: "https://api.flickr.com/
Khai báo các biến bằng vòng lặp for bằng JavaScript
Tôi đã thử khai báo một biến bằng vòng lặp for và sau đó kiểm tra xem cols và rols có giống nhau không. Nếu có, nó sẽ chạy hàm đệ quy. Tuy nhiên, tôi gặp sự cố khi thực hiện thao tác trong javascript. Có ai có thể giúp được không? Bây giờ, khi so sánh col.1 và
jquery - Sử dụng :after để thay đổi kiểu bằng jquery
Tôi đã đưa ra một ví dụ ngắn gọn về vấn đề tôi đang giải quyết. Mã HTML: 1 2 3 Mã CSS: .BB a:hover{ color: #000 } .BB > li:after {

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Xử lý tệp văn bản lớn bằng trình tạo python