cuốn sách gpt4 ai đã làm

android — Tăng tốc BeautifulSoup

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 03:15:52 25 4
mua khóa gpt4 Nike

tôi đang sử dụng Súp đẹp Phân tích hàng nghìn trang web trong vòng lặp for. Đây là đoạn mã của tôi:

def phân tích_quyết định (liên kết):
t1 = time.time()
trang quyết định = urllib.urlopen(link)
t2 = time.time()
súp = BeautifulSoup(decisionpage.read(), 'lxml')
t3 = time.time()
# ...
# Quá trình phân tích cú pháp diễn ra ở đây và trả về khung dữ liệu gấu trúc

Vì mã mất nhiều thời gian để chạy nên tôi bắt đầu điều tra nguyên nhân và nhận thấy rằng thời gian để BeautifulSoup đọc trang quyết định rất khác nhau. Đây là một đoạn ngắn về số giây cần thiết để hoàn thành mỗi bước:

    Phần tử | t2-t1 |
1. | 0,073 |
2. | 0,096 |
3. | 0,096 |
4. | 0,064 |

Như bạn có thể thấy, mặc dù các trang web này có cùng định dạng và chứa thông tin gần giống nhau, nhưng gần như cứ hai trang web lại yêu cầu 60 giây. Trang web này tương tự như quyết định của tòa án này: http://www.nycourts.gov/reporter/3dseries/2003/2003_17749.htm

Có ai biết tại sao điều này tồn tại?Sự khác biệt về hiệu suấtVà làm thế nào để có thể vượt qua nó? Bất kỳ trợ giúp sẽ được đánh giá rất cao.

câu trả lời hay nhất

Không phải là chậmSúp đẹp, Nhưngtrang quyết định.read().

urllib.urlopen Trả về một đối tượng socket nơi xảy ra yêu cầu http thực tế .đọc(). Vì vậy, nếu có tắc nghẽn ở đâu đó trong mạng của bạn: kết nối Internet hoặc trang web từ xa chậm (hoặc cả hai).

Vì bạn bị ràng buộc I/O và có hàng nghìn trang web, nên bạn có thể tăng tốc đáng kể bằng cách chạy nhiều luồng đồng thời để phân tích các trang web khác nhau.

Về python - Tăng tốc BeautifulSoup, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/36318547/

25 4 0
không gian vũ trụ
Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá taxi Didi miễn phí
Phiếu giảm giá taxi Didi
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress