android — Tăng tốc BeautifulSoup-6ren

android — Tăng tốc BeautifulSoup

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 03:15:52

25

4

tôi đang sử dụng Súp đẹp Phân tích hàng nghìn trang web trong vòng lặp for. Đây là đoạn mã của tôi:

def phân tích_quyết định (liên kết):
    t1 = time.time()
    trang quyết định = urllib.urlopen(link)
    t2 = time.time()
    súp = BeautifulSoup(decisionpage.read(), 'lxml')
    t3 = time.time()
    # ...
    # Quá trình phân tích cú pháp diễn ra ở đây và trả về khung dữ liệu gấu trúc

Vì mã mất nhiều thời gian để chạy nên tôi bắt đầu điều tra nguyên nhân và nhận thấy rằng thời gian để BeautifulSoup đọc trang quyết định rất khác nhau. Đây là một đoạn ngắn về số giây cần thiết để hoàn thành mỗi bước:

    Phần tử | t2-t1 |
    1. | 0,073 |
    2. | 0,096 |
    3. | 0,096 |
    4. | 0,064 |

Như bạn có thể thấy, mặc dù các trang web này có cùng định dạng và chứa thông tin gần giống nhau, nhưng gần như cứ hai trang web lại yêu cầu 60 giây. Trang web này tương tự như quyết định của tòa án này: http://www.nycourts.gov/reporter/3dseries/2003/2003_17749.htm

Có ai biết tại sao điều này tồn tại?Sự khác biệt về hiệu suấtVà làm thế nào để có thể vượt qua nó? Bất kỳ trợ giúp sẽ được đánh giá rất cao.

câu trả lời hay nhất

Không phải là chậmSúp đẹp, Nhưngtrang quyết định.read().

urllib.urlopen Trả về một đối tượng socket nơi xảy ra yêu cầu http thực tế .đọc(). Vì vậy, nếu có tắc nghẽn ở đâu đó trong mạng của bạn: kết nối Internet hoặc trang web từ xa chậm (hoặc cả hai).

Vì bạn bị ràng buộc I/O và có hàng nghìn trang web, nên bạn có thể tăng tốc đáng kể bằng cách chạy nhiều luồng đồng thời để phân tích các trang web khác nhau.

Về python - Tăng tốc BeautifulSoup, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/36318547/

25

4

0

Bài viết khuyến nghị: Tính toán thống kê tóm tắt tăng dần cho các mảng lớn trong Python

Bài viết khuyến nghị: css - Làm cách nào để truy cập phông chữ?

Bài viết khuyến nghị: JQuery không đăng ký sự kiện trên phần tử "được làm mới"

Bài viết khuyến nghị: python - Đếm các cuộc gọi đến các phương thức nhất định của một lớp và bất kỳ lớp con nào

beautifulsoup - BeautifulSoup. Làm cách nào để có được liên kết chứa các từ cụ thể?
HTML chứa chuỗi trong div: 'div class="slide"' 'img src="xttps://site.com/files/r_1000,kljg894/43k5j/35h43jk
beautifulsoup - Trích xuất href từ thuộc tính bằng BeautifulSoup
Tôi sử dụng phương pháp này allcity = dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}) để trả về một danh sách như thế này: Coal chloride
beautifulsoup - Đã cài đặt BeautifulSoup nhưng vẫn không nhận được mô-đun có tên bs4
Tôi đang sử dụng Jupyter Notebook, Python 3.5 và môi trường ảo. Trong môi trường ảo của tôi, tôi đã làm: (venv) > pip install BeautifulSoup4 có vẻ hoạt động tốt b/c terminal
Cách loại bỏ lỗi trình phân tích cú pháp html BeautifulSoup khi tôi không sử dụng BeautifulSoup
Tôi đang dự định tạo một chương trình từ điển bằng GUI, nhưng tôi đã thất bại ở rào cản đầu tiên. Tôi vừa cài đặt một mô-đun (PyDictionary) nhưng khi chạy đoạn mã sau thì tôi gặp lỗi. từ nhập PyDictionary
python - Beautifulsoup vs lxml vs Beautifulsoup 3
Tôi đang di chuyển một số trình phân tích cú pháp từ BeautifulSoup3 sang BeautifulSoup4 và tôi nghĩ rằng lxml rất nhanh và đó là trình phân tích cú pháp tôi đang sử dụng trong BS4. Sẽ là một ý tưởng hay nếu bạn phân tích tốc độ của nó, đây là kết quả
python - Lỗi BS4 và BeautifulSoup từ: không thể đọc/var/mail/BeautifulSoup
Câu hỏi này đã có câu trả lời ở đây: Gặp lỗi Python "từ: không thể đọc /var/mail/Bio" (6 câu trả lời) Đã đóng 11 tháng trước. Từ người đẹp
Cách nhanh hơn/ít tiêu tốn tài nguyên hơn để loại bỏ html khỏi các tệp lớn hơn BeautifulSoup? Hoặc cách tốt hơn để sử dụng BeautifulSoup?
Hiện tại tôi không thể gõ cái này vì theo top, bộ xử lý của tôi ở mức 100% và bộ nhớ của tôi ở mức 85,7%, cả hai đều bị python chiếm giữ. Tại sao? Bởi vì tôi đang chạy nó qua một tệp 250 MB để xóa dấu. 250 megabyte, thế thôi!
Python Beautifulsoup: phương thức file.write(str) nhận được TypeError: đối số write() phải là str, không phải BeautifulSoup
Tôi đã viết đoạn mã sau: from bs4 import BeautifulSoup import sys # mô-đun sys ở đâu trong phần mã nguồn
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
Bộ chọn lớp lồng nhau của BeautifulSoup
Tôi đang sử dụng BeautifulSoup cho một dự án. Đây là cấu trúc HTML của tôi John Sam Bailey Jack
beautifulsoup - Xóa các ký tự rác thừa khỏi các tệp bên ngoài
Mã này trích xuất chính xác văn bản Marathi từ blog của tôi. Tôi đánh giá cao việc sử dụng các cụm từ thông dụng và súp đẹp dễ dàng như thế nào. từ nhập bs4 Yêu cầu nhập BeautifulSoup, url lại
Biểu thức chính quy Python để phân tích cú pháp HTML (BeautifulSoup)
Tôi muốn nhận giá trị của trường nhập ẩn trong HTML. Tôi muốn viết một biểu thức chính quy bằng Python sẽ trả về giá trị của fooId nếu tôi biết rằng các dòng trong HTML tuân theo định dạng sau Ai đó có thể cung cấp một ví dụ Python để giải quyết không
BeautifulSoup(bs4) được giải thích chi tiết
BeautifulSoup (bs4) BeautifulSoup là một thư viện python. Chức năng chính của nó là thu thập dữ liệu từ các trang web. Lời giải thích chính thức là: BeautifulSoup cung cấp một số hàm đơn giản, kiểu python.
Python Beautifulsoup lấy văn bản dưới nhãn
Tôi đang cố gắng lấy tất cả các liên kết, tiêu đề và ngày tháng cho một tháng cụ thể, chẳng hạn như tháng 3 trên một trang web, tôi đang sử dụng BeautifulSoup để thực hiện việc này: from bs4 import BeautifulSoup import request
android — Phân trang Beautifulsoup bằng nút tiếp theo
Tôi đang cố gắng thu thập thông tin về thu nhập của các vận động viên được trả lương cao nhất thế giới vào năm 2020 thông qua liên kết này https://www.forbes.com/profile/roger-federer/?list=athletesĐây là lần đầu tiên
BeautifulSoup - nắm bắt tất cả các liên kết của một lớp hoặc văn bản cụ thể
Tôi đang cố gắng nắm bắt tất cả các liên kết có liên quan từ một trang web có món súp đẹp mắt. Tất cả các liên kết tôi cần đều có class="btn btn-gray" và cả văn bản Thông tin thêm<> Cách tốt nhất để chỉ trích xuất các liên kết này là gì? Câu trả lời hay nhất Còn cái này thì sao?
python - Trang web quét web Beautifulsoup với menu thả xuống
Tôi đang cố gắng tìm kiếm một trang web có menu thả xuống nơi người dùng có thể chọn năm dữ liệu sẽ hiển thị. Tuy nhiên, tôi dường như bị mắc kẹt trong việc thực hiện của mình. Đây là địa chỉ trang web: https://www.pgatour.com/tournaments/mas
python - Sự cố trình thu thập dữ liệu web Beautifulsoup
Tôi đang sử dụng BeautifulSoup và cơ chế để tìm một số nội dung từ một trang web. Vấn đề là đôi khi không tìm thấy chuỗi tôi đang tìm kiếm. Tôi không biết vấn đề là gì. Đối với nhiều trang web, nó hoạt động tốt trong nhiều tháng nhưng đột nhiên ngừng hoạt động. Thế thì tôi phải
python - Phân tích cú pháp BeautifulSoup trả về tập hợp trống
(Mã cập nhật ở bên dưới) Tôi có một lớp: UrlData, lớp này tạo danh sách các url: for url in urls: rawMechSiteInfo = mech.open(url) #me

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

android — Tăng tốc BeautifulSoup