python - Cách dừng trình thu thập thông tin phế liệu-6ren

python - Cách dừng trình thu thập dữ liệu ngẫu nhiên

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-04 08:56:22

Tôi muốn ngăn chặn con nhện nếu đáp ứng một số điều kiện nhất định. Tôi đã thử làm điều này:nâng cao CloseSpider('Một số văn bản') Và

sys.exit("TẮT MỌI THỨ!")

Nhưng nó không dừng lại. Đây là mã được viết để tăng ngoại lệ thay vì trả về và nó sẽ không hoạt động khi con nhện tiếp tục bò:

nhập khẩu phế liệu
từ yêu cầu nhập Scrapy.http

từ tutorial.items nhập DmozItem
từ Scrapy.Exceptions nhập CloseSpider
import sys

lớp DmozSpider(scrapy.Spider):
    name = "hướng dẫn"
    allow_domain = ["jabong.com"]
    bắt đầu_urls = [
            "http://www.jabong.com/women/shoes/sandals/?page=1"
        ]

    trang_index = 1

    phân tích cú pháp def (tự, phản hồi):
        sản phẩm = reply.xpath('//li')

        nếu sản phẩm:
            cho sản phẩm trong sản phẩm:
                mục = DmozItem()
                item_url = sản phẩm.xpath('@data-url').extract()
                item_url = "http://www.jabong.com/" + item_url[0] nếu item_url khác ''   
                nếu item_url:
                        request=Request(url=item_url,callback=self.parse_page2,meta={"item":item},
                                headers={"Chấp nhận":
                        "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"})
                    request.meta['item'] = mục
                    yêu cầu năng suất
        khác:
            trở lại

        self.page_index += 1
            nếu self.page_index:
                    yêu cầu năng suất(url="http://www.jabong.com/women/shoes/sandals/?page=%s" % (self.page_index),
            headers={"Người giới thiệu": "http://www.jabong.com/women/shoes/sandals/",
                 "X-Requested-With": "XMLHttpRequest"},
                        gọi lại=self.parse)

    def pars_page2(tự, phản hồi):
        kích thước=[]
        mục = phản hồi.meta['item']
        item['site_name'] = 'jabong'
        mục['tags'] = ''
        mục sản lượng

CẬP NHẬT: Thay vì quay trở lại, lũ nhện của tôi không dừng lại mặc dù tôi đã nâng clospider lên

câu trả lời hay nhất

trở lại Cũng hoạt động ở đây, không phải do bắt buộc mà do logic thu thập dữ liệu - vì bạn không còn tạo bất kỳ yêu cầu nào nữa.
Nhưng hãy nhớ rằng những gì bạn có thể hiểu là "con nhện không đóng" thực ra là các yêu cầu còn lại trong quy trình đã bắt đầu được xử lý và cần nhiều thời gian hơn để hoàn tất quá trình xử lý. Vì vậy, con nhện sẽ không thực thi trở lại dừng ngay lập tức vì vẫn còn yêu cầu trong quy trình. Khi tất cả chúng đã được xử lý xong, con nhện cuối cùng sẽ dừng lại nếu không có con nhện mới nào được tạo ra.

Về python - làm thế nào để dừng trình thu thập thông tin ngẫu nhiên, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/29844131/

Bài viết khuyến nghị: html - Cách sửa đổi css của bố cục ứng dụng trò chuyện, đặc biệt là chân trang cố định

Bài viết khuyến nghị: Firebase .validate không hoạt động với $location như mong đợi

Bài viết khuyến nghị: Java Win WX 和 Win Vista

Bài viết khuyến nghị: Làm cách nào để thay đổi loại cột Khung dữ liệu gấu trúc ban đầu thuộc về một danh mục loại?

Scrapy - Làm thế nào để sử dụng phần mềm trung gian Scrapy trong Scrapy Shell?
Trong một dự án có phế liệu, mọi người thường sử dụng phần mềm trung gian. Có cách nào chung để kích hoạt phần mềm trung gian trong shell phế liệu trong các phiên tương tác không? Tuy nhiên, câu trả lời hay nhất trong setting.py set
Scrapy-splash xử lý cuộn vô hạn như thế nào?
Tôi muốn đảo ngược nội dung được tạo bằng cách cuộn xuống trong trang web. Vấn đề là ở url https://www.crowdfunder.com/user/following_page/80159?user_id=80159&li
Scrapy - URL tương đối với URL tuyệt đối Scrapy
Tôi cần trợ giúp chuyển đổi URL tương đối thành URL tuyệt đối trong Scrapy Spider. Tôi cần chuyển đổi liên kết trên trang bắt đầu thành một URL tuyệt đối để có được hình ảnh của một mục được soạn thảo trên trang bắt đầu. Tôi đã thử sử dụng các phương pháp khác nhau để đạt được điều này nhưng không thành công, nhưng tôi vẫn bị mắc kẹt
Scrapy - Lỗi Python Scrapy. Việc chạy 'thu thập dữ liệu ngẫu nhiên' với nhiều trình thu thập dữ liệu không còn được hỗ trợ
Tôi đã tạo một tập lệnh bằng Scrapy Python và nó đã hoạt động tốt (không có thay đổi) trong vài tháng. Gần đây, khi tôi thực thi một tập lệnh trong Windows Powershell, nó đưa ra lỗi tiếp theo: thu thập dữ liệu ngẫu nhiên
Scrapy - giới hạn bộ nhớ giật gân (scrapy)
Tôi đã bắt đầu giật gân từ docker. Tôi đã tạo tập lệnh lua lớn cho Splash và Scrapy, sau đó khi nó chạy tôi thấy vấn đề: Lỗi Lua: lỗi trong __gc metamet
Scrapy - Để Scrapy tiếp tục thu thập thông tin từ điểm dừng trước đó
Tôi đang sử dụng Scrapy để thu thập dữ liệu một trang web nhưng có điều gì đó không ổn xảy ra (mất điện, v.v.). Tôi tự hỏi làm thế nào tôi có thể tiếp tục nơi nó đã dừng lại. Tôi không muốn bắt đầu từ hạt giống. Câu trả lời hay nhất Điều này có thể được thực hiện bằng cách duy trì các yêu cầu đã lên lịch vào đĩa. c vụn vặt
Scrapy - Scrapy tạm dừng/tiếp tục hoạt động như thế nào?
Ai đó có thể giải thích cho tôi cách triển khai chức năng tạm dừng/tiếp tục trong Scrapy không? công việc? Phiên bản Scrapy tôi đang sử dụng là 0.24.5 Tài liệu không cung cấp nhiều chi tiết. Tôi có con nhện đơn giản sau: cla
Scrapy - Tín hiệu Apscheduler+scrapy chỉ hoạt động trên luồng chính
Tôi muốn sử dụng apscheduler với Scrapy.Nhưng mã của tôi sai. Tôi nên sửa đổi nó như thế nào? cài đặt = get_project_settings() configure_logging
Scrapy - Tại sao Scrapy chậm?
Tôi đang thu thập dữ liệu một trang web và phân tích một số nội dung và hình ảnh, nhưng ngay cả đối với một trang web đơn giản khoảng 100 trang, cũng phải mất hàng giờ để hoàn thành. Tôi đang sử dụng thiết lập sau. Bất kỳ trợ giúp sẽ được đánh giá rất cao. Tôi đã xem câu hỏi này - Scrapy's Scrapyd
Scrapy - Tại sao Scrapy chậm?
Tôi đang thu thập dữ liệu một trang web và phân tích một số nội dung và hình ảnh, nhưng ngay cả đối với một trang web đơn giản khoảng 100 trang, cũng phải mất hàng giờ để hoàn thành. Tôi đang sử dụng thiết lập sau. Bất kỳ trợ giúp sẽ được đánh giá rất cao. Tôi đã xem câu hỏi này - Scrapy's Scrapyd
Scrapy - Sử dụng Scrapy để thu thập dữ liệu dần dần các trang web
Tôi mới làm quen với việc thu thập dữ liệu và muốn biết liệu có thể sử dụng Scrapy để thu thập dữ liệu một trang web như CNBC.com theo từng bước không? Ví dụ: nếu hôm nay tôi thu thập dữ liệu tất cả các trang từ một trang web thì bắt đầu từ ngày mai tôi sẽ chỉ thu thập các trang mới được xuất bản vào trang web đó để tránh thu thập dữ liệu tất cả các trang cũ. tri ân
Scrapy - Sử dụng Scrapy để tải hình ảnh như thế nào?
Tôi mới làm quen với phế liệu. Tôi đang cố tải xuống một hình ảnh từ đây. Tôi đang theo dõi Official-Doc và bài viết này của tôi trông giống như: BOT_NAME = 'shop.
Scrapy: 0 trang được thu thập thông tin (hoạt động trong Scrapy Shell, nhưng không hoạt động với lệnh Scrapy crawl Spider)
Tôi đang gặp một số vấn đề khi sử dụng Scrapy. Nó không trả lại kết quả nào. Tôi đã cố gắng sao chép và dán con nhện sau vào phần vỏ vụn và nó đã hoạt động. Tôi không thực sự chắc chắn vấn đề là gì, nhưng khi tôi sử dụng "scrapy crawl rx
Scrapy - Quét nhiều URL bằng Scrapy
Làm cách nào để thu thập dữ liệu nhiều URL bằng Scrapy? Tôi có bị buộc phải tạo nhiều trình thu thập thông tin không? class TravelSpider(BaseSpider): name = "speedy" allow_d
Scrapy - Cách đảm bảo Scrapy-Splash đã hiển thị thành công toàn bộ trang
Sự cố xảy ra khi tôi sử dụng tính năng giật gân để hiển thị toàn bộ trang mục tiêu nhằm thu thập dữ liệu toàn bộ trang web. Một số trang không thành công một cách ngẫu nhiên, vì vậy tôi nhận nhầm thông tin xuất hiện sau khi công việc hiển thị hỗ trợ hoàn tất. Điều này có nghĩa là tôi chỉ lấy thông tin từ kết quả hiển thị, mặc dù tôi có thể lấy tất cả thông tin từ các kết quả hiển thị khác.
Scrapy - Quét nhiều URL bằng Scrapy
Làm cách nào để thu thập dữ liệu nhiều URL bằng Scrapy? Tôi có bị buộc phải tạo nhiều trình thu thập thông tin không? class TravelSpider(BaseSpider): name = "speedy" allow_d
Scrapy - Cách sử dụng toàn bộ lõi CPU cho Scrapy
Dù sao thì chương trình vụn vặt của tôi cũng chỉ sử dụng một lõi CPU CONCURRENT_REQUESTS. Có phương pháp nào trong Scrapy để sử dụng tất cả lõi CPU trong một trình thu thập Scrapy không? ps: Dường như có một cuộc tranh luận về max_pr
python - Scrapy - tự động chờ tải trang - selen + Scrapy
Gần đây tôi đã tạo một trình thu thập dữ liệu web bằng python và Selenium và tôi thấy việc này rất đơn giản để thực hiện. Trang sử dụng lệnh gọi ajax để tải dữ liệu và ban đầu tôi đợi thời gian chờ cố định để tải trang. Điều này đã có tác dụng được một thời gian. sau đó tôi
Scrapy: máy chủ Scrapy yêu cầu một dự án, tại sao?
Tôi muốn chạy máy chủ phế liệu bằng lệnh này: máy chủ phế liệu Nó không thành công vì không có dự án. Sau đó tôi tạo một dự án trống để chạy máy chủ và triển khai thành công một dự án khác. Tuy nhiên, máy chủ có vấn đề không thể xử lý mục này và báo cáo
python - Scrapy - cạo các trang web khác nhau trong một tập lệnh vụn vặt
Tôi đang tạo một ứng dụng web để loại bỏ một danh sách dài các loại giày từ các trang web khác nhau. Đây là hai tập lệnh vụn vặt riêng biệt của tôi: http://store.nike.com/us/en_us/pw/mens-clearance-s

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - Cách dừng trình thu thập dữ liệu ngẫu nhiên