Python, Cloud - Công cụ quét web trực tuyến có chức năng lập lịch

Python, Cloud - Công cụ quét web trực tuyến với khả năng lập lịch

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-03 19:26:30

Tôi đang dự định phát triển một ứng dụng web/đám mây bằng python, thực hiện như sau:
1. Tải tập lệnh chụp Perl/Python lên và thực thi nó.
2. Tải tập lệnh lên để chạy theo lịch trình.
3. Chạy nhiều phiên bản của cùng một tập lệnh với các tham số đầu vào khác nhau.
4. Đo hiệu suất tập lệnh.
5. Xem đầu ra/nhật ký tiêu chuẩn của tập lệnh.

Tôi có hạn chế/không có kiến thức về các công nghệ có thể đáp ứng yêu cầu của tôi,
Các mẹo, gợi ý, ý tưởng về công việc hiện có, thư viện, triển khai nguồn mở, v.v. đều được đánh giá cao.

谢谢，
Rajesh.

câu trả lời hay nhất

Sử dụng Scrapy làm nền tảng cho công việc của bạn:

http://scrapy.org/

Để tải lên, hiệu suất tập lệnh và đầu ra (tôi giả sử thông qua giao diện web), bạn cần viết giao diện người dùng web tùy chỉnh lưu trữ thông tin đó trong cơ sở dữ liệu, nơi bạn có thể khám phá nó. Một lựa chọn là kim tự tháp:

http://pypi.python.org/pypi/pyramid/

Để triển khai đám mây Python, hãy xem Heroku:

http://www.heroku.com/

Về Python, Cloud - Công cụ quét web trực tuyến có khả năng lập lịch, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/7927362/

Bài viết khuyến nghị: MATLAB các phần khác nhau của tiêu đề sử dụng các màu khác nhau matlab matlab matlab

Bài viết khuyến nghị: matlab - Cách lồng nhiều vòng lặp parfor

Bài viết khuyến nghị: matlab - Chuyển đổi ma trận thành vectơ xếp chồng loại bỏ tất cả các số 0 sau giá trị khác 0 cuối cùng trong mỗi hàng

Bài viết khuyến nghị: Làm cách nào tôi có thể đặt các trường của mình chỉ một lần?

css - Trích xuất hình ảnh con trỏ từ trình duyệt (lấy, lấy...)
Như đã đề cập trong câu trả lời này, bạn có thể đặt con trỏ dự phòng nếu trình duyệt không hỗ trợ e. G. Con trỏ: lấy;. Vấn đề của tôi bây giờ là nhận được những hình ảnh này. Tìm kiếm cục bộ ".cur" trên ổ đĩa của tôi chỉ cung cấp cho tôi con trỏ hệ thống với Grab.cur và Grab
python - Quét Instagram
Đoạn mã sau được chạy trên máy tính để lấy dữ liệu từ tài khoản Instagram. Khi tôi thử sử dụng nó trên máy chủ VPS, tôi được chuyển hướng đến trang đăng nhập Instagram nên tập lệnh không hoạt động. Tại sao khi tôi sử dụng máy tính hoặc trên máy chủ, tôi
ruby - đang quét, tham số truy vấn của tôi sai
Tôi đang làm việc trên một trang web sử dụng Ruby và Mechanize để chuyển các truy vấn POST tới trang web. Truy vấn để truy cập trang web dựa trên firebug, như hiển thị bên dưới param.PrdNo=-1¶m.Type=Prop¶m
Ruby - Tìm nạp, theo dõi các liên kết được phân trang
Tôi đang cố gắng thu thập dữ liệu một trang web có nhiều kết quả trang, như "1, 2, 3, 4, 5...". Mỗi số ngắt trang là một liên kết đến một trang khác và tôi cần thu thập dữ liệu từng trang. Cho đến nay tôi đã nghĩ ra điều này: while lien = page.l
Quét gói htmlagility
Tôi đang sử dụng HtmlAgilityPack để thực hiện Quét trong C# Asp.Net, cho đến nay tôi không gặp vấn đề gì khi thực thi Scratch từ nhiều trang web, tuy nhiên, tôi gặp lỗi khi cố gắng bật mã sau
javascript - Tìm nạp:sau nội dung
Nếu tôi có tệp css thực hiện điều gì đó giống như #foo:after{content:"bar;}, thì có cách nào để lấy nội dung của :after bằng cách sử dụng javascript không? Việc lấy nội dung của phần tử gốc chỉ trả về nội dung của # phần tử foo
Đang gọi/thu thập thông tin trang phía khách hàng?
Vấn đề là thế này: Tôi có một ứng dụng web - một hệ thống thông báo thay đổi thường xuyên - chạy trên một loạt máy tính cục bộ. Ứng dụng làm mới cứ sau vài giây để hiển thị thông tin mới. Máy tính chỉ hiển thị thông tin và không có bàn phím hay bất kỳ thiết bị đầu vào nào. Vấn đề là, nếu với
C# - Trợ giúp thu thập thông tin/mô phỏng duyệt web
Tôi muốn tạo một chương trình mô phỏng người dùng duyệt một trang web và nhấp vào liên kết. Cookies và javascript phải được kích hoạt. Tôi đã thực hiện thành công việc này bằng python, nhưng tôi muốn viết nó bằng một ngôn ngữ có thể biên dịch được (python ide sẽ không
python - Thu thập dữ liệu/bỏ qua các mục trống
Tôi đã tạo ra con bot nhỏ này hoạt động bằng cách tìm kiếm thông qua danh sách các tham số. Nó hoạt động tốt cho đến khi có một vài kết quả trên trang: Product_prices_euros đưa ra danh sách các mặt hàng trống một nửa. Vì vậy, khi tôi so sánh nó với sản phẩm_price_c
python - Tìm và đếm số lần xuất hiện của các từ trên trang web - Scraping
Tôi cần tìm từ trùng khớp, ví dụ: Tìm tất cả các từ "nghiên cứu" trực tuyến https://www.georgetown.edu/ (kết quả: 4 từ) (bạn có thể thấy nó nhấn CTRL+F và tìm kiếm) Tôi có mã Python của tôi
python - thu thập dữ liệu\bảo vệ nhện
Có một site\resource cung cấp một số số liệu thống kê chung cũng như giao diện cho công cụ tìm kiếm. Loại hoạt động tìm kiếm này tốn kém, vì vậy tôi muốn hạn chế các yêu cầu tìm kiếm thường xuyên và liên tục (tức là tự động) (từ mọi người, không phải từ công cụ tìm kiếm). Tôi tin rằng có nhiều công nghệ và khuôn khổ hiện có có thể thực hiện một số hoạt động thu thập thông tin tình báo
Quét HTML bằng Python
Điều này không thực sự khó khăn, tôi chỉ muốn tìm URL trong các trang web nơi lớp có giá trị cụ thể. Ví dụ: Tôi muốn nhận giá trị href. Có ý tưởng nào về cách thực hiện việc này không? Có lẽ là biểu thức chính quy? Bạn có thể đăng một số mã mẫu không? Tôi đoán thư viện thu thập dữ liệu html, chẳng hạn như B
python — Làm cách nào để xóa tất cả nội dung từ trang web cuộn vô hạn? thu thập thông tin
Tôi đang sử dụng phế liệu. Trang web tôi đang làm việc có chức năng cuộn vô hạn. Trang có nhiều bài viết nhưng tôi chỉ lược bỏ được 13 bài. Làm thế nào để cạo các bài viết còn lại? Đây là mã của tôi: lớp exampleSpider(scrapy.
python - Không thể cạo qua BeautifulSoup
Tôi đang cố gắng xóa các hình ảnh và url tin tức từ trang web này. Các thẻ tôi đã xác định là root_tag=["div", {"class"ngp_col ngp_col-bottom-gutter-2 ng.
Đang thu thập dữ liệu trang web Cloudflare
đóng cửa. Câu hỏi này cần tập trung hơn. Hiện tại nó không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Đã cập nhật câu hỏi để tập trung vào chỉ một câu hỏi chỉnh sửa bài đăng này. Đã đóng vào tháng trước. Cải thiện truy vấn này
Lặp lại phần lưu trữ BeautifulSoup cho tất cả các tệp trong thư mục cục bộ
Tôi có hàng nghìn tệp html trong một số thư mục và tôi muốn trích xuất dữ liệu từ các nhận xét và đặt chúng vào tệp csv. Điều này sẽ cho phép tôi định dạng và dọn dẹp nó cho dự án. Ví dụ: tôi có 640 tệp html trong thư mục này: D:\My Web S
c# - Tìm nạp qua VIEWSTATE
Tôi gặp phải sự cố khi viết tiện ích để thu thập dữ liệu trang web. Tôi đang gửi yêu cầu POST để truy xuất dữ liệu và tôi đang bắt chước hành vi của trang web mà tôi đang tìm kiếm (dựa trên thông tin được thu thập bằng cách sử dụng fiddler). Tôi đã có thể tự động thay thế chữ V trong POST của mình
ajax - Yandex AJAX thu thập thông tin
Để thu thập dữ liệu AJAX của Googlebot, tôi sử dụng thông số "_escaped_fragment_" trong trang web của mình. Bây giờ tôi đang xem kết quả tìm kiếm Yandex cho trang web của mình. Tôi thấy phản hồi AJAX không tồn tại trong kết quả tìm kiếm
Ruby Mechanize Crawl ResponseCodeError
Tôi đang cố gắng thu thập dữ liệu tất cả các trang kết quả của một trang web và nó hoạt động nhưng đôi khi tập lệnh dừng và hiển thị lỗi này: 502 => Net::HTTPBadGateway for https://website.com/id/12/ --
python - Tại sao trang web này không thể được thu thập dữ liệu bằng bs4?
Tôi là người mới bắt đầu học thu thập dữ liệu trên web và vì lý do nào đó tôi không thể thu thập dữ liệu trang web này. Khi tôi kiểm tra nó trong Chrome, mã có vẻ ổn nhưng khi tôi đọc nó bằng BeautifulSoup, nó không còn có thể bị trầy xước nữa. Tang đã đề cập đến "Google Analytics"

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

Python, Cloud - Công cụ quét web trực tuyến với khả năng lập lịch