-
css - Trích xuất hình ảnh con trỏ từ trình duyệt (lấy, lấy...)
Như đã đề cập trong câu trả lời này, bạn có thể đặt con trỏ dự phòng nếu trình duyệt không hỗ trợ e. G. Con trỏ: lấy;. Vấn đề của tôi bây giờ là nhận được những hình ảnh này. Tìm kiếm cục bộ ".cur" trên ổ đĩa của tôi chỉ cung cấp cho tôi con trỏ hệ thống với Grab.cur và Grab
-
python - Quét Instagram
Đoạn mã sau được chạy trên máy tính để lấy dữ liệu từ tài khoản Instagram. Khi tôi thử sử dụng nó trên máy chủ VPS, tôi được chuyển hướng đến trang đăng nhập Instagram nên tập lệnh không hoạt động. Tại sao khi tôi sử dụng máy tính hoặc trên máy chủ, tôi
-
ruby - đang quét, tham số truy vấn của tôi sai
Tôi đang làm việc trên một trang web sử dụng Ruby và Mechanize để chuyển các truy vấn POST tới trang web. Truy vấn để truy cập trang web dựa trên firebug, như hiển thị bên dưới param.PrdNo=-1¶m.Type=Prop¶m
-
Ruby - Tìm nạp, theo dõi các liên kết được phân trang
Tôi đang cố gắng thu thập dữ liệu một trang web có nhiều kết quả trang, như "1, 2, 3, 4, 5...". Mỗi số ngắt trang là một liên kết đến một trang khác và tôi cần thu thập dữ liệu từng trang. Cho đến nay tôi đã nghĩ ra điều này: while lien = page.l
-
Quét gói htmlagility
Tôi đang sử dụng HtmlAgilityPack để thực hiện Quét trong C# Asp.Net, cho đến nay tôi không gặp vấn đề gì khi thực thi Scratch từ nhiều trang web, tuy nhiên, tôi gặp lỗi khi cố gắng bật mã sau
-
javascript - Tìm nạp:sau nội dung
Nếu tôi có tệp css thực hiện điều gì đó giống như #foo:after{content:"bar;}, thì có cách nào để lấy nội dung của :after bằng cách sử dụng javascript không? Việc lấy nội dung của phần tử gốc chỉ trả về nội dung của # phần tử foo
-
Đang gọi/thu thập thông tin trang phía khách hàng?
Vấn đề là thế này: Tôi có một ứng dụng web - một hệ thống thông báo thay đổi thường xuyên - chạy trên một loạt máy tính cục bộ. Ứng dụng làm mới cứ sau vài giây để hiển thị thông tin mới. Máy tính chỉ hiển thị thông tin và không có bàn phím hay bất kỳ thiết bị đầu vào nào. Vấn đề là, nếu với
-
C# - Trợ giúp thu thập thông tin/mô phỏng duyệt web
Tôi muốn tạo một chương trình mô phỏng người dùng duyệt một trang web và nhấp vào liên kết. Cookies và javascript phải được kích hoạt. Tôi đã thực hiện thành công việc này bằng python, nhưng tôi muốn viết nó bằng một ngôn ngữ có thể biên dịch được (python ide sẽ không
-
python - Thu thập dữ liệu/bỏ qua các mục trống
Tôi đã tạo ra con bot nhỏ này hoạt động bằng cách tìm kiếm thông qua danh sách các tham số. Nó hoạt động tốt cho đến khi có một vài kết quả trên trang: Product_prices_euros đưa ra danh sách các mặt hàng trống một nửa. Vì vậy, khi tôi so sánh nó với sản phẩm_price_c
-
python - Tìm và đếm số lần xuất hiện của các từ trên trang web - Scraping
Tôi cần tìm từ trùng khớp, ví dụ: Tìm tất cả các từ "nghiên cứu" trực tuyến https://www.georgetown.edu/ (kết quả: 4 từ) (bạn có thể thấy nó nhấn CTRL+F và tìm kiếm) Tôi có mã Python của tôi
-
python - thu thập dữ liệu\bảo vệ nhện
Có một site\resource cung cấp một số số liệu thống kê chung cũng như giao diện cho công cụ tìm kiếm. Loại hoạt động tìm kiếm này tốn kém, vì vậy tôi muốn hạn chế các yêu cầu tìm kiếm thường xuyên và liên tục (tức là tự động) (từ mọi người, không phải từ công cụ tìm kiếm). Tôi tin rằng có nhiều công nghệ và khuôn khổ hiện có có thể thực hiện một số hoạt động thu thập thông tin tình báo
-
Quét HTML bằng Python
Điều này không thực sự khó khăn, tôi chỉ muốn tìm URL trong các trang web nơi lớp có giá trị cụ thể. Ví dụ: Tôi muốn nhận giá trị href. Có ý tưởng nào về cách thực hiện việc này không? Có lẽ là biểu thức chính quy? Bạn có thể đăng một số mã mẫu không? Tôi đoán thư viện thu thập dữ liệu html, chẳng hạn như B
-
python — Làm cách nào để xóa tất cả nội dung từ trang web cuộn vô hạn? thu thập thông tin
Tôi đang sử dụng phế liệu. Trang web tôi đang làm việc có chức năng cuộn vô hạn. Trang có nhiều bài viết nhưng tôi chỉ lược bỏ được 13 bài. Làm thế nào để cạo các bài viết còn lại? Đây là mã của tôi: lớp exampleSpider(scrapy.
-
python - Không thể cạo qua BeautifulSoup
Tôi đang cố gắng xóa các hình ảnh và url tin tức từ trang web này. Các thẻ tôi đã xác định là root_tag=["div", {"class"ngp_col ngp_col-bottom-gutter-2 ng.
-
Đang thu thập dữ liệu trang web Cloudflare
đóng cửa. Câu hỏi này cần tập trung hơn. Hiện tại nó không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Đã cập nhật câu hỏi để tập trung vào chỉ một câu hỏi chỉnh sửa bài đăng này. Đã đóng vào tháng trước. Cải thiện truy vấn này
-
Lặp lại phần lưu trữ BeautifulSoup cho tất cả các tệp trong thư mục cục bộ
Tôi có hàng nghìn tệp html trong một số thư mục và tôi muốn trích xuất dữ liệu từ các nhận xét và đặt chúng vào tệp csv. Điều này sẽ cho phép tôi định dạng và dọn dẹp nó cho dự án. Ví dụ: tôi có 640 tệp html trong thư mục này: D:\My Web S
-
c# - Tìm nạp qua VIEWSTATE
Tôi gặp phải sự cố khi viết tiện ích để thu thập dữ liệu trang web. Tôi đang gửi yêu cầu POST để truy xuất dữ liệu và tôi đang bắt chước hành vi của trang web mà tôi đang tìm kiếm (dựa trên thông tin được thu thập bằng cách sử dụng fiddler). Tôi đã có thể tự động thay thế chữ V trong POST của mình
-
ajax - Yandex AJAX thu thập thông tin
Để thu thập dữ liệu AJAX của Googlebot, tôi sử dụng thông số "_escaped_fragment_" trong trang web của mình. Bây giờ tôi đang xem kết quả tìm kiếm Yandex cho trang web của mình. Tôi thấy phản hồi AJAX không tồn tại trong kết quả tìm kiếm
-
Ruby Mechanize Crawl ResponseCodeError
Tôi đang cố gắng thu thập dữ liệu tất cả các trang kết quả của một trang web và nó hoạt động nhưng đôi khi tập lệnh dừng và hiển thị lỗi này: 502 => Net::HTTPBadGateway for https://website.com/id/12/ --
-
python - Tại sao trang web này không thể được thu thập dữ liệu bằng bs4?
Tôi là người mới bắt đầu học thu thập dữ liệu trên web và vì lý do nào đó tôi không thể thu thập dữ liệu trang web này. Khi tôi kiểm tra nó trong Chrome, mã có vẻ ổn nhưng khi tôi đọc nó bằng BeautifulSoup, nó không còn có thể bị trầy xước nữa. Tang đã đề cập đến "Google Analytics"
Tôi là một lập trình viên xuất sắc, rất giỏi!