cuốn sách gpt4 ai đã làm

python - thu thập dữ liệu\bảo vệ nhện

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-03 19:24:49 28 4
mua khóa gpt4 Nike

Có một site\resource cung cấp một số số liệu thống kê chung cũng như giao diện cho công cụ tìm kiếm. Loại hoạt động tìm kiếm này tốn kém, vì vậy tôi muốn hạn chế các yêu cầu tìm kiếm thường xuyên và liên tục (tức là tự động) (từ mọi người, không phải từ công cụ tìm kiếm).

Tôi tin rằng có rất nhiều kỹ thuật và khuôn khổ hiện có có thể thực hiện một số biện pháp bảo vệ thu thập thông tin tình báo, vì vậy tôi không cần phải phát minh lại cái bánh xe. Tôi đang sử dụng Python và Apache thông qua mod_wsgi.

Tôi biết về mod_evasive (sẽ cố gắng sử dụng nó), nhưng tôi cũng quan tâm đến bất kỳ kỹ thuật nào khác.

câu trả lời hay nhất

Điều này thực sự đáng giá nếu ai đó đang tìm kiếm trang web và dữ liệu của bạn - trong trường hợp đó, không gì có thể ngăn chặn kẻ tấn công đủ thông minh.

Tuy nhiên, có một số điều đáng để thử:

  • Ghi lại việc sử dụng tìm kiếm cho các IP và tác nhân người dùng cụ thể. Chặn chúng khi đạt đến ngưỡng phút/giờ/hàng ngày nhất định.
  • Sử dụng danh sách đen các IP hoặc mức độ đe dọa có thể gây hại (ví dụ: bạn có thể sử dụng API đám mây)
  • Lưu trữ kết quả tìm kiếm thường xuyên để giảm chi phí
  • Điều này có thể hơi điên rồ, nhưng bạn có thể hiển thị số liệu thống kê đó trên một hình ảnh hoặc thông qua một applet flash/java - điều này sẽ khiến chúng khó thu thập dữ liệu hơn
  • Hơi giống với cái trước: sử dụng một số API phức tạp để truy cập kết quả tìm kiếm, ví dụ: đó có thể là ProtocolBuffers dựa trên WebSocket. Vì vậy, ai đó có thể cần một trình duyệt hoàn chỉnh để tải nó hoặc ít nhất phải xây dựng một số thủ thuật xung quanh Node.js. Nhược điểm - Bạn sẽ mất đi những khách hàng hợp pháp khi sử dụng trình duyệt cũ.

Về vấn đề python - crawling\spider Protection, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/8562461/

28 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress