sách gpt4 ai đã đi

python - 垃圾。 LinkExtractor 中的意外符号

In lại 作者:太空宇宙 更新时间:2023-11-04 05:31:24 28 4
mua khóa gpt4 Nike

我正在研究 Scrapy 库并尝试制作一个小爬虫。

这是爬虫的规则:

rules = (
Rule(LinkExtractor(restrict_xpaths='//div[@class="wrapper"]/div[last()]/a[@class="pagenav"][last()]')),
# Rule(LinkExtractor(restrict_xpaths='//span[@class="update_title"]/a'), callback='parse_item'),
)

但我收到此错误消息:

DEBUG: Crawled (200)  (referer: None)
DEBUG: Crawled (404) (referer: http://web/category.php?id=4&)
DEBUG: Ignoring response <404 http://web/%0D%0Acategory.php?id=4&page=2&s=d>: HTTP status code is not handled or not allowed

这是 html 的样子:

8
|
9
|
10
|
Next >

谁能解释一下这个 %0D%0A 是从哪里来的?亲切的问候,马克西姆。

làm mới:我做了一个简单的函数

def process_value(value):
value = value.strip()
print value
return value

并将规则更改为

rules = (
Rule(LinkExtractor(restrict_xpaths='//div[@class="wrapper"]/div[last()]/a[@class="pagenav"][last()]', process_value=process_value)),
# Rule(LinkExtractor(restrict_xpaths='//span[@class="update_title"]/a'), callback='parse_item'),
)

打印命令打印这个:

Crawled (200) (referer: None)
http://web/
category.php?id=4&page=2&s=d&
Crawled (404) (referer: http://web/category.php?id=4&)

1 Câu trả lời

%0D%0A 是 HTML 编码中的 CRLF 字符。

您解析的网站作者将字符放入 HTML 文档中。我认为,偶尔,因为它们在 IDE 或浏览器中不可见。

解释不可见字符的含义:

还有更多关于编码的信息 http://www.w3schools.com/tags/ref_urlencode.asp

我建议你去掉所有需要以这种方式获取的链接:

href = href.strip()

关于python - 垃圾。 LinkExtractor 中的意外符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37074600/

28 4 0
Bài viết được đề xuất: python 检查模块 positional_only 参数
Bài viết được đề xuất: dom - Sprite 背景图像在鼠标悬停时滞后
Bài viết được đề xuất: javascript - 如何忽略html表格中的事件
Bài viết được đề xuất: html - 列表上方的随机填充?
太空宇宙
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com