python - 如何从无限滚动网站上抓取所有内容？抓取-6ren

python - 如何从无限滚动网站上抓取所有内容？抓取

In lại 作者：太空狗更新时间：2023-10-29 22:21:35

29

4

我正在使用 scrapy。

我正在使用的网站具有无限滚动功能。

该网站有很多帖子，但我只抓取了 13 个。

如何抓取剩余的帖子？

Đây là mã của tôi:

class exampleSpider(scrapy.Spider):
name = "example"
#from_date = datetime.date.today() - datetime.timedelta(6*365/12)
allowed_domains = ["example.com"]
start_urls = [
    "http://www.example.com/somethinghere/"
]

def parse(self, response):
  for href in response.xpath("//*[@id='page-wrap']/div/div/div/section[2]/div/div/div/div[3]/ul/li/div/h1/a/@href"):
    url = response.urljoin(href.extract())
    yield scrapy.Request(url, callback=self.parse_dir_contents)


def parse_dir_contents(self, response):
    #scrape contents code here

câu trả lời hay nhất

检查网站代码。

如果无限滚动自动触发 js 操作，您可以使用 Alioth 提案进行如下操作:spynner

跟随 spynner tài liệu ，你会发现可以触发 jquery 事件。

Look up the library code to see which kind of events you can fire.

尝试在网站可滚动内容内的任何 div 上生成滚动到底部事件或创建 css 属性更改。关注 spynner tài liệu ，类似于:

browser = spynner.Browser(debug_level=spynner.DEBUG, debug_stream=debug_stream)
# load here your website as spynner allows
browser.load_jquery(True)
ret = run_debug(browser.runjs,'window.scrollTo(0, document.body.scrollHeight);console.log(''scrolling...);')
# continue parsing ret

无限滚动不太可能由 anchor 链接触发，但可能可以由 jquery 操作触发，不一定附加到链接。对于这种情况，请使用如下代码:

br.load('http://pypi.python.org/pypi')

anchors = br.webframe.findAllElements('#menu ul.level-two a')
# chooses an anchor with Browse word as key
anchor = [a for a in anchors if 'Browse' in a.toPlainText()][0]
br.wk_click_element_link(anchor, timeout=10)
output = br.show()
# save output in file: output.html or 
# plug this actions into your scrapy method and parse output var as you do 
# with response body

然后，在 output.html 文件上运行 scrapy，或者，如果您是这样实现的，则使用您选择的本地内存变量来存储 js 操作后修改后的 html。

作为另一种解决方案，您尝试解析的网站可能有一个替代呈现版本，以防访问者浏览器KHÔNG js 激活。

尝试使用禁用 javascript 的浏览器来呈现网站，也许这样，网站会在内容部分的末尾提供一个 anchor 链接。

还有使用 Scrapy 和 Selenium 的方法成功爬虫 js 导航的实现，详见 cái này所以回答。

关于python - 如何从无限滚动网站上抓取所有内容？抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37207959/

29

4

0

Đề xuất bài viết: Python/Keras - 为每个时期创建一个带有一个预测的回调

Đề xuất bài viết: c# - 我可以在没有安装 Visual Studio 的 Windows 服务器上构建 .NET Core 应用程序吗？

Đề xuất bài viết: c# - Api Controller 中长时间运行的任务(使用 Web API，自托管 OWIN)

Đề xuất bài viết: python - 如何在 Zeppelin 中使用 Plotly

javascript - 如何使列表项滚动动画看起来连续/无限
我有 3 个列表项，每 3 秒向上旋转一次。我正在使用 transformY 属性来做这件事。问题是，当它到达最后一个元素时，它会循环返回，从而产生重新开始的效果。如何通过在最后一项之后继续向上旋转
无限/重复世界的数学/计算与旋转
我如何制作一个处理旋转的无限/重复世界，就像在这个游戏中一样: http://bloodfromastone.co.uk/retaliation.html 我通过具有这样的层次结构对我的旋转移动世界进
javascript - 是否可以不限制字符重复的正则表达式范围的上限值(无限)？
这个问题已经有答案了: Using explicitly numbered repetition instead of question mark, star and plus (4 个回答) 已关闭
java - 无限 while 循环以及读取文件时出现问题
程序说明: I have this program of mine which is intended to read every word from a file (large one) and t
java - 无限 While 循环
while 循环应该比较这两个对象的 ibsn。正在比较的对象: list[0] = new ReadingMatter ("Words and Stuff", "9-082-1090-1");
JavaScript 无限 For 循环
Đã đóng cửa. Sự cố này không thể tái tạo được hoặc do lỗi chính tả. Câu trả lời không được chấp nhận vào thời điểm này. Sự cố này xảy ra do lỗi đánh máy hoặc sự cố không thể sao chép được nữa. Mặc dù một câu hỏi tương tự có thể được đặt lên hàng đầu
c - 无限 while 循环中的信号
我完全被屏蔽了。我尝试修改 C 中的“警报”信号，以便在秒数到期时读取一个简单的变量。我的代码如下: 在主要部分: int semnal; signal(SIGALRM, alarmHandle
Java 无限 While 循环
我正在接受多行信息(字符串，直到我稍后解析它们)。例如: 1 5 0 2 9 6 2 9 1 我编写这段代码来分隔行，因为我将不得不以某种方式操作每一行。 Scanner scan = new Sca
javascript - 如何制作动态名称选择器(无限)
我不熟悉 jQuery，并且我有多余的 jQuery 调用，我想将它们放入循环中。 $('.class1').on('click', function () { ... $('.class2').on
php - 广度优先搜索方式的一般树遍历(无限)
我有一个树结构，其中每个节点都有 5 个子节点，并且不允许超过 5 个。我希望以广度优先搜索的方式遍历这棵树。现在我想使用广度优先搜索方式从选定的父节点计算空节点。例如如果给定的父节点为 1，则
PHP 无限 while 循环阻止对脚本的其他调用
目标/动机我想写一个服务，它应该一直运行。但是当服务已经运行时，应该不可能再次启动该服务。用例用户 X 打开页面 myService.php 并通过单击页面上的按钮启动服务。之后关闭浏览器。一段
c++ - “无限”未在此范围内声明
我正在尝试编译 shogun 工具箱，但遇到了这个错误 C:/shogun-3.0.0/shogun-3.0.0/src/shogun/../shogun/mathematics/Math.h
javascript - 无限 6 面骰子滚轮
需要学校的 JavaScript 作业帮助，但不知道该怎么做，希望得到一些提示？我们应该创建一个 6 面掷骰子程序，用户可以选择应该掷多少个骰子，最少 1 个和最多 5 个骰子。所用骰子数量的总和
iphone - 无限 ScrollView 的动画
我在无限 ScrollView 中有 5 张图片。因此，为了使 scrollView 无限/循环，我将图像定位如下: 5 1 2 3 4 5 1含义:最后一张图片第一张图片第二张图片.....最后一
elixir - 如何中断(无限)流？
我正在使用 ExTwitter库，并希望能够偶尔终止对流式 API 的调用以更改参数。我当前的代码看起来像这样: for tweet #finished end 关于elixir - 如何中断(无
Javascript/jQuery - 动画背景随着淡入淡出而变化(无限)
我想每 3 秒更改一次 div 的背景。这需要循环，因此一旦最后一个背景图像显示，它就会循环回到第一个背景图像，依此类推。我在这样做时遇到了麻烦。我之前发过一篇文章，内容非常模糊，没有得到帮助。
javascript - AngularJS:无限$digest循环错误？
我在做this教程，无法让我的页面正确加载。我不断在控制台中收到错误:[$rootScope:infdig]。我对 Angular 很陌生，但从我读到的内容来看，我在某个地方有一个无限循环。我预计它
javascript - 无限 asyncIterator 未按预期工作
所以我试图创建一个无限的 asyncIterator/生成器。该代码应该为“for wait of”循环生成“Hello”和“Hi”，然后永远等待下一个值。问题是它不等待第三个值，也不在循环后打印 2
javascript - 无限 Canvas 背景滚动无卡顿
下图显示了我如何在 HTML5/JS 中制作无限背景滚动。我的连续背景由 X block Canvas 组成。我将在到达下一个 Canvas 之前立即渲染它，并释放上一个 Canvas。这里的问题是动
storage - 无限(或非常高)长度的整数存储
作为一个业余项目，我正在研究一些自制的素数生成问题，尝试编写一些不同的实现作为自学 C 和 C++ 的方法。当然，生成低素数的最快方法是已经拥有它们，所以我想着手建立一个硬盘素数列表数据文件。我想编写

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

python - 如何从无限滚动网站上抓取所有内容？抓取