python - 在 Python 中仅使用内置库制作一个基本的网络抓取工具

Tạo một trình thu thập dữ liệu web cơ bản bằng Python chỉ sử dụng các thư viện tích hợp sẵn - Python

In lại 作者：行者123 更新时间：2023-11-28 17:45:59

学习 Python，我正在尝试制作一个没有任何第 3 方库的网络抓取工具，这样过程对我来说并没有简化，而且我知道我在做什么。我浏览了一些在线资源，但所有这些都让我对某些事情感到困惑。

html 看起来像这样，


...

    *lots of other  tags*

...

...

...

    *lots of other  tags*

我想让抓取工具提取

*content*

并将其保存到 html 文件中。

我对我需要如何处理这件事有一个非常基本的想法。

import urllib
from urllib import request
#import re
#from html.parser import HTMLParser

response = urllib.request.urlopen("http://website.com")
html = response.read()

#Some how extract that wanted data

f = open('page.html', 'w')
f.write(data)
f.close()

1 Câu trả lời

标准库自带各种Structured Markup Processing Tools ，您可以使用它来解析 HTML，然后搜索它以提取您的 div。

那里有很多选择。你用什么？

html.parser 看起来是显而易见的选择，但实际上我会从 ElementTree 开始反而。这是一个非常好的和非常强大的 API，网络上有大量的文档和示例代码可以帮助您入门，并且每天都有很多专家使用它来帮助您解决问题。如果事实证明 etree 无法解析您的 HTML，您将不得不使用其他东西……但请先尝试一下。

例如，通过对 HTML 进行一些小的修复，它实际上是有效的，因此实际上有一些文本值得从您的 div 中删除:


...

    *lots of other 
 tags*
spam spam spam
...

...

...

    *lots of other 
 tags*

您可以使用这样的代码(我假设您知道或愿意学习 XPath):

tree = ElementTree.fromstring(page)
mydiv = tree.find('.//div[@class="want"]')

现在您已获得对 phân chia 的引用与类 "want" .您可以通过以下方式获取其直接文本:

print(mydiv.text)

但是如果你想提取整个子树，那就更简单了:

data = ElementTree.tostring(mydiv)

如果您想将其包装在有效的中和和/或删除

本身，您必须手动完成该部分。该文档解释了如何使用简单的树 API 构建元素:您创建一个 cái đầu和一个 thân hìnhĐưa vào html , 然后贴上 phân chiahiện hữuthân hình , 然后 tostring html ，仅此而已。

关于python - 在 Python 中仅使用内置库制作一个基本的网络抓取工具 - Python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18157529/

Bài viết được đề xuất: python - 为什么 "from [Module] import [Something]"比 "import [Module"花费更多的时间

Bài viết được đề xuất: python - 变量在 while 循环中改变值

Bài viết được đề xuất: python (VTK) : Connect two 3D points by an oriented cylinder

Bài viết được đề xuất: python - 对无响应的 Flask 路由的调用设置超时(更新)

Làm thế nào để JavaScript tạo (make) một trang mới? javascript javascript-pages
我想在一个页面上做一个按钮，可以在同一页面调用一个JS函数。该函数将需要创建(打开)新窗口，其 HTML 代码由 JS 函数本身提供。我该怎么做？这样做的目的是从特定页面生成一个打印友好的页面。请
php - 项目一半用 mysql 制作，一半用 mysqli 制作
我一直在用 php 开发这个项目。该项目的一半是使用 mysql_query 完成的，最新的模块是使用 mysqli 制作的。有很多模块，我不想更改代码。如果是这样的话会不会产生问题。或者我应该将其全
c++ - "Could not determine which "制作 "command to run. Check the "制作 "step in the build configuration."Qt 创建者
我安装了好几次 qt creator，但它从来没有像我现在的 PC 那样花钱；首先，我使用我的 Pendrive(Qt 5.8 的)上一直有的安装程序，告诉我我无法下载一些存储库，我下载了相同安装程序
c++ - “Could not determine which ” 制作 “command to run. Check the ” 制作 “step in the build configuration.” Qt 创建者
我安装了 Qt Creator 5.10.1，当我构建项目时出现错误:“无法确定要运行哪个”make“命令。检查构建配置中的”make“步骤。”。我已经在另一台 PC 上安装了 Qt，我看到了这个问
scripting - 制作/制作文件进度指示!
看看这个 makefile，它有某种原始的进度指示(可能是一个进度条)。请给我建议/意见! # BUILD 最初是未定义的 ifndef 构建 # max 等于 256 个 x 十六:= x x x
jquery - 制作/改进图像预览的智能方法
这个问题会有点长，对此我很抱歉:) 我花了几天时间寻找最好的解决方案，以在 asp mvc 和 JQuery 中制作图像库。主要问题是当用户点击拇指时显示图像。我想让整个浏览器 View 变成黑色
Python 制作 list
我是Python方面的 super 高手。我一直在努力寻找适当的解决方案。这是列表，L = [0, 0, 0, 3, 4, 5, 6, 0, 0, 0, 0, 11, 12, 13, 14, 0, 0
c++ - 制作。异常行为
让我们考虑两个简化的 CMakeLists.txt set(GTEST "/usr/local/lib/libgtest.a") set(GMOCK "/usr/local/lib/libgmock.
c++ - 制作 Makefile
我如何制作 Makefile，因为这是按源代码分发程序的最佳方式。请记住，这是针对 C++ 程序的，而我是从 C 开发领域开始的。但是可以为我的 Python 程序制作 Makefile 吗？最佳答
haskell - 制作 Ord 类的新类型实例
由于 Ord 是 Eq 的子类，我发现很难理解创建该类的新类型实例的样子。我已经设法做到了: newtype NT1 = NT1 Integer instance Eq NT1 wh
powershell - 制作 PowerShell 所需的众多参数中的至少一个
在 PowerShell 中，我想编写一个函数，它接受不同的选项作为参数。没关系，如果它接收多个参数，但它必须接收至少一个参数。我想通过参数定义而不是之后的代码来强制执行它。我可以使用以下代码让它工作
heroku - 在没有手册页的情况下编译/制作 ffmpeg
我正在通过构建包使用 enable-ssl 在 heroku (ubuntu) 上安装 ffmpeg。我能够一直构建到这些错误: install: cannot create regular file
php - 制作 FFmpeg 缩略图？
我是 FFmpeg 的新手，但作为一个学习一些 mysql 数据库的项目，我正在尝试创建一个视频上传网站。当我尝试使用此代码制作缩略图时: shell_exec("/usr/local/bin/ff
libgdx - 制作 Actor 剪辑子图像
我想要一个绘制可绘制对象的 Actor ，但将其剪辑为 Actor 的大小。我从 Widget 派生这个类，并使用一些硬编码的值作为一个简单的测试: public class MyWidget ext
build - 制作 Erlang 版本的最佳实践是什么？
我一直在查看 Faxien+Sinan 和 Rebar，Erlang OTP 的基本理念似乎是，在单个 Erlang 镜像实例上安装应用程序和版本。保持发布自包含的最佳实践是什么？有没有办法打包发布，
svn - 制作 svn 存储库的独立副本
我正在尝试克隆存储库，但它应该是彼此独立的副本。这背后有什么魔法吗，或者只是使用 svn 客户端并克隆它？谢谢最佳答案试试 svnadmin hotcopy .您可以在 repo mainten
TYPO3 制作 2 级菜单
我想做一个这样的菜单: Item 1 Item 2 Item 3 Subitem 1 Subitem 2 但我得到了这个:
yii2 - 制作 Yii2 扩展时的最佳实践
为 Yii 创建扩展的最佳方式是什么？这是我到目前为止所做的我希望它可以通过 composer 安装，所以我为它创建了一个 github repo。我在文件夹 vendor/githubname
java - 制作 ActionListener 时遇到问题
我尝试制作一个ActionListener，但它给了我一个错误。我导入了事件，但它仍然不起作用。这是我的代码: send.addActionListener(new jj); private clas
jQuery 制作 HTML 的副本并存储它以供以后检索
我需要能够将 div 内的 HTML 代码恢复为页面就绪状态。我需要这个，因为我想在页面准备好后对 HTML 代码进行一些更改，然后在需要时将其恢复到页面准备好时的状态.. 我想使用克隆，但是如何只复

行者123

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

Tạo một trình thu thập dữ liệu web cơ bản bằng Python chỉ sử dụng các thư viện tích hợp sẵn - Python