python - 如何获取 "subsoups"并连接/加入它们？-6ren

python - 如何获取 "subsoups"并连接/加入它们？

In lại 作者：太空狗更新时间：2023-10-29 14:55:07

25

4

我有一个 HTML 文档需要处理。为此，我正在使用“beautifoulsoup”。现在我想从该文档中检索一些“子汤”并将它们加入一个汤中，这样我以后可以将它用作需要汤对象的函数的参数。

如果不清楚，我给你举个例子...

from bs4 import BeautifulSoup

my_document = """



Some Heading



A paragraph.

A link
A paragraph.




A paragraph.

A paragraph.




A paragraph.

A link
A link


A paragraph.




"""

soup = BeautifulSoup(my_document)

# find the needed parts
first = soup.find("div", {"id": "first"})
third = soup.find("div", {"id": "third"})
loner = soup.find("p", {"id": "loner"})
subsoups = [first, third, loner]

# create a new (sub)soup
resulting_soup = do_some_magic(subsoups)

# use it in a function that expects a soup object and calls its methods
function_expecting_a_soup(resulting_soup)

目标是在 resulting_soup 中有一个对象，该对象/行为类似于具有以下内容的汤:


A paragraph.

A link
A paragraph.




A paragraph.

A link
A link


A paragraph.

有什么方便的方法吗？如果有比 tìm thấy() 更好的检索“subsoups”的方法，我可以改用它。谢谢。

gia hạn

有一个solution Wondercricket 建议将包含找到的标签的字符串连接起来，并将它们再次解析为一个新的 BeautifulSoup 对象。虽然这是解决问题的一种可能方法，但重新解析的时间可能比我想要的要长，尤其是当我想检索其中的大部分并且有很多此类文档需要处理时。 tìm thấy() 返回一个 bs4.element.Tag。有没有办法在不将 Nhãn 转换为字符串并解析字符串的情况下将多个 Nhãn 连接成一个 soup？

câu trả lời hay nhất

SoupStrainer会完全按照您的要求进行操作，并且作为奖励，您将获得性能提升，因为它会准确地解析您想要解析的内容——而不是完整的文档树:

from bs4 import BeautifulSoup, SoupStrainer

parse_only = SoupStrainer(id=["first", "third", "loner"])
soup = BeautifulSoup(my_document, "html.parser", parse_only=parse_only)

现在，soup 对象将只包含所需的元素:


 
  A paragraph.
 

 
  A link
 
 
  A paragraph.
 



 
  A paragraph.
 

 
  A link
 
 
  A link
 


 A paragraph.

Is it also possible to specify not only ids but also tags? For example if I want to filter all paragraphs with class="someclass but not divs with the same class?

在这种情况下，你可以制作一个search functionvì SoupStrainer 加入多个条件:

from bs4 import BeautifulSoup, SoupStrainer, ResultSet

my_document = """



    Some Heading


    
    A paragraph.

    A link
    A paragraph.

    


    
    A paragraph.

    A paragraph.

    


    
    A paragraph.

    A link
    A link
    


    A paragraph.


    test



"""

def search(tag, attrs):
    if tag == "p" and "myclass" in attrs.get("class", []):
        return tag

    if attrs.get("id") in ["first", "third", "loner"]:
        return tag


parse_only = SoupStrainer(search)

soup = BeautifulSoup(my_document, "html.parser", parse_only=parse_only)

print(soup.prettify())

关于python - 如何获取 "subsoups"并连接/加入它们？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34530587/

25

4

0

Đề xuất bài viết: c - 在 scanf 中放置一个空格(例如 scanf ("%c",&ch) 代替 scanf ("%c",&ch) 的目的是什么？

Đề xuất bài viết: c - 处理一元运算符的后缀算法的中缀

Đề xuất bài viết: c - SDCC 和 malloc() - 分配比可用内存少得多的内存

Đề xuất bài viết: html - 如何将此侧边栏应用到所有使用 CSS 的页面？

mysql - (A 加入 B) 加入 (C 加入 D)
我想对 JOIN 进行特定的排序 SELECT * FROM (lives_in as t1 NATURAL JOIN preferences p1) l1 JOIN (lives_in t2 NAT
mysql - 苦苦挣扎于查询、加入、加入
我正在努力解决一个查询。并想知道是否有人可以提供帮助。我有一个标签表(服务请求票)和序列号表从我的标签中我正在这样做 Select * from tag where tag.created BET
mysql - A 加入 B 与 B 加入 A
đóng cửa. Câu hỏi này cần được hỏi tập trung hơn. Câu trả lời không được chấp nhận vào thời điểm này. Bạn muốn cải thiện vấn đề này? Đã cập nhật câu hỏi để chỉ tập trung vào một vấn đề chỉnh sửa bài đăng này. Đã đóng 7 năm trước. Cải thiện truy vấn này
Mysql查询(加入)
我有两个表 tbl_user 和 tbl_lastchangepassword，如下所示表 tbl_user id| name --------- 1 | user1 2 | user2 3 |
MySQL查询优化[加入]
我有下一个问题 SELECT i.*, gu.* vs.* FROM common.global_users gu LEFT JOIN common.global_users_perms gup ON
mysql新手——加入
我有一个电影表和一个投票表。用户为他们喜欢的电影投票。我需要显示按电影总票数降序排列的电影列表。我现在所拥有的有点作品。唯一的问题是它不显示 0 票的电影。 SELECT m.name, m.imdb
MySql 加入 BETWEEN
我有一个由这样的表组成的 mySql 数据库: 我如何(如果可能的话)使用 JOINS 从名称/周期表中获取结果？简单来说，它是如何工作的？我向菜鸟问题道歉。我对此很陌生。任何帮助将不胜感激。最佳答
SQL 自引用查询。加入
我需要查询单元先决条件的自引用关系。我知道您需要使用两个联接，我是否选择我的列然后将其联接到自身？ SELECT u.unit_code, u.name + ' is a prerequisi
LINQ - 加入 OR 条件
我有两个实体，用户和友谊，它们看起来像: public class User { public int UserId { get; set; } (..
sql - 加入 OR 的性能
假设我有两个表: Table A ProdID | PartNumber | Data... 1 | ABC-a | "Data A" 2 | (null) |
r - 加入/合并数据框内的两列
说我有这个数据， (df <- data.frame( col1 = c('My','Your','His','Thir'), col2 = c('Cat','Dog','Fish','Dog')))
php - 加入/合并两个数组
我有两个这样的数组，实际上这是从两个不同的服务器检索的 mysql 数据: $array1 = array ( 0 => array ( 'id' => 1, 'n
sqlite - 从不同的表中获取结果 - 加入
我的数据库中有以下表格 CREATE TABLE [author_details] ( [_id] INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL, [name
LINQ 加入 Where 子句
我正在努力使用一个相当简单的 sql select 语句的 join/where 子句。我正在尝试从 tb1 中检索产品信息列表，其中 where 条件位于 tbl2 中，但这必须由三个不同的列连接
haskell - “加入”申请？
我正在寻找以下功能: Applicative f => f (f a) -> f a Hoogle给我看join : >:t join join :: Monad m => m (m a) -> m
javascript - 加入 Firebase
我有两个“表”，分别是 USER 和 CONGE。在表“CONGE”中，我插入了用户的 ID。但是我不知道如何根据用户的id显示用户的休假。我想根据id发布“Congé”。 { "conge"
elasticsearch - 加入/合并Elasticsearch结果
我们有一个具有(简化)结构的文档，如Elasticsearch所示: { _id: ..., patientId: 4711, text: "blue" } { _id: ..., patientId
sql - 加入/哪里概念
这两个sql语句有什么区别 a) 从 T1,T2 中选择 *，其中 T1.A=T2.A ； b) 从 T1,T2 中选择 *，其中 T2.A=T1.A ；在这两种情况下我得到相同的输出，这两种语句之
NHibernate HQL - 加入
我想做一个简单的连接，只是比较两个表中的 ID.. 我有我的组表，包含；身份证姓名等.. 我的 GroupMap 表包含；身份证组号元素编号我的查询采用 GroupMap.ItemID
python - 加入/合并具有相同列名的数据框的微妙问题
所以我有一组主要数据，如下所示: value_num code value_letter 1 CDX A 2 DEF B

trang đầu

đã học

6Ren AI

Trung tâm mua sắm

python - 如何获取 "subsoups"并连接/加入它们？

Some Heading

Some Heading