python - BeautifulSoup tìm lớp tiếp theo

android — BeautifulSoup tìm lớp tiếp theo

In lại Tác giả: Walker 123 Thời gian cập nhật: 27-11-2023 23:29:37

Vì vậy, về cơ bản. Tôi có 2 lớp. Một là ngày phát hành của giày. Chiếc còn lại là một chiếc giày được phát hành vào ngày đó. Tuy nhiên, họ là hai lớp hoàn toàn khác nhau. Vì vậy, tôi đã cố gắng loại bỏ khỏi các lớp này. Chứa "tiêu đề tháng" cho tất cả các ngày. Danh mục tiếp theo là sneaker-post-main, chứa tất cả các đôi giày có ngày trong tiêu đề tháng. Nhưng họ là hai lớp khác nhau. Chúng không liên quan đến nhau. Vì vậy, tôi đã thử thực hiện .nextSibling từ lớp h4 để bắt lớp "một phần" của mình. Nó không hoạt động như vậy.

Ngày 15 tháng 4 năm 2016

...

...

...

Ngày 16 tháng 4 năm 2016

...

...

...

Ngày 17 tháng 4 năm 2016

...

...

...

Ngoài ra, nếu HTML của tôi không có ý nghĩa thì đây là trang web tôi đang tìm kiếm. http://sneakernews.com/air-jordan-release-dates/Tôi muốn kết quả đầu ra trông giống như ngày tháng là khóa của từ điển và giá trị là danh sách những đôi giày sẽ được phát hành vào ngày đó. Như hình dưới đây.

Ngày 16 tháng 4 năm 2015
{
    Thông tin giày 1
    Thông tin giày 2
    Thông tin giày 3
}
Ngày 17 tháng 4 năm 2015
{
    Thông tin giày 1
    Thông tin giày 2
    Thông tin giày 3
}

Tôi đang cố gắng sử dụng BeautifulSoup để hoàn thành nhiệm vụ này. Tôi dường như không thể tìm ra nó. Ngày 15 tháng 4 năm 2016 -> Đây là HTML ngày phát hành. ... -> Phần này chứa thông tin về giày etectra. (Giống như có một danh sách các đôi giày ở đó thay vì chỉ một chiếc giày)

từ nhập bs4 BeautifulSoup
yêu cầu nhập khẩu
nhập json


tiêu đề = {
    #'Bánh quy': ' _ga=GA1.2.610207006.1459822661',
    'Chấp nhận-Mã hóa': 'gzip, deflate, sdch',
    'Tác nhân người dùng': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36,(KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36',
    'Ngôn ngữ chấp nhận': 'en-US,en;q=0.8',
    'Chấp nhận': '*/*',
    'Kết nối': 'duy trì',
    'Độ dài nội dung': 0
}
phản hồi = request.get('http://sneakernews.com/air-jordan-release-dates/',headers=headers).text
súp = BeautifulSoup(phản hồi)
cho thẻ trong súp.findAll('h4', attrs = {'class':'month-header'}): 
    in tag.nextSibling.nextSibling.nextSibling

Đây là mã của tôi cho đến nay!

câu trả lời hay nhất

Đảo ngược logic và nhận được tất cả phần.sneaker-post-main Sau đó tìm từng anh chị em trước đó và sử dụng nó làm khóa nhóm trong từ điển:

yêu cầu nhập khẩu
từ bộ sưu tập nhập defaultdict


cont = request.get(url, headers=ua).content

súp = BeautifulSoup(tiếp,"lxml")

d = defaultdict(danh sách)
phần = soup.select ("div.release-post-list phần.sneaker-post-main")
cho phần trong phần:
    h4 =section.find_previous_sibling("h4",{"class:"month-header"})
    d[h4.text.strip()].append(section)

print(d["Ngày 15 tháng 4 năm 2016"])

Sử dụng văn bản tiêu đề đầu tiên làm khóa, bạn có thể thấy rằng mình đã hiểu đúng ba văn bản đầu tiênsneaker-hậu-chính:

[\n\n\n\n Mua ngay trên EBAY
 
\n\n\n\n< span>Jordan Ultra Fly \u201cHyper Turquoise\u201d 
\n\n^$\n125
\n\n(55 )2,74 / 5 (55 VOTES)  \xa0
\nĐang tải...
\n
\n
\n\n\nKích thước chạy: Nam
\nMàu sắc: Đen/Ánh bạc-Hyper Turquoise 
\nMã kiểu: 834268-006
\n
\n\n\nThêm vào:\n\n< của bạn Một href="https://www.google.com/calendar/render?action=TEMPLATE&text=Jordan+Ultra+Fly+\u201cHyper+Turquoise\u201d&dates=20160415/20160415&details=http://sneakernews.com / 2016/04/01/the-jordan-ultra-fly-hyper-turquoise-hits-stores-soon/&location=&sprop=website:http://sneakernews.com&pli=1&uid&sf= true&output=xml#eventpage_6" target="_blank">Lịch Google\nIcal\n< !-- Ical-->\n\n
\n
\n
\n
\n
\n
\n
, \n\n\n\n Mua ngay trên EBAY
 \n\n\n\nJordan Ultra Fly< /span> 
\n\n^$\n125
\n\ n(290)2,24 / 5 (290 VOTES) < /i> \xa0
\nĐang tải...
\n< /div>\n
\n\n\nSize Run: Nam
\n Màu sắc: Đen/Phản ánh Bạc-Trắng
\nMã kiểu: 834268-011
\n
\n\n\nThêm vào:\n\nLịch Google\nIcal\n< !-- Ical-->\n\n
\n
\n
\n
\n
\n
\n
, \n\n\n\n Mua ngay trên EBAY
 
\n\n\n\nJordan Ultra Fly 
\n\n^$\n125
\n< div class="release-rated">\n(17)2,47 / 5 (17 VOTES)  \xa0
\nĐang tải...
\n
\n
\n\n\nKích thước chạy: Nam
\nMàu sắc:Đen/Trắng bạc phản chiếu
\nMã kiểu: 834268-004
\n
\n\n\nThêm vào:\n\nLịch Google\nIcal\n< !-- Ical-->\n\n
\n
\n
\n
\n
\n
\n
]

mỗi tiêu đề h4.tháng Có thể có nhiều phần.sneaker-post-main anh em nhưng mỗi phần.sneaker-post-main Trước đó chỉ có một tiêu đề h4.tháng anh trai.

Về python - BeautifulSoup để tìm lớp tiếp theo, chúng tôi tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/36540131/

Đề xuất bài viết: Lỗi liên kết C++ LNK2005

Đề xuất bài viết: html - Căn chỉnh không mong muốn trong menu khi thêm đầu vào và div bằng CSS3 + HTML5

Đề xuất bài viết: Bố cục CSS hai cột, cột thứ hai thụt lề

Đề xuất bài viết: Tôi nên sử dụng gì để hiển thị biểu tượng trực tiếp trong React hoặc Javascript? Ví dụ, có bao nhiêu cà phê trong một cốc?

beautifulsoup - BeautifulSoup. Làm cách nào để có được liên kết chứa các từ cụ thể?
HTML chứa chuỗi trong div: 'div class="slide"' 'img src="xttps://site.com/files/r_1000,kljg894/43k5j/35h43jk
beautifulsoup - Trích xuất href từ thuộc tính bằng BeautifulSoup
Tôi sử dụng phương pháp này allcity = dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}) để trả về một danh sách như thế này: Coal chloride
beautifulsoup - Đã cài đặt BeautifulSoup nhưng vẫn không nhận được mô-đun có tên bs4
Tôi đang sử dụng Jupyter Notebook, Python 3.5 và môi trường ảo. Trong môi trường ảo của tôi, tôi đã làm: (venv) > pip install BeautifulSoup4 có vẻ hoạt động tốt b/c terminal
Làm cách nào để loại bỏ lỗi trình phân tích cú pháp html BeautifulSoup khi tôi không sử dụng BeautifulSoup
Tôi đang dự định tạo một chương trình từ điển bằng GUI, nhưng tôi đã thất bại ở rào cản đầu tiên. Tôi vừa cài đặt một mô-đun (PyDictionary) nhưng khi chạy đoạn mã sau thì tôi gặp lỗi. từ nhập PyDictionary
python - Beautifulsoup vs lxml vs Beautifulsoup 3
Tôi đang di chuyển một số trình phân tích cú pháp từ BeautifulSoup3 sang BeautifulSoup4 và tôi nghĩ rằng lxml rất nhanh và đó là trình phân tích cú pháp tôi đang sử dụng trong BS4. Sẽ là một ý tưởng hay nếu bạn phân tích tốc độ của nó, đây là kết quả
python - Lỗi BS4 và BeautifulSoup từ: không thể đọc/var/mail/BeautifulSoup
Câu hỏi này đã có câu trả lời ở đây: Gặp lỗi Python "từ: không thể đọc /var/mail/Bio" (6 câu trả lời) Đã đóng 11 tháng trước. Từ người đẹp
Cách nhanh hơn/ít tiêu tốn tài nguyên hơn để loại bỏ html khỏi các tệp lớn hơn BeautifulSoup? Hoặc cách tốt hơn để sử dụng BeautifulSoup?
Hiện tại tôi không thể gõ cái này vì theo top, bộ xử lý của tôi ở mức 100% và bộ nhớ của tôi ở mức 85,7%, cả hai đều bị python chiếm giữ. Tại sao? Bởi vì tôi đang chạy nó qua một tệp 250 MB để xóa dấu. 250 megabyte, thế thôi!
Python Beautifulsoup: phương thức file.write(str) nhận được TypeError: đối số write() phải là str, không phải BeautifulSoup
Tôi đã viết đoạn mã sau: from bs4 import BeautifulSoup import sys # mô-đun sys ở đâu trong phần mã nguồn
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
Bộ chọn lớp lồng nhau của BeautifulSoup
Tôi đang sử dụng BeautifulSoup cho một dự án. Đây là cấu trúc HTML của tôi John Sam Bailey Jack
beautifulsoup - Xóa các ký tự rác thừa khỏi các tệp bên ngoài
Mã này trích xuất chính xác văn bản Marathi từ blog của tôi. Tôi đánh giá cao việc sử dụng các cụm từ thông dụng và súp đẹp dễ dàng như thế nào. từ nhập bs4 Yêu cầu nhập BeautifulSoup, url lại
Biểu thức chính quy Python để phân tích cú pháp HTML (BeautifulSoup)
Tôi muốn nhận giá trị của trường nhập ẩn trong HTML. Tôi muốn viết một biểu thức chính quy bằng Python sẽ trả về giá trị của fooId nếu tôi biết rằng các dòng trong HTML tuân theo định dạng sau Ai đó có thể cung cấp một ví dụ Python để giải quyết không
BeautifulSoup(bs4) được giải thích chi tiết
BeautifulSoup (bs4) BeautifulSoup là một thư viện python. Chức năng chính của nó là thu thập dữ liệu từ các trang web. Lời giải thích chính thức là: BeautifulSoup cung cấp một số hàm đơn giản, kiểu python.
Python Beautifulsoup lấy văn bản dưới nhãn
Tôi đang cố gắng lấy tất cả các liên kết, tiêu đề và ngày tháng cho một tháng cụ thể, chẳng hạn như tháng 3 trên một trang web, tôi đang sử dụng BeautifulSoup để thực hiện việc này: from bs4 import BeautifulSoup import request
android — Phân trang Beautifulsoup bằng nút tiếp theo
Tôi đang cố gắng thu thập thông tin về thu nhập của các vận động viên được trả lương cao nhất thế giới vào năm 2020 thông qua liên kết này https://www.forbes.com/profile/roger-federer/?list=athletesĐây là lần đầu tiên
BeautifulSoup - nắm bắt tất cả các liên kết của một lớp hoặc văn bản cụ thể
Tôi đang cố gắng nắm bắt tất cả các liên kết có liên quan từ một trang web có món súp đẹp mắt. Tất cả các liên kết tôi cần đều có class="btn btn-gray" và cả văn bản Thông tin thêm<> Cách tốt nhất để chỉ trích xuất các liên kết này là gì? Câu trả lời hay nhất Còn cái này thì sao?
python - Trang web quét web Beautifulsoup với menu thả xuống
Tôi đang cố gắng tìm kiếm một trang web có menu thả xuống nơi người dùng có thể chọn năm dữ liệu sẽ hiển thị. Tuy nhiên, tôi dường như bị mắc kẹt trong việc thực hiện của mình. Đây là địa chỉ trang web: https://www.pgatour.com/tournaments/mas
python - Sự cố trình thu thập dữ liệu web Beautifulsoup
Tôi đang sử dụng BeautifulSoup và cơ chế để tìm một số nội dung từ một trang web. Vấn đề là đôi khi không tìm thấy chuỗi tôi đang tìm kiếm. Tôi không biết vấn đề là gì. Đối với nhiều trang web, nó hoạt động tốt trong nhiều tháng nhưng đột nhiên ngừng hoạt động. Thế thì tôi phải
python - Phân tích cú pháp BeautifulSoup trả về tập hợp trống
(Mã cập nhật ở bên dưới) Tôi có một lớp: UrlData, lớp này tạo danh sách các url: for url in urls: rawMechSiteInfo = mech.open(url) #me

Walker 123

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

android — BeautifulSoup tìm lớp tiếp theo

Ngày 15 tháng 4 năm 2016

Ngày 16 tháng 4 năm 2016

Ngày 17 tháng 4 năm 2016

\n< span>Jordan Ultra Fly \u201cHyper Turquoise\u201d

\nJordan Ultra Fly< /span>

\nJordan Ultra Fly