Vì vậy, về cơ bản. Tôi có 2 lớp. Một là ngày phát hành của giày. Chiếc còn lại là một chiếc giày được phát hành vào ngày đó. Tuy nhiên, họ là hai lớp hoàn toàn khác nhau. Vì vậy, tôi đã cố gắng loại bỏ khỏi các lớp này. Chứa "tiêu đề tháng" cho tất cả các ngày. Danh mục tiếp theo là sneaker-post-main, chứa tất cả các đôi giày có ngày trong tiêu đề tháng. Nhưng họ là hai lớp khác nhau. Chúng không liên quan đến nhau. Vì vậy, tôi đã thử thực hiện .nextSibling từ lớp h4 để bắt lớp "một phần" của mình. Nó không hoạt động như vậy.
Ngoài ra, nếu HTML của tôi không có ý nghĩa thì đây là trang web tôi đang tìm kiếm. http://sneakernews.com/air-jordan-release-dates/Tôi muốn kết quả đầu ra trông giống như ngày tháng là khóa của từ điển và giá trị là danh sách những đôi giày sẽ được phát hành vào ngày đó. Như hình dưới đây.
Ngày 16 tháng 4 năm 2015
{
Thông tin giày 1
Thông tin giày 2
Thông tin giày 3
}
Ngày 17 tháng 4 năm 2015
{
Thông tin giày 1
Thông tin giày 2
Thông tin giày 3
}
Tôi đang cố gắng sử dụng BeautifulSoup để hoàn thành nhiệm vụ này. Tôi dường như không thể tìm ra nó. Ngày 15 tháng 4 năm 2016 -> Đây là HTML ngày phát hành. ... -> Phần này chứa thông tin về giày etectra. (Giống như có một danh sách các đôi giày ở đó thay vì chỉ một chiếc giày)
từ nhập bs4 BeautifulSoup
yêu cầu nhập khẩu
nhập json
tiêu đề = {
#'Bánh quy': ' _ga=GA1.2.610207006.1459822661',
'Chấp nhận-Mã hóa': 'gzip, deflate, sdch',
'Tác nhân người dùng': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36,(KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36',
'Ngôn ngữ chấp nhận': 'en-US,en;q=0.8',
'Chấp nhận': '*/*',
'Kết nối': 'duy trì',
'Độ dài nội dung': 0
}
phản hồi = request.get('http://sneakernews.com/air-jordan-release-dates/',headers=headers).text
súp = BeautifulSoup(phản hồi)
cho thẻ trong súp.findAll('h4', attrs = {'class':'month-header'}):
in tag.nextSibling.nextSibling.nextSibling
Đây là mã của tôi cho đến nay!
Đảo ngược logic và nhận được tất cả phần.sneaker-post-main
Sau đó tìm từng anh chị em trước đó và sử dụng nó làm khóa nhóm trong từ điển:
yêu cầu nhập khẩu
từ bộ sưu tập nhập defaultdict
cont = request.get(url, headers=ua).content
súp = BeautifulSoup(tiếp,"lxml")
d = defaultdict(danh sách)
phần = soup.select ("div.release-post-list phần.sneaker-post-main")
cho phần trong phần:
h4 =section.find_previous_sibling("h4",{"class:"month-header"})
d[h4.text.strip()].append(section)
print(d["Ngày 15 tháng 4 năm 2016"])
Sử dụng văn bản tiêu đề đầu tiên làm khóa, bạn có thể thấy rằng mình đã hiểu đúng ba văn bản đầu tiênsneaker-hậu-chính
:
[\n\n
\n
\n
\n\n
\n
\n
Kích thước chạy: Nam
\n
Màu sắc: Đen/Ánh bạc-Hyper Turquoise
\n
Mã kiểu: 834268-006
\n
\n
\n
\n
Thêm vào:\n
\n< của bạn Một href="https://www.google.com/calendar/render?action=TEMPLATE&text=Jordan+Ultra+Fly+\u201cHyper+Turquoise\u201d&dates=20160415/20160415&details=http://sneakernews.com / 2016/04/01/the-jordan-ultra-fly-hyper-turquoise-hits-stores-soon/&location=&sprop=website:http://sneakernews.com&pli=1&uid&sf= true&output=xml#eventpage_6" target="_blank">Lịch Google\nIcal\n< !-- Ical-->\n\n
\n
\n
\n
\n
\n
\n, , \n\n
\n
\n
\n\n
\n
\n
Kích thước chạy: Nam
\n
Màu sắc:Đen/Trắng bạc phản chiếu
\n
Mã kiểu: 834268-004
\n
\n
\n
\n
\n
\n
\n]
mỗi tiêu đề h4.tháng
Có thể có nhiều phần.sneaker-post-main
anh em nhưng mỗi phần.sneaker-post-main
Trước đó chỉ có một tiêu đề h4.tháng
anh trai.
-
beautifulsoup - BeautifulSoup. Làm cách nào để có được liên kết chứa các từ cụ thể?
HTML chứa chuỗi trong div: 'div class="slide"' 'img src="xttps://site.com/files/r_1000,kljg894/43k5j/35h43jk
-
beautifulsoup - Trích xuất href từ thuộc tính bằng BeautifulSoup
Tôi sử dụng phương pháp này allcity = dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}) để trả về một danh sách như thế này: Coal chloride
-
beautifulsoup - Đã cài đặt BeautifulSoup nhưng vẫn không nhận được mô-đun có tên bs4
Tôi đang sử dụng Jupyter Notebook, Python 3.5 và môi trường ảo. Trong môi trường ảo của tôi, tôi đã làm: (venv) > pip install BeautifulSoup4 có vẻ hoạt động tốt b/c terminal
-
Làm cách nào để loại bỏ lỗi trình phân tích cú pháp html BeautifulSoup khi tôi không sử dụng BeautifulSoup
Tôi đang dự định tạo một chương trình từ điển bằng GUI, nhưng tôi đã thất bại ở rào cản đầu tiên. Tôi vừa cài đặt một mô-đun (PyDictionary) nhưng khi chạy đoạn mã sau thì tôi gặp lỗi. từ nhập PyDictionary
-
python - Beautifulsoup vs lxml vs Beautifulsoup 3
Tôi đang di chuyển một số trình phân tích cú pháp từ BeautifulSoup3 sang BeautifulSoup4 và tôi nghĩ rằng lxml rất nhanh và đó là trình phân tích cú pháp tôi đang sử dụng trong BS4. Sẽ là một ý tưởng hay nếu bạn phân tích tốc độ của nó, đây là kết quả
-
python - Lỗi BS4 và BeautifulSoup từ: không thể đọc/var/mail/BeautifulSoup
Câu hỏi này đã có câu trả lời ở đây: Gặp lỗi Python "từ: không thể đọc /var/mail/Bio" (6 câu trả lời) Đã đóng 11 tháng trước. Từ người đẹp
-
Cách nhanh hơn/ít tiêu tốn tài nguyên hơn để loại bỏ html khỏi các tệp lớn hơn BeautifulSoup? Hoặc cách tốt hơn để sử dụng BeautifulSoup?
Hiện tại tôi không thể gõ cái này vì theo top, bộ xử lý của tôi ở mức 100% và bộ nhớ của tôi ở mức 85,7%, cả hai đều bị python chiếm giữ. Tại sao? Bởi vì tôi đang chạy nó qua một tệp 250 MB để xóa dấu. 250 megabyte, thế thôi!
-
Python Beautifulsoup: phương thức file.write(str) nhận được TypeError: đối số write() phải là str, không phải BeautifulSoup
Tôi đã viết đoạn mã sau: from bs4 import BeautifulSoup import sys # mô-đun sys ở đâu trong phần mã nguồn
-
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
-
Điều gì gây ra kết quả `None` từ các hàm BeautifulSoup? Làm cách nào để tránh "AttributionError: đối tượng 'NoneType' không có thuộc tính..." với đối tượng 'NoneType' không có thuộc tính..." với beauty súp?)
Thông thường khi tôi cố gắng phân tích cú pháp một trang web bằng BeautifulSoup, hàm BeautifulSoup nhận được kết quả KHÔNG, nếu không thì AttributionError sẽ xuất hiện. . Sau đây là một số độc lập (tức là vì dữ liệu được mã hóa cứng nên không cần quyền truy cập
-
Bộ chọn lớp lồng nhau của BeautifulSoup
Tôi đang sử dụng BeautifulSoup cho một dự án. Đây là cấu trúc HTML của tôi John Sam Bailey Jack
-
beautifulsoup - Xóa các ký tự rác thừa khỏi các tệp bên ngoài
Mã này trích xuất chính xác văn bản Marathi từ blog của tôi. Tôi đánh giá cao việc sử dụng các cụm từ thông dụng và súp đẹp dễ dàng như thế nào. từ nhập bs4 Yêu cầu nhập BeautifulSoup, url lại
-
Biểu thức chính quy Python để phân tích cú pháp HTML (BeautifulSoup)
Tôi muốn nhận giá trị của trường nhập ẩn trong HTML. Tôi muốn viết một biểu thức chính quy bằng Python sẽ trả về giá trị của fooId nếu tôi biết rằng các dòng trong HTML tuân theo định dạng sau Ai đó có thể cung cấp một ví dụ Python để giải quyết không
-
BeautifulSoup(bs4) được giải thích chi tiết
BeautifulSoup (bs4) BeautifulSoup là một thư viện python. Chức năng chính của nó là thu thập dữ liệu từ các trang web. Lời giải thích chính thức là: BeautifulSoup cung cấp một số hàm đơn giản, kiểu python.
-
Python Beautifulsoup lấy văn bản dưới nhãn
Tôi đang cố gắng lấy tất cả các liên kết, tiêu đề và ngày tháng cho một tháng cụ thể, chẳng hạn như tháng 3 trên một trang web, tôi đang sử dụng BeautifulSoup để thực hiện việc này: from bs4 import BeautifulSoup import request
-
android — Phân trang Beautifulsoup bằng nút tiếp theo
Tôi đang cố gắng thu thập thông tin về thu nhập của các vận động viên được trả lương cao nhất thế giới vào năm 2020 thông qua liên kết này https://www.forbes.com/profile/roger-federer/?list=athletesĐây là lần đầu tiên
-
BeautifulSoup - nắm bắt tất cả các liên kết của một lớp hoặc văn bản cụ thể
Tôi đang cố gắng nắm bắt tất cả các liên kết có liên quan từ một trang web có món súp đẹp mắt. Tất cả các liên kết tôi cần đều có class="btn btn-gray" và cả văn bản Thông tin thêm<> Cách tốt nhất để chỉ trích xuất các liên kết này là gì? Câu trả lời hay nhất Còn cái này thì sao?
-
python - Trang web quét web Beautifulsoup với menu thả xuống
Tôi đang cố gắng tìm kiếm một trang web có menu thả xuống nơi người dùng có thể chọn năm dữ liệu sẽ hiển thị. Tuy nhiên, tôi dường như bị mắc kẹt trong việc thực hiện của mình. Đây là địa chỉ trang web: https://www.pgatour.com/tournaments/mas
-
python - Sự cố trình thu thập dữ liệu web Beautifulsoup
Tôi đang sử dụng BeautifulSoup và cơ chế để tìm một số nội dung từ một trang web. Vấn đề là đôi khi không tìm thấy chuỗi tôi đang tìm kiếm. Tôi không biết vấn đề là gì. Đối với nhiều trang web, nó hoạt động tốt trong nhiều tháng nhưng đột nhiên ngừng hoạt động. Thế thì tôi phải
-
python - Phân tích cú pháp BeautifulSoup trả về tập hợp trống
(Mã cập nhật ở bên dưới) Tôi có một lớp: UrlData, lớp này tạo danh sách các url: for url in urls: rawMechSiteInfo = mech.open(url) #me
Tôi là một lập trình viên xuất sắc, rất giỏi!