python - BeautifulSoup - Không thể tạo tệp csv và văn bản sau khi quét

python - BeautifulSoup - không thể tạo tệp csv và văn bản sau khi quét

In lại Tác giả: Vũ trụ không gian Thời gian cập nhật: 2023-11-03 14:56:52

Tôi đang cố trích xuất URL của bài viết từ tất cả các trang của trang web. Chỉ URL trong trang đầu tiên được thu thập thông tin nhiều lần và được lưu trữ trong tệp csv. Thông tin từ các liên kết này lại được thu thập thông tin theo cách tương tự và được lưu trữ trong các tệp văn bản.

Cần một số trợ giúp về vấn đề này.

yêu cầu nhập khẩu
từ nhập bs4 BeautifulSoup
import csv
nhập lxml
nhập urllib2

base_url = 'https://www.marketingweek.com/?s=big+data'
phản hồi = request.get(base_url)
súp = BeautifulSoup(response.content, "lxml")

độ phân giải = []

trong khi 1:
    search_results = soup.find('div', class_='archive-constraint') #bản địa hóa cửa sổ tìm kiếm với các liên kết bài viết
    Article_link_tags = search_results.findAll('a') #sơ đồ thông thường đi xa hơn 
    res.append([url['href'] cho url trong bài viết_link_tags])
    #Tự động nhấp vào nút tiếp theo để tải các bài viết khác
    next_button = soup.find('a', text='>>')
    #Tìm kiếm bài viết cho đến khi không tìm thấy nút Tiếp theo
    nếu không phải next_button:
        break
    res.append([url['href'] cho url trong bài viết_link_tags])
    súp = BeautifulSoup(response.text, "lxml")
    cho tôi trong res:
        cho j trong tôi:
                in(j)
####Lưu trữ các liên kết cóp nhặt trong tệp csv###

với open('StoreUrl1.csv', 'w+') là f:
    f.seek(0)
    cho tôi trong res:
        cho j trong tôi:
            f.write('\n'.join(i))


#######Trích xuất thông tin từ URL########

với open('StoreUrl1.csv', 'rb') là f1:
    f1.seek(0)
    reader = csv.reader(f1)

    cho dòng trong đầu đọc:
        url = dòng[0]       
        súp = BeautifulSoup(urllib2.urlopen(url), "lxml")

        với open('InfoOutput1.txt', 'a+') là f2:
            cho thẻ trong súp.find_all('p'):
                f2.write(tag.text.encode('utf-8') + '\n')

câu trả lời hay nhất

Giải pháp sử dụng trình phân tích cú pháp html của lxml.

Tổng cộng có 361 trang, mỗi trang có 12 liên kết. Chúng tôi có thể lặp qua từng trang và trích xuất các liên kết bằng xpath.

xpath giúp có được:

Văn bản dưới một thẻ cụ thể

Giá trị của một thẻ cụ thể (ở đây: giá trị của thuộc tính "href" của thẻ "a")

import csv
từ lxml nhập html
từ lúc nhập giấc ngủ
yêu cầu nhập khẩu
từ randint nhập khẩu ngẫu nhiên

đầu raFile = open("All_links.csv", r'wb')
fileWriter = csv.writer(outputFile)

fileWriter.writerow(["Sl. No.", "Số trang", "Liên kết"])

url1 = 'https://www.marketingweek.com/page/'
url2 = '/?s=big+data'

sl_no = 1

#lặp từ trang 1 đến trang 361
cho tôi trong xrange(1, 362):

    #tạo url cuối cùng được loại bỏ bằng số trang
    url = url1 + str(i) + url2

    #Đang tìm nạp trang
    phản hồi = request.get(url)
    ngủ(randint(10, 20))
    #sử dụng trình phân tích cú pháp html
    htmlContent = html.fromstring(response.content)

    #Capturing tất cả các thẻ 'a' trong thẻ h2 với lớp 'hentry-title entry-title'
    page_links = htmlContent.xpath('//div[@class = "archive-constraint"]//h2[@class = "hentry-title entry-title"]/a/@href')
    cho page_link trong page_links:
        fileWriter.writerow([sl_no, i, page_link])
        sl_no += 1

Về python - BeautifulSoup - không thể tạo tệp csv và văn bản sau khi quét, chúng tôi đã tìm thấy một câu hỏi tương tự trên Stack Overflow: https://stackoverflow.com/questions/45477874/

Bài viết khuyến nghị: php - Tên miền không truy cập https://example.com khi nhập example.com

Bài viết khuyến nghị: python - Phản hồi SugarCRM ra lệnh khóa dict _hash

Bài viết khuyến nghị: android - gửi và nhận tin nhắn json qua https

Bài viết khuyến nghị: tf.while_loop chỉ xem xét lần lặp cuối cùng

Làm cách nào để đọc tệp csv thành một mảng và so sánh và thay thế bằng các mục trong tệp csv khác?
Tôi có hai tệp csv file1.csv và file2.csv. file1.csv chứa 4 cột. File 1: Header1,Header2,Header3,Header4 aaaaaa,bb
csv - Cách kiểm tra tệp CSV và tìm ra sự khác biệt giữa hai tệp CSV
Tôi tự hỏi liệu có cách nào để kiểm tra tệp CSV trước khi nhập tệp vào cơ sở dữ liệu không? Tôi có một tệp CSV lớn có nhiều cột, mỗi cột có loại và kích thước dữ liệu khác nhau. Làm cách nào để kiểm tra xem dữ liệu xuất hiện trong tệp CSV được tạo có phù hợp với kích thước của từng cột hay không? bên cạnh đó
csv - Tìm giá trị trong CSV và trả về giá trị của cột thứ hai
Tôi đang lấy danh sách máy chủ từ SCOM và muốn kiểm tra danh sách này dựa trên CSV chứa dữ liệu sau: Tên máy tính, Tên bộ sưu tập Server01, NA - Tất cả máy chủ DA
Cách đọc một phần tệp CSV bằng Super CSV
Tôi có tệp csv có 24 cột. Trong đó tôi chỉ muốn đọc 3 cột. Tôi thấy super CSV là một thư viện rất mạnh nhưng tôi không biết cách đọc một phần CSV. Liên kết khi đọc một phần bị hỏng. Xin hãy giúp tôi nâng
Cách xuất tệp nhật ký gatling sang csv
Tôi đang cố gắng xuất tệp nhật ký Gatling sang CSV vì tôi cần cập nhật tất cả các giá trị chung trong bảng tính google vì người quản lý của tôi cần các giá trị trong bảng tính. Câu trả lời hay nhất Tệp CSV này đã bị xóa và thay thế bằng tệp JSON có tên glo
csv - Dữ liệu csv có cấu trúc hay bán cấu trúc?
Tôi bối rối không biết csv là dữ liệu có cấu trúc hay dữ liệu bán cấu trúc. Giống như RDBMS là dữ liệu có cấu trúc quan hệ, nhưng csv không có quan hệ. Tôi không thể tìm thấy một câu trả lời chắc chắn. Câu trả lời hay nhất tôi có thể nói, CSV với các cột và hàng không đổi (2D)
csv - Đọc hàng đầu tiên từ tệp csv bằng cách sử dụng pipe-csv
Tôi đang sử dụng thư viện pipe-csv để đọc tệp csv. Tôi muốn đọc dòng đầu tiên trước và sau đó là phần còn lại. Thật không may, sau khi hàm Pipes.Prelude.head trả về. Đường ống đang đóng lại bằng cách nào đó. Có cách nào đọc c trước không
csv - Ý nghĩa các dòng trống trong file CSV
Điều này lúc đầu có vẻ hiển nhiên, nhưng bây giờ tôi không chắc lắm. Nếu tệp CSV có dòng sau: a, tôi sẽ hiểu nó là hai trường có giá trị "a" và "". Nhưng khi nhìn vào một hàng trống, tôi có thể dễ dàng tranh luận rằng nó đại diện cho một trường có giá trị là "". Tôi chấp nhận tài liệu
csv - viết từ điển danh sách vào csv
Tôi đang cố gắng viết từ điển danh sách vào tệp CSV. Tôi muốn các khóa là tiêu đề của tệp CSV và giá trị được liên kết với từng khóa trong cột được liên kết với khóa đó. Nếu từ điển của tôi là: {'600': [321.4, 123.5, 564.1, 764
csv - Xuất mảng sang CSV
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
csv - Tệp CSV có thể có nhận xét không?
Có cách nào chính thức để cho phép tệp có định dạng CSV cho phép nhận xét, trên dòng riêng hoặc ở cuối dòng không? Tôi đã thử kiểm tra wikipedia về điều này cũng như RFC 4180 nhưng không đề cập đến bất cứ điều gì khiến tôi tin rằng đó không phải là một phần của định dạng tệp, vì vậy
Làm cách nào để đọc CSV từ chuỗi?
Tôi có một số dữ liệu ở định dạng csv. Tuy nhiên, chúng đã là một chuỗi vì tôi nhận được chúng từ yêu cầu HTTP. Tôi muốn sử dụng khung dữ liệu để xem dữ liệu. Nhưng tôi không biết cách phân tích cú pháp vì gói CSV chỉ chấp nhận tệp chứ không chấp nhận chuỗi. một giải pháp
csv - Dấu phân cách nào sẽ được sử dụng cho danh sách các giá trị trong tệp CSV?
Tôi có tệp CSV chứa danh sách giá trị cho một số trường. Chúng được lưu trữ trong cơ sở dữ liệu dưới dạng phần tử "ul" HTML, nhưng tôi muốn chuyển đổi chúng thành thứ gì đó thân thiện hơn với bảng tính. Tôi nên sử dụng gì làm dấu phân cách? Tôi có thể sử dụng dấu phẩy thoát, dấu gạch đứng, dấu chấm phẩy hoặc
Cách xuất sang .csv bằng dấu phân cách ống
Tôi sử dụng Google Trang tính (bảng tính) để hợp nhất dữ liệu bài viết từ nhiều nguồn khác nhau cho cửa hàng Gambio của mình. Để nhập dữ liệu, tôi cần sử dụng ký hiệu ống làm dấu phân cách/dấu phân cách và " làm dấu phân cách văn bản trong tệp .csv. Trong tệp để xuất dưới dạng
csv - Xuất Trình tạo báo cáo sang CSV có khoảng trống cho tiêu đề cột
Đây là một yêu cầu lạ vì tất cả chúng ta đều biết tiêu đề cơ sở dữ liệu không được chứa dấu cách. Tuy nhiên, hệ thống tôi đang sử dụng yêu cầu khoảng trắng trong tiêu đề để nhập. Tôi đã tạo báo cáo Trình tạo báo cáo để xây dựng dữ liệu vào bảng và khi tôi chạy
csv - Xử lý khi một trong các giá trị có thể chứa dấu phẩy trong chuỗi.CSV
Tôi có tệp .csv cần chuyển đổi thành truy vấn coldfusion. Tôi đã sử dụng phương pháp CSVtoQuery của cflib.org và nó hoạt động tốt... NHƯNG... Nếu "ô" trong csv nằm ở
csv - CSV độc lập về văn hóa
Tôi tự hỏi liệu có cách nào để tạo tệp CSV trung lập về văn hóa hay ít nhất là chỉ định định dạng dữ liệu cho các cột cụ thể có trong tệp. Ví dụ: tôi đã tạo một tệp CSV chứa các số có dấu phân cách thập phân (.) rồi chuyển nó sang tệp có dấu phân cách thập phân là (,
Javascript: Thêm giá trị vào CSV nếu không có trong CSV - Nếu đã có trong CSV - Xóa khỏi CSV
Tôi đang tạo chuỗi CSV - vì vậy mọi thứ người dùng nhấp vào div - chuỗi 5 ký tự được chuyển vào trường ẩn - điều tôi muốn làm là nối từng giá trị mới và tạo chuỗi CSV - sau khi hoàn tất - Hiển thị trong văn bản hộp -
Linux CSV - Thêm cột từ tệp CSV vào tệp CSV khác
Tôi đang cố gắng tạo một tệp CSV từ hai tệp khác Đây là tệp tôi muốn (rất nhiều hàng khác) "AB";"A";"B";"C";"D";"E" Tệp I có: Tệp 1:"A";"B";"C";"D";"
Xuất bảng chứa các giá trị được trích dẫn sang csv cục bộ trong tổ ong
Tôi đang cố gắng xuất bảng sang tệp csv cục bộ trong Hive. CHÈN GHI ĐÈ THƯ MỤC ĐỊA PHƯƠNG '/home/sofia/temp.csv' ĐỊNH DẠNG HÀNG DELIMI

không gian vũ trụ

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - BeautifulSoup - không thể tạo tệp csv và văn bản sau khi quét