regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML-6ren

regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML

In lại 作者：行者123 更新时间：2023-12-03 17:14:09

25

4

我正在尝试从此liên kết中提取摘要。但是，我无法仅提取摘要的内容。到目前为止，这是我完成的工作：

url <- "http://www.scielo.br/scielo.php?script=sci_abstract&pid=S1981-38212013000100001&lng=en&nrm=iso&tlng=en"
textList <- readLines(url)
text <- textList[grep("Abstract[^\\:]", textList)] # get the correct element
text1 <- gsub("\\b(.*?)\\bISSN", "" , text)

到目前为止，我几乎满足了我的要求，但是后来我无法摆脱我不感兴趣的其余字符串。

我什至尝试了另一种使用xpath的方法，但是没有成功。我尝试了类似下面的代码，但是没有任何效果。

library(XML)
arg.xpath <-"//p/@xmlns"
doc <- htmlParse( url) # parseia url
linksAux <- xpathSApply(doc, arg.xpath)

我怎样才能用正则表达式或xpath或两者兼而有之？

ps .：我的总体目标是像我所提供的那样对几个类似的页面进行网络抓取。我可以提取链接。我现在只需要获取摘要。
免费（doc）

1 Câu trả lời

我强烈建议使用XML方法，因为带有HTML的正则表达式可能会让人头疼。我认为您的xpath表达式有点偏离。尝试

doc <- htmlParse(url)
xpathSApply(doc, "//p[@xmlns]", xmlValue)

返回（剪切长度）

[1] "HOLLANDA, Cristina Buarque de. Human rights ..."                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 
[2] "This article is dedicated to recounting the main ..."
[3] "Keywords\n\t\t:\n\t\tHuman rights; transitional ..."                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          
[4] ""

关于regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24908740/

25

4

0

Bài viết được đề xuất: xslt - XSLT-如何删除重复的空元素？

Bài viết được đề xuất: xml - 骡子相同的有效载荷在不同的条件下以不同的格式显示在记录器中

Bài viết được đề xuất: xml - 返回表达式中的XQuery变量未解析其值

Bài viết được đề xuất: c# - 在C#中处理大型CDATA部分

Kiểm soát phần đệm theo chương trình ở định dạng Clojure (java.util.Formatter), định dạng cl (định dạng Common Lisp)?
Có cách nào để thiết lập khoảng đệm theo chương trình bằng cách sử dụng định dạng Clojure (dựa trên java.util.Formatter) hoặc cl-format (dựa trên định dạng Common Lisp) không? Nếu bạn biết
Không thấy được định dạng tệp thực tế đã tải lên (định dạng .pdf) trên cơ sở dữ liệu và người đưa thư?
Tôi đang cố gắng tạo một thực thể Người dùng cùng với dữ liệu/tệp (ở định dạng pdf). Nó tải lên và lưu vào cơ sở dữ liệu tốt, nhưng khi tôi yêu cầu người dùng vào Postman và thử gửi phương thức yêu cầu get thì nó hiển thị một số dữ liệu không hợp lệ trong các trường dữ liệu và tôi không thể thấy dữ liệu đó trong cơ sở dữ liệu
Chuyển đổi chuỗi sang định dạng ASCII và sau đó sang định dạng HEX
Tôi phải chuyển đổi một mảng chuỗi bình thường với các giá trị {"STX","ETX"} thành các giá trị hex và tôi sẽ nhận được {2,3} theo http://www.asciitable.com/. Câu trả lời hay nhất Có vẻ như bạn muốn một Ma
dartfmt so với định dạng dart so với định dạng flutter
Tôi muốn định dạng mã của mình nhưng không chắc loại định dạng nào sẽ phù hợp nhất với nhu cầu của dự án. Tôi thấy rằng chỉ dành cho các dự án dart và flutter (tôi có cả hai), mới có nhiều hơn một tùy chọn để định dạng mã dựng sẵn trong ngôn ngữ lập trình/khung lập trình. Phi tiêu: da
Tệp excel của tôi có định dạng tiếng Đức (German) và tôi muốn đổi sang định dạng tiếng Anh (UK)
Tôi đã thử nhiều mã như thế này Sub DateFixer() Application.ScreenUpdating = False Application.Calculation =
Khi tôi truy vấn SOLR, tôi muốn đầu ra ở định dạng csv nhưng đầu ra vẫn ở định dạng javabin
Truy vấn SolrQuery = new SolrQuery(); truy vấn.setQuery("*:*"); truy vấn.add("wt","csv"); máy chủ.truy vấn(truy vấn)
Chuyển đổi ngày QString (định dạng RFC 822) sang định dạng QString dựa trên nền văn hóa khác
Tôi có một cơ sở dữ liệu với nhiều chuỗi, tôi lấy các bản ghi này từ một truy vấn và tôi nhận được dữ liệu theo định dạng này trong QString: "Thứ Hai, ngày 13 tháng 11 năm 2017 09:48:45 +0000" Vì vậy, tôi cần chuyển đổi nó theo văn hóa
Làm thế nào để xuất DBGrid sang định dạng OOXML (định dạng Excel 2007/2010) mà không cần cài đặt Excel?
Tôi có một DBGrid Delphi 2007 mà tôi muốn cho phép người dùng lưu ở định dạng Excel mới hơn (OOXML), nhưng tiêu chí của tôi là người dùng không cần cài đặt Excel. Có ai biết thành phần nào có thể thực hiện được điều này không? Vâng, tôi đã tìm kiếm
Thay đổi định dạng View trong rails 3.1 (phục vụ định dạng html di động, chuyển sang html bình thường)
Tôi đang tạo một trang web di động song song với trang web html thông thường của chúng tôi. Sử dụng rails 3.1. Trang web dành cho thiết bị di động được truy cập tại tên miền phụ m.site.com. Tôi đã xác định định dạng di động (Mime::Type.register_alias
định dạng xmlstarlet
Tôi đang cố gắng định dạng một tệp xml bằng xmlstarlet nhưng tôi không muốn tạo một tệp xml mới. Tôi đã thử xmlstarlet cho --inplace --indent-tab --omit-decl
Định dạng Excel
Tôi có một bảng tính có văn bản ở cột A. Ví dụ, A1=MY TEXT1 A2=MY TEXT2 A3=MY TEXT3 A4=MY TEXT4 A5=MY TEXT5 Tôi muốn thêm dấu nháy đơn trước và sau văn bản. Kết quả là
Phân tích cú pháp haskell bảo toàn các chú thích/định dạng
Tôi muốn thực hiện một số chuyển đổi mã nguồn (dọn dẹp danh sách nhập tự động) và muốn giữ nguyên các chú thích và định dạng. Tôi đã nghe nói về một trình phân tích cú pháp thực hiện việc này, tôi nghĩ đó là trình phân tích cú pháp ghc. Có vẻ như tôi có thể sử dụng hs-src-exts Langu bằng cách trích xuất nội dung từ tệp
Định dạng Excel để làm cho các giá trị bằng nhau
Tôi đang làm việc trên Excel và muốn tìm hiểu xem có sự trùng khớp nào trong một trang tính dựa trên danh sách trong một trang tính khác hay không. Tôi đã dán các giá trị vào một danh sách và muốn trả về các giá trị tương ứng của chúng từ một trang tính khác. Các ô chứa chữ cái và số hoạt động tốt (ví dụ: D5765000), nhưng
Định dạng DurationField
Tôi có một DurationField được định nghĩa trong mô hình của mình là day0 = models.DurationField('Duration for Monday', default=datetime.time
định dạng wmi-PNPDeviceID
Tôi đang phát triển các truy vấn WMI cho ứng dụng của mình. Nó cần tìm cổng COM ảo được chỉ định cho một VID/PID nhất định. Sử dụng WMI Code Creator tôi đã tìm thấy... Không gian tên: root\CIMV2 Lớp: W
Định dạng NSTextList
Tôi đang cố gắng tìm hiểu cách sử dụng NSTextList, nhưng tìm được rất ít thông tin hữu ích trực tuyến ngoài câu hỏi SO này. và bình luận trong blog này. Sử dụng điều này tôi đã có thể tạo ra
Định dạng last_ddl_time của Oracle
Tôi muốn truy vấn bảng all_objects trong đó last_ddl_time = '01 tháng 1 năm 2010' nhưng nó từ chối định dạng ngày... Có ai cung cấp cho tôi định dạng chính xác để truy vấn không? Câu trả lời hay nhất Như AKF đã nói, bạn nên sử dụng Trunc
Định dạng Java JEditorPane
Tôi đang cố gắng triển khai tính năng trò chuyện vào ứng dụng của mình. Tôi đã sử dụng 2 JEditorPane. Một để lưu lịch sử trò chuyện và một để gửi cuộc trò chuyện đến JEditorPane trước đó. JEditorPane là text/h
Ngôn ngữ/định dạng đầu ra của trình biên dịch đồ chơi
Tôi đã học một lớp biên dịch ở trường đại học, lớp học rất bổ ích và thú vị, mặc dù cũng có nhiều việc phải làm. Vì chúng tôi được giao một đặc tả ngôn ngữ để triển khai nên có một điều tôi không thể học được là thiết kế ngôn ngữ. Bây giờ tôi đang nghĩ đến việc tạo ra một ngôn ngữ đồ chơi đơn giản, thú vị để tôi có thể chơi đùa với nó
Cấu trúc/Định dạng của Gradle Exceptions
Đã đóng. Câu hỏi này không đáp ứng được hướng dẫn của Stack Overflow. Đã đóng. Câu hỏi này cần tập trung hơn. Hiện tại không chấp nhận câu trả lời. Bạn muốn cải thiện vấn đề này? Cập nhật câu hỏi để nó đúng chủ đề

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML