sách gpt4 ai đã đi

regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML

In lại 作者:行者123 更新时间:2023-12-03 17:14:09 25 4
mua khóa gpt4 Nike

我正在尝试从此liên kết中提取摘要。但是,我无法仅提取摘要的内容。到目前为止,这是我完成的工作:

url <- "http://www.scielo.br/scielo.php?script=sci_abstract&pid=S1981-38212013000100001&lng=en&nrm=iso&tlng=en"
textList <- readLines(url)
text <- textList[grep("Abstract[^\\:]", textList)] # get the correct element
text1 <- gsub("\\b(.*?)\\bISSN", "" , text)


到目前为止,我几乎满足了我的要求,但是后来我无法摆脱我不感兴趣的其余字符串。

我什至尝试了另一种使用xpath的方法,但是没有成功。我尝试了类似下面的代码,但是没有任何效果。

library(XML)
arg.xpath <-"//p/@xmlns"
doc <- htmlParse( url) # parseia url
linksAux <- xpathSApply(doc, arg.xpath)


我怎样才能用正则表达式或xpath或两者兼而有之?

ps .:我的总体目标是像我所提供的那样对几个类似的页面进行网络抓取。我可以提取链接。我现在只需要获取摘要。
免费(doc)

1 Câu trả lời

我强烈建议使用XML方法,因为带有HTML的正则表达式可能会让人头疼。我认为您的xpath表达式有点偏离。尝试

doc <- htmlParse(url)
xpathSApply(doc, "//p[@xmlns]", xmlValue)


返回(剪切长度)

[1] "HOLLANDA, Cristina Buarque de. Human rights ..."                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 
[2] "This article is dedicated to recounting the main ..."
[3] "Keywords\n\t\t:\n\t\tHuman rights; transitional ..."
[4] ""

关于regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24908740/

25 4 0
行者123
Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Nhận phiếu giảm giá Didi Taxi miễn phí
Mã giảm giá Didi Taxi
Giấy chứng nhận ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com