找回密码
 注册
查看: 4474|回复: 1

XML和XPath使用方法备忘

[复制链接]
发表于 2013-7-29 20:08:06 | 显示全部楼层 |阅读模式
本帖最后由 genechip 于 2013-7-29 20:12 编辑

用R读取XML网页数据时,需要受用XPath抓取节点中的信息。如何设置XPath对于新学者 非常重要。
因此搜集一些关于XML中XPath设置方面的介绍


如果把XML看作传统的关系数据库,那么XPath就是SQL。R语言中的XML包可用来解析处理XML或是HTML数据。在之前的文章中,我们了解到readHTMLTable函数,如果页面中的数据是一个规整的表格,用它是很方便的,但如果页面中是一些非结构化的数据,就要用到XML包中的其它函数了。其中最重要两个函数是xmlTreeParse()和getNodeSet(),前者负责抓取页面数据并形成树状结构,后者对抓取的数据根据XPath语法来选取特定的节点集合。下面用一个简单的例子来看一下这两个函数配合使用的效果。



library(XML)
# 解析XML文件
doc
<- xmlParse('http://www.w3school.com.cn/example/xmle/books.xml')
# 选取属于 bookstore 子元素的第一个 book 元素
getNodeSet
(doc,'/bookstore/book[1]')
# 选取属于 bookstore 子元素的最后一个 book 元素。
getNodeSet
(doc,'/bookstore/book[last()]')
# 选取最前面的两个属于 bookstore 元素的子元素的 book 元素
getNodeSet
(doc,'/bookstore/book[position()<3]')
# 选取所有拥有名为 lang 的属性的 title 元素。
getNodeSet
(doc,'//title[@lang]')
#选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性
getNodeSet
(doc,"//title[@lang='eng']")
# 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
getNodeSet
(doc,"/bookstore/book[price>35.00]")
# 选取 bookstore 元素中的 book 元素的所有 title 元素,且 price 元素的值须大于 35.00。
getNodeSet
(doc,"/bookstore/book[price>35.00]/title")
# 选取 book 元素的所有 title 和 price 元素
getNodeSet
(doc,"//book/title | //book/price")
# 选取文档中的所有 title 和 price 元素
getNodeSet
(doc,"//title | //price")
# 选取 bookstore 元素的所有子元素
getNodeSet
(doc,"/bookstore/*")
# 选取所有带有属性的 title 元素
getNodeSet
(doc,"//title[@*]")
# 选择所有属性lang的值
unlist(getNodeSet(doc,"//title/@lang"),use.names = FALSE)
# title结点下的所有文本
getNodeSet
(doc,"//title/text()")

回复

使用道具 举报

 楼主| 发表于 2013-7-29 20:10:16 | 显示全部楼层
本帖最后由 genechip 于 2013-7-29 20:13 编辑

注意:在R语言使用时(getNodeSet函数)xpath使用双引号号不是使用单引号。@后使用单引号

name<- getNodeSet(i_url,”//meta[@name='keywords']“);name

一、xpath表达式的基本格式

xpath通过“路径表达式”(Path Expression)来选择节点。在形式上,“路径表达式”与传统的文件系统非常类似。

# 斜杠(/)作为路径内部的分割符。

# 同一个节点有绝对路径和相对路径两种写法。

# 绝对路径(absolute path)必须用“/”起首,后面紧跟根节点,比如/step/step/…。

# 相对路径(relative path)则是除了绝对路径以外的其他写法,比如 step/step,也就是不使用“/”起首。

# “.”表示当前节点。

# “..”表示当前节点的父节点

二、选择节点的基本规则

- nodename(节点名称):表示选择该节点的所有子节点

- “/”:表示选择根节点

- “//”:表示选择任意位置的某个节点

- “@”: 表示选择某个属性

三、选择节点的实例

先看一个XML实例文档。

<?xml version=”1.0″ encoding=”ISO-8859-1″?>

<bookstore>

<book>
<title lang=”eng”>Harry Potter</title>
<price>29.99</price>
</book>

<book>
<title lang=”eng”>Learning XML</title>
<price>39.95</price>
</book>

</bookstore>

[例1]

bookstore :选取 bookstore 元素的所有子节点。

[例2]

/bookstore :选取根节点bookstore,这是绝对路径写法。

[例3]

bookstore/book :选取所有属于 bookstore 的子元素的 book元素,这是相对路径写法。

[例4]

//book :选择所有 book 子元素,而不管它们在文档中的位置。

[例5]

bookstore//book :选择所有属于 bookstore 元素的后代的 book 元素,而不管它们位于 bookstore 之下的什么位置。

[例6]

//@lang :选取所有名为 lang 的属性。

四、xpath的谓语条件(Predicate)

所谓“谓语条件”,就是对路径表达式的附加条件。

所有的条件,都写在方括号“[]”中,表示对节点进行进一步的筛选。

[例7]

/bookstore/book[1] :表示选择bookstore的第一个book子元素。

[例8]

/bookstore/book[last()] :表示选择bookstore的最后一个book子元素。

[例9]

/bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。

[例10]

/bookstore/book[position()<3] :表示选择bookstore的前两个book子元素。

[例11]

//title[@lang] :表示选择所有具有lang属性的title节点。

[例12]

//title[@lang='eng'] :表示选择所有lang属性的值等于“eng”的title节点。

[例13]

/bookstore/book[price] :表示选择bookstore的book子元素,且被选中的book元素必须带有price子元素。

[例14]

/bookstore/book[price>35.00] :表示选择bookstore的book子元素,且被选中的book元素的price子元素值必须大于35。

[例15]

/bookstore/book[price>35.00]/title :表示在例14结果集中,选择title子元素。

[例16]

/bookstore/book/price[.>35.00] :表示选择值大于35的“/bookstore/book”的price子元素。

五、通配符

# “*”表示匹配任何元素节点。

# “@*”表示匹配任何属性值。

# node()表示匹配任何类型的节点。

[例17]

//* :选择文档中的所有元素节点。

[例18]

/*/* :表示选择所有第二层的元素节点。

[例19]

/bookstore/* :表示选择bookstore的所有元素子节点。

[例20]

//title[@*] :表示选择所有带有属性的title元素。

六、选择多个路径

用“|”选择多个并列的路径。

[例21]

//book/title | //book/price :表示同时选择book元素的title子元素和price子元素


选自 http://www.bassary.com/?p=1101
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-5-3 00:46 , Processed in 0.081886 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表