发布时间:2019-08-31编辑:佚名阅读(2174)
HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手,API文档,Github开源代码地址。
提到HtmlAgilityPack,就必须要介绍一个辅助工具,是官方提供的一个叫做HAPExplorer的工具,非常有用。
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。
XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。
XPath是XML的查询语言,和SQL的角色很类似。以下面XML为例,介绍XPath的语法。下面的Xpath的相关表达也很基础,基本足够用了。
<?xml version="1.0"encoding="ISO-8859-1"?> <catalog> <cd country="USA"> <title>Empire Burlesque</title> <artist>Bob Dylan</artist> <price>10.90</price> </cd> </catalog>
// 从物理路径的文件加载 var doc = new HtmlDocument(); doc.Load(filePath);//文件路径 // 从Stream当中加载 var doc = new HtmlDocument(); doc.LoadHtml(html); // 从网页的Url链接加载 var url = "https://www.suajin.com/"; var web = new HtmlWeb(); var doc = web.Load(url);
以Stream对象为主的重载方法:
public void Load(Stream stream) //从指定的Stream对象中加载html; public void Load(Stream stream, bool detectEncodingFromByteOrderMarks) //指定是否从顺序字节流中解析编码格式 public void Load(Stream stream, Encoding encoding) //指定编码格式 public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks)public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize) //缓冲区大小
以指定的物理路径为主的重载方法:
public void Load(string path) public void Load(string path, bool detectEncodingFromByteOrderMarks) //指定是否从顺序字节流中解析编码格式 public void Load(string path, Encoding encoding) //指定编码格式 public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks) public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize)
XML是树状结构,类似档案系统内数据夹的结构,XPath也类似档案系统的路径命名方式。不过XPath是一种模式(Pattern),可以选出XML档案中,路径符合某个模式的所有节点出来。例如要选catalog底下的cd中所有price元素可以用:
/catalog/cd/price
如果XPath的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于树中不同的层级也会被选出来。以下的语法会选出文件中所有叫做cd的元素(在树中的任何层级都会被选出来):
//cd
有三种方式获取OuterHtml,InnerHtml和InnerText。
HtmlNode类设计了OuterHtml属性和InnerHtml属性用于获取当前节点的Html源码。两者不同之处是,OuterHtml属性返回的是包含当前节点的Html代码在内的所有Html代码,而InnerHtml属性返回的是当前节点里面子节点的所有Html代码,InnerText属性过滤掉了所有的Html标记代码,只返回文本值。具体用哪种方式,要根据我们实际情况而定,一般InnerHtml和InnerText使用的频率比较多。
HtmlNode IDNode = doc.DocumentNode.SelectSingleNode("/catalog/cd");//获取节点 IDNode.OuterHtml IDNode.InnerHtml IDNode.InnerText
使用星号(*)可以选择未知的元素。下面这个语法会选出/catalog/cd的所有子元素:
/catalog/cd/*
以下的语法会选出所有catalog的子元素中,包含有price作为子元素的元素。
/catalog/*/price
以下的语法会选出有两层父节点,叫做price的所有元素。
/*/*/price
要注意的是,想要存取不分层级的元素,XPath语法必须以两个斜线开头(//),想要存取未知元素才用星号(*),星号只能代表未知名称的元素,不能代表未知层级的元素。
使用中括号可以选择分支。以下的语法从catalog的子元素中取出第一个叫做cd的元素。XPath的定义中没有第0元素这种东西。
/catalog/cd[1]
以下语法选择catalog中的最后一个cd元素:(XPathj并没有定义first()这种函式喔,用上例的[1]就可以取出第一个元素。
/catalog/cd[last()]
以下语法选出price元素的值等于10.90的所有/catalog/cd元素
/catalog/cd[price=10.90]
在XPath中,除了选择元素以外,也可以选择属性。属性都是以@开头。例如选择文件中所有叫做country的属性:
//@country
以下语法选择出country属性值为UK的cd元素
//cd[@country='UK']
string v = doc.DocumentNode.SelectSingleNode("/catalog/cd").Attributes["country"].Value;
HtmlNodeCollection uiListNodes = doc.DocumentNode.SelectNodes("//ui/li");
去掉外层的html tag只留下文本内容
Node.ParentNode.RemoveChild(Node,true);
参数true表示留下grandchild; false表示将此结点连同其grandchilds一起删除。
关键字: HtmlAgilityPack
0人
0人
0人
1人