HtmlAgilityPack简单使用

发布时间:2019-08-31编辑:佚名阅读(1623)

HtmlAgilityPack简介

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手,API文档Github开源代码地址

提到HtmlAgilityPack,就必须要介绍一个辅助工具,是官方提供的一个叫做HAPExplorer的工具,非常有用。

XPath技术介绍与使用

XPath介绍

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。

XPath的路径表达

XPath是XML的查询语言,和SQL的角色很类似。以下面XML为例,介绍XPath的语法。下面的Xpath的相关表达也很基础,基本足够用了。

<?xml version="1.0"encoding="ISO-8859-1"?>
<catalog>
<cd country="USA">
<title>Empire Burlesque</title>
<artist>Bob Dylan</artist>
<price>10.90</price>
</cd>
</catalog>

加载Html:

// 从物理路径的文件加载
var doc = new HtmlDocument();
doc.Load(filePath);//文件路径
// 从Stream当中加载
var doc = new HtmlDocument();
doc.LoadHtml(html);
// 从网页的Url链接加载
var url = "https://www.suajin.com/";
var web = new HtmlWeb();
var doc = web.Load(url);

以Stream对象为主的重载方法:

public void Load(Stream stream)    //从指定的Stream对象中加载html;
public void Load(Stream stream, bool detectEncodingFromByteOrderMarks)    //指定是否从顺序字节流中解析编码格式
public void Load(Stream stream, Encoding encoding)    //指定编码格式
public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks)public void Load(Stream stream, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize)  //缓冲区大小

以指定的物理路径为主的重载方法:

public void Load(string path)
public void Load(string path, bool detectEncodingFromByteOrderMarks)    //指定是否从顺序字节流中解析编码格式
public void Load(string path, Encoding encoding)    //指定编码格式
public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks)
public void Load(string path, Encoding encoding, bool detectEncodingFromByteOrderMarks, int buffersize)

定位节点:

XML是树状结构,类似档案系统内数据夹的结构,XPath也类似档案系统的路径命名方式。不过XPath是一种模式(Pattern),可以选出XML档案中,路径符合某个模式的所有节点出来。例如要选catalog底下的cd中所有price元素可以用:

/catalog/cd/price

如果XPath的开头是一个斜线(/)代表这是绝对路径。如果开头是两个斜线(//)表示文件中所有符合模式的元素都会被选出来,即使是处于树中不同的层级也会被选出来。以下的语法会选出文件中所有叫做cd的元素(在树中的任何层级都会被选出来):

//cd

获取节点文本内容:

有三种方式获取OuterHtml,InnerHtml和InnerText。

HtmlNode类设计了OuterHtml属性和InnerHtml属性用于获取当前节点的Html源码。两者不同之处是,OuterHtml属性返回的是包含当前节点的Html代码在内的所有Html代码,而InnerHtml属性返回的是当前节点里面子节点的所有Html代码,InnerText属性过滤掉了所有的Html标记代码,只返回文本值。具体用哪种方式,要根据我们实际情况而定,一般InnerHtml和InnerText使用的频率比较多。

HtmlNode IDNode = doc.DocumentNode.SelectSingleNode("/catalog/cd");//获取节点
IDNode.OuterHtml
IDNode.InnerHtml
IDNode.InnerText

选择未知的元素:

使用星号(*)可以选择未知的元素。下面这个语法会选出/catalog/cd的所有子元素:  

/catalog/cd/*

以下的语法会选出所有catalog的子元素中,包含有price作为子元素的元素。

/catalog/*/price

以下的语法会选出有两层父节点,叫做price的所有元素。

/*/*/price

要注意的是,想要存取不分层级的元素,XPath语法必须以两个斜线开头(//),想要存取未知元素才用星号(*),星号只能代表未知名称的元素,不能代表未知层级的元素。

选择分支:

使用中括号可以选择分支。以下的语法从catalog的子元素中取出第一个叫做cd的元素。XPath的定义中没有第0元素这种东西。

/catalog/cd[1]

以下语法选择catalog中的最后一个cd元素:(XPathj并没有定义first()这种函式喔,用上例的[1]就可以取出第一个元素。

/catalog/cd[last()]

以下语法选出price元素的值等于10.90的所有/catalog/cd元素

/catalog/cd[price=10.90]

选择属性:

在XPath中,除了选择元素以外,也可以选择属性。属性都是以@开头。例如选择文件中所有叫做country的属性:

//@country

以下语法选择出country属性值为UK的cd元素

//cd[@country='UK']

获取节点属性值:

string v = doc.DocumentNode.SelectSingleNode("/catalog/cd").Attributes["country"].Value;

获取某个标签的所有节点:

HtmlNodeCollection uiListNodes = doc.DocumentNode.SelectNodes("//ui/li");

进行删除操作:

去掉外层的html tag只留下文本内容

Node.ParentNode.RemoveChild(Node,true);

参数true表示留下grandchild; false表示将此结点连同其grandchilds一起删除。

  关键字:HtmlAgilityPack


鼓掌

0

正能量

0

0

呵呵

1


评论区