首页技术文章正文

lxml库是干嘛的?Python lxml库用法

更新时间:2021-06-21 来源:黑马程序员 浏览量:

IT培训班

lxml是使用Python语言编写的库,主要用于解析和提取HTML或者XML格式的数据,它不仅功能非常丰富,而且便于使用,可以利用XPath语法快速地定位特定的元素或节点。

lxml库中大部分功能都位于lxml.etree模块中,导入lxml.etree模块的常见方式如下:

from lxml import etree

lxml库的一些相关类如下:
(1) Element类:可以理解为XML的节点。
(2) ElementTree类:可以理解为一个完整的XML文档树。
(3) ElementPath类:可以理解为XPath,用于搜索和定位节点。

1.Element 类简介

Element类是XML处理的核心类,可以直观地理解为XML的节点,大部分XML节点的处理都是围绕着Element类进行的。要想创建一个节点对象,则可以通过构造函数直接创建。例如:

root=etree.Element('root')

上述示例中,参数root表示节点的名称。 关于Element类的相关操作,主要可分为三部分,分别是节点操作、节点属性的操作、节点内文本的操作,下面进行逐一介绍。 (1)节点操作:若要获取节点的名称,可以通过tag属性获取。例如:

print(root.tag)
# 输出结果如下
root


(2)节点属性的操作:在创建节点的同时,可以为节点增加属性。节点中的属性是以key-value的形式进行存储的,类似于字典的存储方式。通过构造方法创建节点时,可以在该方法中以参数的形式设置属性,其中参数的名称表示属性的名称,参数的值表示为属性的值。创建属性的示例如下:

# 创建root节点,并为其添加属性
root=etree.Element('root', interesting='totally')
print(etree.tostring(root))
# 输出结果如下
b'<root interesting=" totally" />'

此外,可以通过set()方法给已有的节点添加属性。在调用该方法时可以传入两个参数,其中第一个参数表示属性的名称,第二个参数表示属性的值。例如:

# 再次给root节点添加age属性
root.set('age', '30')
print(etree.tostring(root))
# 输出结果如下
b'<root interesting="totally"age="30"/>'

在上述两个示例中,都用到了tostring()函数,该函数可以将元素序列化为XML树的编码字符串表示形式。

(3)节点内文本的操作:一般情况下,可以通过text、tail属性或者xpath()方法来访问文本内容。通过text属性访问节点的示例如下:

root=etree.Element('root')    # 创建root节点
root.text='Hello, World!'    # 给root节点添加文本
print(root.text)
print(etree.tostring(root))
# 输出结果如下
Hello, world!
b'<root>Hello, World!</root>'

2.从字符串或文件中解析XML

为了能够将XML文件解析为树结构,etree模块中提供了如下3个函数: (1 ) fromstring()函数:从字符串中解析XML文档或片段,返回根节点(或解析器目标返回的结果)。 (2) XML()函数:从字符串常量中解析XML文档或片段,返回根节点(或解析器目标返回的结果)。 (3) HTML()函数:从字符串常量中解析HTML文档或片段,返回根节点(或解析器目标返回的结果)。 其中,XML()函数的行为类似于fromstring0函数,通常用于将XML字面量直接写入到源代码中;HTML()函数可以自动补全缺少的<html>和<body>标签。以上3个函数的示例如下:

xml_data='<root>data</root>'
# fromstring()方法
root_one=etree.fromstring(xml_data)
print(root_one.tag)
print(etree.tostring(root_one))
# XML方法,与fromstring方法基本一样
root_two=etree.XML(xml_data)
print(root_two.tag)
print(etree.tostring(root_two))
# HTML()方法,如果没有<html>和<body>标签,会自动补上
root_three=etree.HTML(xml_data)
print(root_three.tag)
print(etree.tostring(root_three))
程序运行结果为:
root
b'<root>data</root>'
root
b'<root>data</root>'
html
b'<html><body><root>data</root></body></html>'

除了上述3个函数之外,还可以调用parse()函数从XML文件中直接解析。在调用函数时,如果没有提供解析器,则使用默认的解析器,函数会返回一个ElemenfTree 类的对象。例如:

html=etree.parse('./hello.html')
result=etree.tostring(html, pretty_print=True)

ElementPath类简介

ElementTree类中附带了一个类似于XPath路径语言的ElementPath类。在ElementTree类或Elements类的API文档中,提供了3个常用的方法,可以满足大部分搜索和查询需求,并且这3个方法的参数都是XPath语句。具体如下: (1) find()方法:返回匹配到的第一 个子元素。 (2) findall()方法:以列表的形式返回所有匹配的子元素。 (3) iterfind()方法:返回一个所有匹配元素的迭代器。 从文档树的根节点开始,搜索符合要求的节点。例如:

# 从字符串中解析XML,返回根节点
root=etree.XML("<root><a x='123'>aText<b/><c/><b/></a></root>")
# 从根节点查找,返回匹配到的节点名称
print(root.find("a").tag)
# 从根节点开始查找,返回匹配到的第一个节点的名称
print(root.findall(".//a[@x]")[0].tag)

程序运行结果为:

a
A

还可以调用xpath()方法,使用元素作为上下文节点来评估XPath表达式。

lxml库的基本使用

这里使用一个HTML示例文件作为素材来介绍lxml库的基本应用。该文件名为hello.html,内容如下:

<!-- hello.html -->
<div>
    <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>

按下来,基于上述HTML文档,使用lxml库中的路径表达式技巧,通过调用xpath()方法匹配选取的节点,具体如下:

获取任意位置的li节点 可以直接使用“//”从任意位置选取节点li,路径表达式如下:

//li

通过lxml.etree模块的xpath()方法,将hello.html文件中与该路径表达式匹配到的列表返回,并打印输出。具体代码如下:

from lxml import etree
html=etree.parse('hello.html')
# 查找所有的li节点
result=html.xpath('//li')
# 打印<li>标签的元素集合
print(result)
# 打印<li>标签的个数
print(len(result))
# 打印返回结果的类型
print(type(result))
# 打印第一个元素的类型
print(type(result[0]))

程序运行结果为:

[<Element li at 0x2cc9a48>, <Element li at 0x2cc99c8>, <Element li at 0x2cc9a88>, <Element li at 0x2cc9ac8>, <Element li at 0x2cc9b08>]
5
<class 'list'>
<class 'lxml.etree._Element'>

继续获取<li>标签的class属性

在上个表达式的末尾,使用“/”向下选取节点,并使用@选取class属性节点,表达式如下:

//1i/@class

获取<li>标签的class属性的示例代码如下:

from lxml import etree
html=etree.parse('hello.html')
# 查找位于li标签的class属性
result=html.xpath('//li/@class')
print(result)

程序运行结果为:

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

获取倒数第二个元素的内容

从任意位置开始选取倒数第二个<li>标签,再向下选取标签<a>。如果要获取该标签中的 文本,可以使用如下表达式:

//li[last()-1]/a

或者

//li[last()-1]/a]/text()

不同的是,第个表达式需要访问text属性,才能拿到标签的文本,而第二个表达式可直 接获取文本。使用第一 个路径表达式的示例如下:

from lxml import etree
html=etree.parse('hello.html')
# 获取倒数第二个元素的内容
result=html.xpath('//li[last()-1]/a')
print(result[0].text)

程序运行结果:

fourth item


分享到:
在线咨询 我要报名
和我们在线交谈!