Python XML 解析 - Thltools在线工具 - 在线方便好用的工具网站

一个易用方便的工具站

PYTHON

Python 简介

Python 环境

Python 基础语法

Python break 语句

Python continue 语句

Python 变量类型

Python While 循环语句

Python for 循环语句

Python 元组

Python 条件语句

Python 循环语句

Python 循环嵌套

Python Number(数字)

Python pass 语句

Python OS 文件方法

Python 字符串

Python 模块

Python 日期和时间

Python 字典(Dictionary)

Python 中文编码

Python 异常处理

Python 文件I/O

Python File(文件) 方法

Python 多线程

Python 如何操作MySQL

Python 正则表达式

Python SMTP发送邮件

Python 网络编程

Python CGI 编程

Python XML 解析
HTML

HTML简介

HTML 编辑器

HTML 基础

HTML 属性

HTML 标题

HTML 段落

HTML 文本格式化

HTML 链接

HTML 头部

HTML CSS

HTML 图像

HTML 表格

HTML 列表

HTML 区块

HTML 布局

HTML 表单

HTML 元素

HTML 框架

HTML 颜色

HTML 字符实体

HTML 统一资源定位器
JAVA

Java 教程

Java 简介

Java 基础语法

Java 基本数据类型

Java 开发环境配置

Java 变量类型

Java 变量命名规则

Java 文档注释

Java 注释

Java 运算符

Java 修饰符

Java 包(package)

Java 多态

Java 对象和类

Java 实例

Java 封装

Java Applet 基础

Java ArrayList

Java Character 类

Java HashMap

Java HashSet

Java Iterator（迭代器）

Java LinkedList

Java Number Math

Java Object 类

Java Scanner 类

Java String 类

Java StringBuffer 和 StringBuilder

Java switch case 语句

Java 异常处理

Java 循环结构

Java 抽象类

Java 接口

Java 数据结构

Java 数组

Java 方法

Java 日期时间

Java 条件语句

Java 枚举

Java 正则表达式

Java 泛型

Java 流(Stream)、文件(File)和IO

Java 继承

Java 网络编程

Java 重写(Override)与重载(Overload)

Java 集合框架

Java 8 新特性

Java 多线程编程

Java 发送邮件
VUE3

Vue3 教程

Vue3 起步

Vue3 安装

Vue3 创建项目

Vue3 基础语法

Vue3 内置属性

Vue3 内置指令

Vue3 内置组件

Vue3 创建单文件组件(SFC)

Vue3 循环语句

Vue3 指令

Vue3 条件语句

Vue3 样式绑定

Vue3 模板语法

Vue3 混入

Vue3 生命周期钩子

Vue3 监听属性

Vue3 组件

Vue3 组合式 API

Vue3 自定义指令

Vue3 表单

Vue3 计算属性

Vue3 路由

Vue3 项目打包

Vue 实例选项

Vue 组件实例

Vue3 Ajax(axios)

Vue3 事件处理
REACT

React 教程

React 安装(NPM)

React 事件处理

React 使用 CSS 样式

React 元素渲染

React 列表 & Keys

React 条件判断

React 条件渲染

React 组件 API

React 组件

React 组件状态(State)

React 组件生命周期

React 表单与事件

React 路由

React AJAX

React Hooks

React JSX

React Memo

React Props

React Refs

React Sass

React Tailwind CSS
CSS

CSS 教程

CSS 简介

CSS !important 规则

CSS Display(显示) 与 Visibility（可见性）

CSS Border(边框)

CSS Float（浮动）

CSS Fonts(字体)

CSS Id 和 Class选择器

CSS margin(外边距)

CSS padding（填充）

CSS Position(定位)

CSS Table(表格)

CSS Text(文本)

CSS 下拉菜单

CSS 伪元素

CSS 伪类

CSS 分组和嵌套

CSS 分页实例

CSS 列表

CSS 创建

CSS 图像拼合技术

CSS 图像透明

CSS 图片

CSS 图片廊

CSS 媒体类型

CSS 导航栏

CSS 尺寸 (Dimension)

CSS 属性选择器

CSS 布局 Overflow

CSS 布局 – 水平 & 垂直对齐

CSS 按钮

CSS 提示工具(Tooltip)

CSS 盒子模型

CSS 组合选择符

CSS 网格元素

CSS 网格容器

CSS 网格布局

CSS 网页布局

CSS 表单

CSS 计数器

CSS 语法

CSS 轮廓（outline）属性

CSS 链接(link)

CSS3 2D 转换

CSS3 动画

CSS3 圆角

CSS3 多列

CSS3 多媒体查询

CSS3 多媒体查询实例

CSS3 字体

CSS3 弹性盒子

CSS3 框大小

CSS3 渐变

CSS3 用户界面

CSS3 简介

CSS3 背景

CSS3 边框

CSS3 过渡
JAVASCRIPT

JavaScript 教程

JavaScript 简介

JavaScript 用法

JavaScript VScode

Chrome 浏览器中执行 JavaScript

JavaScript 输出

JavaScript 语法

JavaScript 语句

JavaScript 注释

JavaScript 数据类型

JavaScript 对象

JavaScript 函数

JavaScript 作用域

JavaScript 事件

JavaScript 字符串

JavaScript 运算符

JavaScript 比较和逻辑运算符

JavaScript If…Else 语句

JavaScript switch 语句

JavaScript for 循环

JavaScript while 循环

JavaScript break 和 continue 语句

JavaScript typeof, null, 和 undefined

JavaScript 类型转换

JavaScript 正则表达式

JavaScript 错误 – Throw、Try 和 Catch

JavaScript 调试

JavaScript 声明提升

JavaScript 严格模式(use strict)

JavaScript 表单

JavaScript 表单验证

JavaScript 验证 API

JavaScript 保留关键字

JavaScript this 关键字

JavaScript let 和 const

JavaScript JSON

javascript

JavaScript 异步编程

JavaScript 代码规范
JQUERY

jQuery 教程

jQuery 简介

jQuery 安装

jQuery 语法

jQuery 选择器

jQuery 事件

jQuery 效果 – 隐藏和显示

jQuery 效果 – 淡入淡出

jQuery 效果 – 滑动

jQuery 效果 – 动画

jQuery 效果 – 停止动画

jQuery Callback 方法

jQuery 链

jQuery 获取内容和属性

jQuery 设置内容和属性

jQuery 添加元素

jQuery 删除元素

jQuery 获取并设置 CSS 类

jQuery css() 方法

jQuery 尺寸

jQuery 遍历

jQuery 遍历 – 祖先

jQuery 遍历 – 后代

jQuery 遍历 – 同胞(siblings)

jQuery 遍历 – 过滤

jQuery AJAX 简介

jQuery – AJAX load() 方法

jQuery – AJAX get() 和 post() 方法
GO

Go 语言教程

Go 语言环境安装

Go 语言结构

Go 语言基础语法

Go 语言数据类型

Go 语言变量

Go 语言常量

Go 语言运算符

Go 语言条件语句

Go 语言循环语句

Go 语言函数

Go 语言变量作用域

Go 语言数组

Go 语言指针

Go 语言结构体

Go 语言切片(Slice)

Go 语言范围(Range)

Go 语言 Map(集合)

Go 语言递归函数

Go 语言类型转换

Go 语言接口

Go 错误处理

Go 并发

Go 语言开发工具
LINUX

Linux 简介

Linux 安装

云服务器

Linux 系统启动过程

Linux 系统目录结构

Linux 忘记密码解决方法

Linux 远程登录

Linux 文件基本属性

Linux 文件与目录管理

Linux 用户和用户组管理

Linux 磁盘管理

Linux vi

linux yum 命令

Linux apt 命令

Linux 命令大全

您的当前位置：

什么是 XML？

XML 指可扩展标记语言（eXtensible Markup Language）。你可以通过本站学习
XML 教程>

XML 被设计用来传输和存储数据。

XML 是一套定义语义标记的规则，这些标记将文档分成许多部件并对这些部件加以标识。

它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。

Python 对 XML 的解析

常见的 XML 编程接口有 DOM 和 SAX，这两种接口处理 XML 文件的方式不同，当然使用场合也不同。

Python 有三种方法解析 XML，SAX，DOM，以及 ElementTree:

1.SAX (simple API for XML )

Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。

2.DOM(Document Object Model)

将 XML 数据在内存中解析成一个树，通过对树的操作来操作XML。

3.ElementTree(元素树)

ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。

注：因DOM需要将XML数据映射到内存中的树，一是比较慢，二是比较耗内存，而SAX流式读取XML文件，比较快，占用内存少，但需要用户实现回调函数（handler）。

本章节使用到的 XML 实例文件 movies.xml 内容如下：

movies.xml

<collection shelf="New Arrivals"> <movie title="Enemy Behind"> <type>War, Thriller</type> <format>DVD</format> <year>2003</year> <rating>PG</rating> <stars>10</stars> <description>Talk about a US-Japan war</description> </movie> <movie title="Transformers"> <type>Anime, Science Fiction</type> <format>DVD</format> <year>1989</year> <rating>R</rating> <stars>8</stars> <description>A schientific fiction</description> </movie> <movie title="Trigun"> <type>Anime, Action</type> <format>DVD</format> <episodes>4</episodes> <rating>PG</rating> <stars>10</stars> <description>Vash the Stampede!</description> </movie> <movie title="Ishtar"> <type>Comedy</type> <format>VHS</format> <rating>PG</rating> <stars>2</stars> <description>Viewable boredom</description> </movie> </collection>

python使用SAX解析xml

SAX是一种基于事件驱动的 API。

利用SAX解析XML文档牵涉到两个部分: 解析器和事件处理器。

解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件。

而事件处理器则负责对事件作出响应，对传递的XML数据进行处理。

< p="">

1、对大型文件进行处理；
2、只需要文件的部分内容，或者只需从文件中得到特定信息。
3、想建立自己的对象模型的时候。

在python中使用sax方式处理xml要先引入xml.sax中的parse函数，还有xml.sax.handler中的ContentHandler。

ContentHandler类方法介绍

characters(content)方法

调用时机：

从行开始，遇到标签之前，存在字符，content 的值为这些字符串。

从一个标签，遇到下一个标签之前，存在字符，content 的值为这些字符串。

从一个标签，遇到行结束符之前，存在字符，content 的值为这些字符串。

标签可以是开始标签，也可以是结束标签。

startDocument() 方法

文档启动的时候调用。

endDocument() 方法

解析器到达文档结尾时调用。

startElement(name, attrs)方法

遇到XML开始标签时调用，name是标签的名字，attrs是标签的属性值字典。

endElement(name) 方法

遇到XML结束标签时调用。

make_parser方法

以下方法创建一个新的解析器对象并返回。

xml.sax.make_parser( [parser_list] )

参数说明:

parser_list - 可选参数，解析器列表

parser方法

以下方法创建一个 SAX 解析器并解析xml文档：

xml.sax.parse( xmlfile, contenthandler[, errorhandler])

参数说明:

xmlfile - xml文件名
contenthandler - 必须是一个ContentHandler的对象
errorhandler - 如果指定该参数，errorhandler必须是一个SAX ErrorHandler对象

parseString方法

parseString方法创建一个XML解析器并解析xml字符串：

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

参数说明:

xmlstring - xml字符串
contenthandler - 必须是一个ContentHandler的对象
errorhandler - 如果指定该参数，errorhandler必须是一个SAX ErrorHandler对象

Python 解析XML实例

实例

#!/usr/bin/python # -*- coding: UTF-8 -*- import xml.sax class MovieHandler( xml.sax.ContentHandler ): def __init__(self): self.CurrentData = "" self.type = "" self.format = "" self.year = "" self.rating = "" self.stars = "" self.description = "" # 元素开始事件处理 def startElement(self, tag, attributes): self.CurrentData = tag if tag == "movie": print "*****Movie*****" title = attributes["title"] print "Title:", title # 元素结束事件处理 def endElement(self, tag): if self.CurrentData == "type": print "Type:", self.type elif self.CurrentData == "format": print "Format:", self.format elif self.CurrentData == "year": print "Year:", self.year elif self.CurrentData == "rating": print "Rating:", self.rating elif self.CurrentData == "stars": print "Stars:", self.stars elif self.CurrentData == "description": print "Description:", self.description self.CurrentData = "" # 内容事件处理 def characters(self, content): if self.CurrentData == "type": self.type = content elif self.CurrentData == "format": self.format = content elif self.CurrentData == "year": self.year = content elif self.CurrentData == "rating": self.rating = content elif self.CurrentData == "stars": self.stars = content elif self.CurrentData == "description": self.description = content if ( __name__ == "__main__"): # 创建一个 XMLReader parser = xml.sax.make_parser() # turn off namepsaces parser.setFeature(xml.sax.handler.feature_namespaces, 0) # 重写 ContextHandler Handler = MovieHandler() parser.setContentHandler( Handler ) parser.parse("movies.xml")

以上代码执行结果如下：

*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom

完整的 SAX API 文档请查阅
Python SAX APIs>

使用xml.dom解析xml

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。

python中用xml.dom.minidom来解析xml文件，实例如下：

实例

#!/usr/bin/python # -*- coding: UTF-8 -*- from xml.dom.minidom import parse import xml.dom.minidom # 使用minidom解析器打开 XML 文档 DOMTree = xml.dom.minidom.parse("movies.xml") collection = DOMTree.documentElement if collection.hasAttribute("shelf"): print "Root element : %s" % collection.getAttribute("shelf") # 在集合中获取所有电影 movies = collection.getElementsByTagName("movie") # 打印每部电影的详细信息 for movie in movies: print "*****Movie*****" if movie.hasAttribute("title"): print "Title: %s" % movie.getAttribute("title") type = movie.getElementsByTagName('type')[0] print "Type: %s" % type.childNodes[0].data format = movie.getElementsByTagName('format')[0] print "Format: %s" % format.childNodes[0].data rating = movie.getElementsByTagName('rating')[0] print "Rating: %s" % rating.childNodes[0].data description = movie.getElementsByTagName('description')[0] print "Description: %s" % description.childNodes[0].data

以上程序执行结果如下：

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom

完整的 DOM API 文档请查阅
Python DOM APIs>。

站长推荐

词云工具 | 在线词云图

词云（Word Cloud），又称文字云、标签云（Tag Cloud）、关键词云（Keyword Cloud），是对文本信息中一定数量的关键词出现的频率高低情况的一种可视化展现方式，它一般是由文本数据中提取的词汇组成某些彩色图形。词云生成工具可以快速在线生成,支持图片模型形状生成词云图

马上使用

词频统计

词频统计是指用程序来统计某字符串中总共有多少个单词,每个单词出现的次数。

马上使用

在线制作九宫格图

在线制作九宫格图 | 朋友圈图片生成器，本工具一键在线切图，支持九宫格图片预览效果，可用于微信、QQ等各种社交软件朋友圈发表

马上使用

在线OCR识别图片

OCR 代表光学字符识别是一种用于识别数字、字母、符号等字符的计算机视觉技术。这些字符在日常生活中很常见，我们可以根据自己的需求进行字符识别。

马上使用