技术学院

如何使用正则表达式匹配并保留指定 HTML 标签及其完整内容（而非简单分割）

作者:聖光之護2026-01-08 00:00:00

本文介绍如何精准匹配常见的 html 块级标签（如 `

`、`

在文本处理中，若需按特定 HTML 标签“切分”字符串，但又要求保留完整的起始-结束标签对（如

）且不丢失嵌套结构或标签本身

此时，正确思路应是 “匹配”而非“分割”：使用 re.finditer() 配合支持反向引用的正则表达式，精准捕获成对出现的开放/闭合标签及其内部内容。

推荐正则模式如下：

import re

pattern = r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*"
subject = ' Some text some text some text. 
  Another text another text 
.  some list 
.  another list '

matches = [match.group(0) for match in re.finditer(pattern, subject, re.DOTALL)]
print(matches)
# 输出：
# [' Some text some text some text. ',
#  ' Another text another text ',
#  ' some list ',
#  ' another list 
']

✅ 关键解析：

(p|li|ul|ol|dl|h1|...h6) —— 捕获标签名到第一组；
\1> —— 精确匹配对应闭合标签（如
→
...

re.DOTALL —— 使 . 可匹配换行符，提升多行内容兼容性。

⚠️ 注意事项：

此方案不支持标签属性（如
）或嵌套结构（如
- text
- nested
），因 [^

若需处理真实 HTML（含属性、注释、自闭合标签、JS/CSS 内容等），务必改用专业 DOM 解析器，例如：

from bs4 import BeautifulSoup
soup = BeautifulSoup(subject, 'html.parser')
for tag in soup.find_all(['p', 'li', 'ul', 'ol', 'dl', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
    print(str(tag))  # 完整保留标签、属性、子节点及格式

? 总结：正则适用于可控、扁平、无属性的 HTML 片段提取；而真实 Web 内容解析，请始终优先选用 BeautifulSoup、lxml 或 html.parser 等成熟 DOM 工具——它们健壮、可维护，且能正确处理 HTML 规范中的所有边界情况。

上一篇丨

格子达查重系统入口在哪里—格子达学术论文查重入口

下一篇丨

如何在 MUI X DataGrid 中通过自定义按钮导出单条记录为 CSV

全国咨询热线： 400-8878-609

新闻资讯

技术学院

如何使用正则表达式匹配并保留指定 HTML 标签及其完整内容（而非简单分割）

联系我们