python正则提取特定标签内的字符-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python正则提取特定标签内的字符

阅读量：7113 次

发布时间：2019-06-28

本文共 717 字，大约阅读时间需要 2 分钟。

python 3.5.2

提取下面数据多个组合

[BEGIN]

[b]*****[e]

[b]-------[e]

[b]XXX

DDD

FFF

[e]

[END]

类似这种数据，提取[BEGIN] 和 [END]中间的内容。

思想，两个标签之间任意字符串，且不含有结尾标签组合的结构。

如果中间有结尾处的字符组合那就没戏了！

r'\[BEGIN\]([\s\S]([^D]|[^N]D|[^E]ND)*)\[END\]'

\[BEGIN\] 开头

([\s\S]([^D]|[^N]D|[^E]ND)*) 中间

[\s\S] 任意字符串 ([^D]|[^N]D|[^E]ND) 不含有END组合的 * 任意个

\[END\] 结尾处字符串

xx = """[BEGIN][L_B]111dsfasfa 黄s423333[L_E][END][BEGIN][L_B]222dsfas  23444[L_E][END]"""y = re.findall(r'\[BEGIN\]([\s\S]([^\]][^D]\]|[^N]D\]|[^E]ND\]|[^\[]END\])*)\[END\]', xx, re.M)print(y)

上面的内容比之前讲解的内容稍长排除了 [END] 组合

但是可见后标签越长匹配串越长效率越低

之后又经过改进最终如下

r'\[BEGIN\]([\s\S.]*?)\[END\]'

([\s\S.]*?) 加上？号不贪婪匹配点放在方括号内

基本上完美了。这应该是最终解决方案。

研究学习到了。

转载于:https://my.oschina.net/raddleoj/blog/810472

你可能感兴趣的文章

【JDK源码分析】String的存储区与不可变性

git clone https协议问题

大电容和小电容并联

RabbitMQ(一)：Windows下RabbitMQ安装

Python中numpy.random.randn()与rand()，numpy.zeros、ones、eye

2、使用rpm包安装grafana

CS 2505 Computer Organization I C05: Pointers in C

WHERE spras = sy-langu.这是什么意思

cf 834 E. Ever-Hungry Krakozyabra

JavaScript自学笔记一

Linux FTP的安装与权限配置

PHP代码规范（一）

POJ1125 Stockbroker Grapevine(最短路径)

Java类成员的访问权限

课堂作业第三周

telnet命令详解

Android WindowManager实现悬浮窗效果 (一)——与当前Activity绑定

Do not go gentle into that good night.

版本控制-搭建git服务器

线性代数与矩阵论习题 1.2.2

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-09 03:58:46 当前IP: 18.222.253.118 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我