37,720
社区成员
发帖
与我相关
我的任务
分享
import re
DOC_SPLIT_RE = u'((\d+[/.,、])(\d+[/.,、]?)+)?'
sentences = re.split(DOC_SPLIT_RE, content_clean)
import re
doc = r"总则1.1啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊12%啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊1,2狼是怎么叫的:口嗷嗷的、口嗷呜呜、口嗷呜嗷、口呜嗷嗷呜呜嗷。1,3我们都是小青蛙,呱呱呱呱呱。每天快乐的生活,心中志气大。2、1、1我们是害虫,我们是害虫。2、1,2正义的来福临、正义的来福临。2.1.2.1summer summer is over left 1 secret. 2,1.2,2 in my heart in my heart can't tell you~"
startl = 0
for m in re.finditer(r'(\d+([.,、,]\d)*)', doc):
if m.start() > startl:
print(doc[startl: m.start()])
startl = m.start()
if (startl > 0) and (startl < len(doc)):
print(doc[startl:])
结果:
总则
1.1啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
12%啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊
1,2狼是怎么叫的:口嗷嗷的、口嗷呜呜、口嗷呜嗷、口呜嗷嗷呜呜嗷。
1,3我们都是小青蛙,呱呱呱呱呱。每天快乐的生活,心中志气大。
2、1、1我们是害虫,我们是害虫。
2、1,2正义的来福临、正义的来福临。
2.1.2.1summer summer is over left
1 secret.
2,1.2,2 in my heart in my heart can't tell you~