python抓取文本内容

798481873 2017-03-19 01:30:51
用python脚本对timit语音库中所有的.txt文本的路径及内容进行抓取,其中在进行内容抓取的时候需要去除标点除了单引号和连接符号之外的所有符号(如” : ! ~ ? . )等。最后得到的文本格式如下:
data/train/dr1/fcjf0/Untitled/sa1 SHE HAD YOUR DARK SUIT IN GREASY WASH WATER ALL YEAR
data/train/dr1/fcjf0/Untitled/sa2 DON'T ASK ME TO CARRY AN OILY RAG LIKE THAT
data/train/dr1/fcjf0/Untitled/si1027 EVEN THEN IF SHE TOOK ONE STEP FORWARD HE COULD CATCH HER
data/train/dr1/fcjf0/Untitled/si1657 OR BORROW SOME MONEY FROM SOMEONE AND GO HOME BY BUS
data/train/dr1/fcjf0/Untitled/si648 A SAILBOAT MAY HAVE A BONE IN HER TEETH ONE MINUTE AND LIE
求大神指点代码!!!!!
...全文
292 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
798481873 2017-03-23
  • 打赏
  • 举报
回复
小白一个,最近要用来处理文件,才看了一些....
CDSoftwareWj 2017-03-23
  • 打赏
  • 举报
回复
递归会么??? 就算不会,你再一层处理不就ok了
798481873 2017-03-23
  • 打赏
  • 举报
回复
您好,我的目的是把一个三级目录下所有的.txt路径和内容提取出来,自己找了个代码,但是只能解决两级目录,还没有加路径,能不能帮忙看下。 [code=python] #!usr/bin/env python # -*- coding: utf-8 -*- import os outfile = open('data.txt', 'a') # 以追加方式打开输出文件 for dir in os.listdir('.'): # 遍历当前目录所有问价和目录 dr8 = os.path.join('.', dir) # 加上路径,否则找不到 if os.path.isdir(dr8): # 如果是目录,则继续遍历子目录的文件 for file in os.listdir(dr8): if os.path.splitext(file)[1] == '.txt': # 分割文件名和文件扩展名,并且扩展名为'txt' file = os.path.join(dr8, file) # 同样要加上路径 f = open(file, 'r') data = f.readlines()[0] # 获取文件内容 outfile.write(data) # 写入输出文件 f.close() outfile.close()
屎克螂 2017-03-22
  • 打赏
  • 举报
回复
a= '''data/train/dr1/fcjf0/Untitled/sa1  SHE HAD YOUR DARK SUIT IN GREASY WASH WATER ALL YEAR
data/train/dr1/fcjf0/Untitled/sa2  DON'T ASK ME TO CARRY AN OILY RAG LIKE ”:THAT!  '''
print re.sub('[”|:|!|~|\?|\.]', '', a)

37,721

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧