python从txt中提取每一行的中文？请问怎么提取？

领域专家: 人工智能技术领域

2016-07-24 04:21:37

http://ask.csdn.net/questions/271341

python从txt中提取每一行的中文
第一单元
application software应用软件
basic application基本应用软件
communication device通信设备
compact disc (CD)光盘
computer competency计算机能力
请问怎么提取
if __name__ == '__main__':

info = open("know.txt")
print "中文"
#a = info.readlines()
#print a
for line in info:
line = line.decode('GB2312').encode('utf-8')
print line
letter_str = re.findall(r'([a-zA-Z]+)',line,re.MULTILINE)
hanzi_str = re.findall(r'([^a-zA-Z]+)',line,re.MULTILINE)
print hanzi_str
str = [letter_str,hanzi_str]
knowledge.append(str)

write_excel(knowledge)

...全文

616 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

南宫涵 2018-11-19

打赏
举报

大神你好，想请教一下，如何利用PYTHON提出关键字所在行的关键字后面的几个字符或者数字啊，举例如下 TRIP ZSPD 004981 01/50 0745 我想提取关键字TRIP所在的行后面的4981，应该如何提取呢，我前后设置过int[13:19]和str[13:19]甚至是TRIPfuel=(int[13:19] for 'TRIP ' in str(lines)) 尝试了N次，未果，PYTHON请不吝赐教一下

sanxiaochengyu 2016-07-26

打赏
举报

引用 6 楼 wangyaninglm 的回复:

http://blog.csdn.net/wangyaninglm/article/details/52017392 自己写了一个博客主要是将txt格式重构一下，写到xls中代码：


# -*- coding: utf-8 -*-
"""
Spyder Editor

write data to xls,2016.7.24
主要实现将一些其他格式的数据转化成，图灵机器人可以识别的xls格式数据
"""
import os
import xlwt
import re

knowledge = []

def set_style(name,height,bold = False):
    style = xlwt.XFStyle()     #初始化样式

    font = xlwt.Font()    #为样式创建字体
    font.name = name
    font.bold = bold
    font.color_index = 4
    font.height = height

    style.font = font
    return style


def write_excel(knowledge):
    #创建xls工作薄
    workbook = xlwt.Workbook(encoding = 'utf-8')
    #创建sheet
    data_sheet = workbook.add_sheet('first')

    for i in range(len(knowledge)):
        data_sheet.write(i,0,knowledge[i][0])
        data_sheet.write(i,1,knowledge[i][1])

    #保存文件
    workbook.save('answer.xls')
    print "successful write!"

x=xlwt.Workbook()
s1=x.add_sheet('sheet1')

if __name__ == '__main__':

    info = open("know.txt")
    print "中文"
    #a = info.readlines()
    #print a
    for line in info:
        line = line.decode('GB2312').encode('utf-8')
        #print line 这块也可以整行进行拆分
       # letter_str = re.findall(r'([a-zA-Z]+)',line,re.MULTILINE)
        #hanzi_str = re.findall(r"([\x80-\xff]+)", line,re.MULTILINE)
        #找到第一个出现汉字字符的位置，进行截断，分成两部分，分别写到两列中
        hanstr = ''
        yingstr = ''
        index = 0
        for i in line:
            an = re.match(r"([\x80-\xff]+)", i)#判断一下是中文
            if an:
                break
            else:
                index = index +1
        yingstr = line[0:index]
        hanstr = line[index:len(line)]

        print index       
        print hanstr
        str = [yingstr,hanstr]
        knowledge.append(str)

    write_excel(knowledge)



'''
下面使用库xlwt进行操作excel文件的一些代码，希望大家有空能够用到
style1=xlwt.XFStyle() #样式类
style1.font.colour_index=30 #字体颜色前景色为红
style1.font.bold=True #粗体
style1.pattern.pattern=1 #填充solid
style1.pattern.pattern_fore_colour=2 #填充颜色红色
style2=xlwt.easyxf('font:italic on;pattern:pattern solid,fore-colour yellow')
#快速生成样式
#参数字符串格式： 
#"class1:key1 value1,key2 value2;class2:k1 v1,k2 v2;"



s1.write(0,0,"Hello",style1)#写入字符串
s1.write(1,0,True,style2)#写入真值
s1.write(2,0,3.1415926);s1.write(2,1,-5);s1.write(2,2,xlwt.Formula("2*A3*ABS(B3)"));
#使用公式计算
s1.write(3,0,'right',xlwt.easyxf("align:horiz right"))
#调整对齐方式
x.save('example.xls') #保存

'''

拜读博文了，厉害

sanxiaochengyu 2016-07-25

打赏
举报

引用 4 楼 wangyaninglm 的回复:

大神好像有点不对

Python2 不太一样这样


# coding=utf-8
import re

string = u"应用 application software 软件"
rlt = re.findall(u"[\u4e00-\u9fa5]+", string)
print(rlt)
for value in rlt:
    print(value)


# 输出
# [u'\u5e94\u7528', u'\u8f6f\u4ef6']
# 应用
# 软件

shiter 2016-07-25

打赏
举报

http://blog.csdn.net/wangyaninglm/article/details/52017392 自己写了一个博客主要是将txt格式重构一下，写到xls中代码：


# -*- coding: utf-8 -*-
"""
Spyder Editor

write data to xls,2016.7.24
主要实现将一些其他格式的数据转化成，图灵机器人可以识别的xls格式数据
"""
import os
import xlwt
import re

knowledge = []

def set_style(name,height,bold = False):
    style = xlwt.XFStyle()     #初始化样式

    font = xlwt.Font()    #为样式创建字体
    font.name = name
    font.bold = bold
    font.color_index = 4
    font.height = height

    style.font = font
    return style


def write_excel(knowledge):
    #创建xls工作薄
    workbook = xlwt.Workbook(encoding = 'utf-8')
    #创建sheet
    data_sheet = workbook.add_sheet('first')

    for i in range(len(knowledge)):
        data_sheet.write(i,0,knowledge[i][0])
        data_sheet.write(i,1,knowledge[i][1])

    #保存文件
    workbook.save('answer.xls')
    print "successful write!"

x=xlwt.Workbook()
s1=x.add_sheet('sheet1')

if __name__ == '__main__':

    info = open("know.txt")
    print "中文"
    #a = info.readlines()
    #print a
    for line in info:
        line = line.decode('GB2312').encode('utf-8')
        #print line 这块也可以整行进行拆分
       # letter_str = re.findall(r'([a-zA-Z]+)',line,re.MULTILINE)
        #hanzi_str = re.findall(r"([\x80-\xff]+)", line,re.MULTILINE)
        #找到第一个出现汉字字符的位置，进行截断，分成两部分，分别写到两列中
        hanstr = ''
        yingstr = ''
        index = 0
        for i in line:
            an = re.match(r"([\x80-\xff]+)", i)#判断一下是中文
            if an:
                break
            else:
                index = index +1
        yingstr = line[0:index]
        hanstr = line[index:len(line)]

        print index       
        print hanstr
        str = [yingstr,hanstr]
        knowledge.append(str)

    write_excel(knowledge)



'''
下面使用库xlwt进行操作excel文件的一些代码，希望大家有空能够用到
style1=xlwt.XFStyle() #样式类
style1.font.colour_index=30 #字体颜色前景色为红
style1.font.bold=True #粗体
style1.pattern.pattern=1 #填充solid
style1.pattern.pattern_fore_colour=2 #填充颜色红色
style2=xlwt.easyxf('font:italic on;pattern:pattern solid,fore-colour yellow')
#快速生成样式
#参数字符串格式： 
#"class1:key1 value1,key2 value2;class2:k1 v1,k2 v2;"



s1.write(0,0,"Hello",style1)#写入字符串
s1.write(1,0,True,style2)#写入真值
s1.write(2,0,3.1415926);s1.write(2,1,-5);s1.write(2,2,xlwt.Formula("2*A3*ABS(B3)"));
#使用公式计算
s1.write(3,0,'right',xlwt.easyxf("align:horiz right"))
#调整对齐方式
x.save('example.xls') #保存

'''

shiter 2016-07-24

打赏
举报

大神好像有点不对

shiter 2016-07-24

打赏
举报

引用 2 楼 a87b01c14 的回复:

re.findall("[\u4e00-\u9fa5]+", "application software应用软件")

试试

sanxiaochengyu 2016-07-24

打赏
举报

re.findall("[\u4e00-\u9fa5]+", "application software应用软件")

试试

shiter 2016-07-24

打赏
举报

txt编码是gb2312，怎么处理呢？

Python——读取txt文件每一行数据

Python从txt文件中提取特定数据

python提取txt中几行的方法发布时间：2020-09-01 11:04:43来源：亿速云阅读：121作者：小新python提取txt中几行的方法？这个问题可能是我们日常学习或工作经常见到的。希望通过这个问题能让你收获颇深。下面是小编给大家带来的参考内容，让我们一起来看看吧！python中的文件，通常是用read()方法来读取。如果程序要读取行，通常只能用文本方式来读取，道理很简单，只有文本文...

import re #这里以读取video_reqtest.txt中后一个括号内的数字0.079，存到train.txt为例，video_reqtest.txt文件中的内容如下 #video 1/1 (1/902) /content/drive/MyDrive/yolov5-5.0/mydata/barbecue.mp4: 384x640 1 fire, Done. (0.079s) #video 1/1 (2/902) /content/drive/MyDrive/yolov5-5.0/mydata/b.

Python 读取 TXT 文件每行数据的介绍在数据处理和分析的过程中，读取文本文件是一项非常常见的操作。Python 提供了简单而强大的文件处理功能，使得读取 TXT 文件变得轻而易举。本文将介绍如何使用 Python 读取 TXT 文件的每一行数据，并给出相应的代码示例。一、读取 TXT 文件的基本方法在 Pyt...

脚本语言

37,741

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章