37,744
社区成员




家人们,现在我想做这样的事,下面是例子:
中国国际金融股份有限公司关于武汉敏芯半导体股份有限公司首次公开发行股票并上市的辅导工作报告(第四期) 提取 武汉敏芯半导体股份有限公司
长城证券股份有限公司关于江苏奥易克斯汽车电子科技股份有限公司首次公开发行股票并上市之第二期辅导工作备案报告 提取 江苏奥易克斯汽车电子科技股份有限公司
关于深圳时代装饰股份有限公司辅导备案登记受理的公示 提取 深圳时代装饰股份有限公司
江苏奥易克斯汽车电子科技股份有限公司对长城证券股份有限公司辅导工作的评价及意见(第二期) 提取
江苏奥易克斯汽车电子科技股份有限公司
还有很多类似的标题,但是格式不一定一样、标题中公司名称不一定全,所以单纯的字符串截取应该行不通。大家有没有一点其他解决思路刚接触python,太菜了
ps:最好避免一下nlp之类机器学习的方法,太难了
#--*--coding:utf-8 --*--
import jieba
KEY = ['公司', '有限公司', '无限公司']
FILTER = ['对','关于']
x = ['中国国际金融股份有限公司关于武汉敏芯半导体股份有限公司首次公开发行股票并上市的辅导工作报告(第四期)',
'长城证券股份有限公司关于江苏奥易克斯汽车电子科技股份有限公司首次公开发行股票并上市之第二期辅导工作备案报告',
'关于深圳时代装饰股份有限公司辅导备案登记受理的公示',
'江苏奥易克斯汽车电子科技股份有限公司对长城证券股份有限公司辅导工作的评价及意见(第二期)']
tmpList = []
for i in x:
l = jieba.cut(i)
res = list(l)
pos = 0
for j in KEY:
try:
index = res.index(j, pos )
while index:
tmpStr = ''.join(res[pos:index+1])
startPos = 0
for s in FILTER:
startPos = tmpStr.find(s)
if startPos == -1:
continue
else:
tmpStr = tmpStr[startPos+len(s):]
tmpList.append(tmpStr)
pos = index + 1
index = res.index(j, pos)
except:
continue
print(tmpList)