求大神帮忙~关于使用python完成对一个文本指定特征的提取

Spongeww 2016-05-04 07:32:06
最近小白我在做个样本分析。
是这样的,我需要从一个txt中按照一个分类{比如说 如果txt中出现了 inpu、inpor ,那么就相当于能输出 I I}

然后按照这个规则和代码先后出现的顺序把这个txt中的指定代码按照上述的映射关系 提取出来,放到另一个txt中。



求大神给给思路,正则匹配可以么?能有好心人帮写么?好人一生平安,之前有很多大神在无私的帮助我 我非常感激!
正是有了你们这群好心人,我才有进步的欲望!感谢
...全文
410 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
迈克暖风 2016-05-10
  • 打赏
  • 举报
回复 1
如果规则是一对一的,我觉得可以写到一个字典里去。或者一个(key, value)元组集合里。
gikod 2016-05-09
  • 打赏
  • 举报
回复 1
我给你总结一下吧, 读入某个文件,每一行里,如果匹配到了特定的字符串,就输出那个类别对应的字母。 (如果没有匹配到,就什么都不输出?) 所以有几个模式。 1 规则写在文件硬编码的条件语句里 f = open('input.txt') for line in f: if line.find('move') != -1: print 'M ' elif line.find('move/16 ') != -1: print 'M ' ... close(f) 2 预先把规则处理成对照表,然后把对照表读到数组中 对照表 rule.csv move, M move/16, M ... r = open('rule.csv') rules = {} lines = r.readlines() r.close() for line in lines: pair = line.split(',') rules.append(pair) f = open('input.txt') for line in f: for rule in rules: if line.find(rule[0]) != -1: print rule[1] close(f)
ForestDB 2016-05-05
  • 打赏
  • 举报
回复 1

for directive in directives:
    if 'move' in directive:
        print 'V'
    elif 'return' in directive:
        print 'R'
    elif 'goto' in directive:
        print 'G'
    ......
jeky_zhang2013 2016-05-05
  • 打赏
  • 举报
回复
举个简单得例子就可以了,其实思路理清楚了就很快
屎克螂 2016-05-05
  • 打赏
  • 举报
回复
并没有看懂你说的匹配规则是什么
6facebeast 2016-05-05
  • 打赏
  • 举报
回复
不太明白你想说什么,猜是不是这样 import os,sys file_destiny = open("destiny.txt","w") file_source = open("data.txt","r") words = file_source.readlines() bb = ".".join(words).split(" ") n= 0 aa = ["move","move16","move wide"] for word in bb: if word in aa: file_destiny.write(word + "\n") n = n+1 print(n) file_destiny.close() file_source.close()
Spongeww 2016-05-05
  • 打赏
  • 举报
回复
上述说错了 检测到move等这一类动作时 输出M(这是根据上述给的表格来的)
Spongeww 2016-05-05
  • 打赏
  • 举报
回复
大神 是这样的
匹配规则我没说 不过不是很复杂 就是一个对象的表格

就是这个映射表格
当检测到move等这几个动作时 就输出V
就是这样
Spongeww 2016-05-04
  • 打赏
  • 举报
回复


这是例图 求大神帮忙!提供思路也好 谢谢~
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请网页: 爬虫使用HTTP或其他协议向目标URL发起请,获取网页的HTML内容。这通常通过HTTP请库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧