求大神帮忙~关于使用python完成对一个文本指定特征的提取

Spongeww 2016-05-04 07:32:06

最近小白我在做个样本分析。
是这样的，我需要从一个txt中按照一个分类{比如说如果txt中出现了 inpu、inpor ，那么就相当于能输出 I I}

然后按照这个规则和代码先后出现的顺序把这个txt中的指定代码按照上述的映射关系提取出来，放到另一个txt中。

求大神给给思路，正则匹配可以么？能有好心人帮写么？好人一生平安，之前有很多大神在无私的帮助我我非常感激！
正是有了你们这群好心人，我才有进步的欲望！感谢

...全文

410 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

迈克暖风 2016-05-10

打赏
举报

回复 1

如果规则是一对一的，我觉得可以写到一个字典里去。或者一个(key, value)元组集合里。

gikod 2016-05-09

打赏
举报

回复 1

我给你总结一下吧，读入某个文件，每一行里，如果匹配到了特定的字符串，就输出那个类别对应的字母。（如果没有匹配到，就什么都不输出？）所以有几个模式。 1 规则写在文件硬编码的条件语句里 f = open('input.txt') for line in f: if line.find('move') != -1: print 'M ' elif line.find('move/16 ') != -1: print 'M ' ... close(f) 2 预先把规则处理成对照表，然后把对照表读到数组中对照表 rule.csv move, M move/16, M ... r = open('rule.csv') rules = {} lines = r.readlines() r.close() for line in lines: pair = line.split(',') rules.append(pair) f = open('input.txt') for line in f: for rule in rules: if line.find(rule[0]) != -1: print rule[1] close(f)

ForestDB 2016-05-05

打赏
举报

回复 1


for directive in directives:
    if 'move' in directive:
        print 'V'
    elif 'return' in directive:
        print 'R'
    elif 'goto' in directive:
        print 'G'
    ......

jeky_zhang2013 2016-05-05

打赏
举报

回复

举个简单得例子就可以了，其实思路理清楚了就很快

屎克螂 2016-05-05

打赏
举报

回复

并没有看懂你说的匹配规则是什么

6facebeast 2016-05-05

打赏
举报

回复

不太明白你想说什么,猜是不是这样 import os,sys file_destiny = open("destiny.txt","w") file_source = open("data.txt","r") words = file_source.readlines() bb = ".".join(words).split(" ") n= 0 aa = ["move","move16","move wide"] for word in bb: if word in aa: file_destiny.write(word + "\n") n = n+1 print(n) file_destiny.close() file_source.close()

Spongeww 2016-05-05

打赏
举报

回复

上述说错了检测到move等这一类动作时输出M（这是根据上述给的表格来的）

Spongeww 2016-05-05

打赏
举报

回复

大神是这样的
匹配规则我没说不过不是很复杂就是一个对象的表格

就是这个映射表格
当检测到move等这几个动作时就输出V
就是这样

Spongeww 2016-05-04

打赏
举报

回复

这是例图求大神帮忙！提供思路也好谢谢~

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

本文实例为大家分享了python实现自动登录后台管理系统的具体代码，供大家参考，具体内容如下首先感谢下网络上的各位大神和博主，通过学习各位大神的文章，才实现了该脚本 ①首先浏览器运行真是系统通过fiddler抓包，抓取到登录地址（后面的地址和头部信息等都是通过fiddler抓取的）并获取头信息，header信息里面Accept-Encoding: gzip, deflate去掉吧，免得后面提取页面的url时无法解码，通过代码实现后，这个时候回返回html文本，从文本里面获取下一步要进入的系统的地址，这个地址已经附上cookie即token了，只有经过了这一步请求，才能进行下一步的对系统里

基础进阶内容包含了很多非常重要且实用性Python知识也是在工作中必不可缺少的知识点其中包含了正则，正则实战匹配数据，面向对象，面向对象实战，TCP、UDP底层通信协议，测试模块、高阶函数、发送邮件短信、虚拟...

课程总结课纲一、乘法表与文件操作二、层级页面爬虫三、数据可视化四、图像样本生成自制数据集标签文本，以及finetune五、瀑布流评论爬取、数据清洗、分词、可视化以及文本分析心得课纲一、乘法表与文件操作我只想说，我学会遍历文件结构，并轻松提取文件目录并批量写入内容 #导入OS模块 import os #待搜索的目录路径 path = Day1-homework #待搜索的名称 filename = 2020 #定义保存结果的数组 result = [] import re def findfiles(): #在这里写下您的查找文件代码吧！ for root, dir

pandas是基于numpy构建的，使数据分析工作变得更快更简单的高级数据结构和操作工具。本文为大家带来10个玩转Python的小技巧，学会了分分钟通关变大神! 1. read_csv 每个人都知道这个命令。但如果你要读取很大的数据，尝试添加这个参数：nrows = 5，以便在实际加载整个表之前仅读取表的一小部分。然后你可以通过选择错误的分隔符来避免错误(它不一定总是以逗号分隔)。 (或者，你可以在linux中使用’head’命令来检查任何文本文件中的前5行，例如：head -c 5 data.txt) 然后，你可以使用df.columns.tolist()来提取列表中的所有列，然后

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章