超难的用正则表达式提取文本内容
我现在做的一个系统遇到这样一个问题。客户将他们的简历通过邮件形式发送到某个邮箱之中,而客户的简历部分都是从他们自己的文档中copy至邮件的正文,所以形式千奇百怪,没有同一的格式。但是简历的内容都差不多,比如,姓名,年龄,电话,地址,工作年限等这些关键信息。我现在要从其邮件正文中提取这些信息。因为不同人对同一个关键信息的命名是不一样的,比如说电话地址关键字,有人会写成联系地址,还有人会写成户口所在地等等。为此我定义了一个同义词表,存放关键信息及其可能的同义词。
请问各位大大们,如何提取这些关键信息。能否给出一些方法。先谢谢了。
下面我提供一个简历样本:
姓 名: 周 倩
性 别: 女
出生年月: 1979年5月
户 籍: 中国上海
联系电话:13331921076 或 13331922096
Email cherry_zhqian@hotmail.com
目前年薪:2700元/net*14个月
工作情况概要:
2004年03 ~ present 某贸易有限公司/IT业 财务助理兼总务管理
月度税务局抄税工作,增值税发票的开立、进项税发票的认证;
开具个人所得税及企业所得税完税凭证;办理年检等相关事务;
收汇、付汇、结汇相关工作;收汇的网上申报;付汇核销的网上申报;
备用金的管理、负责现金和银行日记账;支付日常和月度账单;
所有凭证/账簿的打印、整理;
用友财务软件购销存(主要是库存及财务系统)的控制及管理
月末在库报表、存货跌价表(至日本总部)制作;
社内合同归档、更新;证件类、书籍类、固定资产类管理;
办公室文档的建立和管理;
办公室日常后勤工作;包括办公用品采购和维护等;
考勤统计、办公用品的分配管理、信件及快递的收发等等;
为员工和访问人员订购酒店和机票;
为外派专家及其家属以及公司员工办理签证、就业证、居留许可证等必要证件和材料;公司行政工商文件的办理和注册;
2002年01 ~ 2004年3月 中智上海经济技术合作公司 服务中心秘书
本公司主要提供应聘者求职、人力资源咨询等服务,是向外商投资企业派遣应聘人员的指定外事服务单位。
协助招聘经理处理日常事务及就业咨询服务,并安排临聘工作;
客户来访的接待工作以及来电的转接;
招聘广告的整理、发布;
应聘简历的初步筛选;安排面试;
应聘者档案和客户资料的整理及管理,完成相关统计报表至公司总部;
考勤统计、办公用品的分配管理、信件及快递的收发等等
2000年04 ~ 2001年12 华王工业集团(上海)有限公司 行政秘书/助理
协助总经理进行文档处理;
协助人事经理整理相关档案资料;
员工考勤、办公用品及日用品的采购和管理;
电脑及办公设备的维护、图书管理等等
日常接待、信件及快递的收发、机票与酒店的预订安排。
1998年03 ~ 2000年03 东方明珠电视塔 客户服务/导游
独立处理在游戏中的突发事件并及时解决。
指导游客参加每一项游戏,并告知游戏说明和注意事项,耐心回答游客提出的每一个问题;
培训经验:
2002/11 seven habits
2002/05 新劳动合同法
2004/10 办公自动化证书
2004/10 ~ 至今 日语
教育状况:
2001 ~ 2004 西安工程技术学院(上海分院) 管理工程(专科)
1998 ~ 1999 上海复旦大学 行政管理
1994 ~ 1996 上海交通职业技术学校 高中(办公自动化)
个人技能:
熟悉用友购销存、财务系统软件;
熟悉WIN98\2000、Office2000等电脑操作系统,工作期间熟练运用Word、Excel等办公软件,会PowerPoint;
中英文打字熟练,中文打字每分钟100字(五笔)。
日常日语会话
英语一般;
自我评价:
对工作有责任心、能够接受挑战;处事积极主动、富有团队和创新精神;诚信,沟通能力强。
职业目标:
我希望能够在贵公司找到一席一地,将我所学运用于工作当中,充分发挥我的专业知识。