如何做RTF文件词法分析器???
cdqy 2002-01-12 03:03:36 RTF文件词法分析器
1、背景知识
RTF(Rich Text Format)是用于WORD的一种对外公开的文件格式。DOC文件可以保存为RTF格式的文件。RTF文件内容只有四种类型:
控制字(control words):由反斜线(\)后跟小写字母(a ~ z)序列,有时后面还跟参数,参数由数字(0 ~ 9)序列组成,前面可能有负号(-)。
控制符(control symbols):由反斜线(\)后跟一个非字母和数字的字符组成。
组(groups):组开始符:{ 和组结束符:}
无格式文本(unformatted text):其他情况都是无格式文本
2、目的和要求
开发此系统的目的是为了利用有限状态自动机(FSM)的原理对RTF文件进行词法分析,把一个完整的RTF文件转换成控制字、控制符、组和无格式文本组成的序列,为语法分析做准备。
要求:
1、 可以用VC、VB、Java、Delphi等开发;
2、 必须做成一个公用的有限自动机类,3、 可以实现任何正规表达式的词法分析;
4、 必须设计出FSM状态转换图和FSM状态转换表;
5、 界面参考下图。
输 入:RTF文件
处理方法:有限状态自动机(FSM)
输 出:控制字、控制符、组和无格式文本组成的序列
3、工作量及工作成果
代码量:约300行(不含注释和界面)
文 挡:约5页(工作计划1页,FSM状态转换图1页,FSM状态转换表1页,FSM实现描述1页,其他1页)
要求完成时间:5个工作日