对-基于web的信息抽取的一些疑惑

wangdeyu97 2009-03-31 11:13:20

女朋友要做毕业设计，题目是：基于web的信息抽取的研究与实现
开始想着做个类似新闻发布的玩意儿就行了，但看过任务书后，迷惑了





......   

   该系统为基于web的信息抽取的研究与实现。目前，对于Web信息挖掘分为两大类：一类称为使用挖掘，另一类称为内容挖掘，即使用挖掘工具队Internet上的信息进行挖掘。而在大量的Web资源中，表格是其中极为重要而又规律的。为此，本系统主要研究开发“Web表格信息抽取引擎”，其目的是提供一种以Web表格为信息抽取对象的，支持抽取方式选择的抽取工具。   

“信息抽取引擎”由以下两个部分构成：   

1、  Html文档分析工具   

2、  信息抽取工具。   

结构如下：   

    

    二叉树构建工具以Html文档作为输入数据，将文档内的标记与文本分开，将用户感兴趣的标记及其中的内容构造成一棵含有文本信息的二叉树。在此，我们仅对表格进行信息抽取，所以设定“title、table、td、tr”为感兴趣标记。   

当Html文档转化成一棵二叉树后，信息抽取工具通过遍历二叉树查找用户感兴趣的关键词，然后将该关键词结点所在的行、列或所在的子表格中的所有内容作为信息抽取结果进行输出。   

    信息抽取关键字的之间的关系，可以是AND或OR（只有一个信息关键字时，忽略该参数）。信息抽取时，用信息抽取关键字和二叉树中所有结点的文本段进行匹配，有一个匹配成功时，认为该结点满足信息抽取条件。信息抽取时，用所有的信息抽取关键字和二叉树结点的文本进行交叉匹配或重复匹配。    

    查询条件“AND”表示：如果给定的信息抽取关键字集合K{e1,e2,e3,en,…}中的每一个元素都和结点(A)的文本相匹配时，则认为：“A结点满足信息抽取条件。”   

    查询条件“OR”表示：信息抽取关键字集合K{e1,e2,e3,en,…}中一个以上（包含一个）的元素和结点(A)的文本相匹配时，就认为：“A结点满足信息抽取条件。”   

    三、重点研究问题   

    1.  二叉树的模型的选择   

    2.  二叉树的构建   

  

    .....   

   .....

存在几个问题，有这方面经验的帮解答下吧：
1.为什么要用二叉树呢？搜索速度快？（由html生成dom树，遍历不好么）
2.“..关键字和节点文本匹配.." ,怎么算匹配呢？（等于、包含？）
3.“...信息抽取时，用所有的信息抽取关键字和二叉树结点的文本进行交叉匹配或重复匹配。....”.这里的交叉和匹配是什么意思？

...全文