200分求关于信息采集的问题。
1.关于采集的。我的采集信息用的是正则式。我的正则式只能采集单个记录里的一个字段。表达式是这样(起始字符)(?<字段1的内容>.*)(结束字符)
这样的话每次就只能采集一个信息里的一个字段,我想一次能采集倒一个信息里的所有字段。我设想的是这样生成正则式
(起始字符1)(?<字段1的内容>.*)(结束字符1)(.*)(起始字符2)(?<字段2的内容>.*)(结束字符2)
可是这样我就采集补到,希望能给点帮助。
2.关于采集道德信息如何删除其中的HTML标签的。如何删除其中的HTML标签呢?再假如,如果我采集的信息内容本身就是HTML源代码的话,如和提出其信息中的HTML标签呢?
3.关于分页采集的,如何采集多个页面?是使用全站搜索类似爬虫程序,还是根据网址里网页参数变化来采集呢?比如Http://www.aa.com?page=*(0-200)
如果是后者,那么如何采集没有直接网址,而是用JAVASCRIPT 函数处理的网页呢?希望能给点思路。
4.关于采集非文字类信息,比如文件,电影,图片,Mp3等等,如何采集,如果有目录结构的如何实现跟所采集的网站一致呢。
5.关于采集时,是用多线程还是单线程呢?同步和异步?对这部份我不是很懂,希望能点建议。
6.关于发布,是直接发布到目标数据库,如果目标数据库是再服务器上,能够直接连接呢?如果是ACESS数据库又该如何操作呢?如果是支持发不到论坛,又该如何操作呢?
7.关于建立采集任务时,是单个任务一个数据库呢?还是公用一个数据库?如何新建一个数据库,比如新建一个ACCESS数据库文件。
关于问题,只要能解答其中一个就给分。对于分数我从来不吝啬。
如果分不够我可以另开贴给分。而且我想这个问题对于很多写信息采集的都有用处的。
请大家放心我一定会给予大家足够的分的。