谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件

heitianma 2007-04-07 05:14:16

谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件
http://www.cz88.net/proxy/http_2.shtml
http://www.cz88.net/proxy/http_3.shtml
就差解析规则文件了，自己编的老是导入不了。可能里面的代码有点不对，请高手指点一二。

自定义解析规则
程序所在目录的conf子目录下有一个proxy.xml文件
结构很简单，如

PHP 代码:

--------------------------------------------------------------------------------

<type>
<file>1.txt</file>
<url>http://www.cybersyndrome.net/plr.html</url>
</type>

--------------------------------------------------------------------------------

一个<type>结点表示一种网页类型，有的网站有几个十页面，但类型都一样
<file>结点，表示解析这种类型网页的规则存在于1.txt文件中
<url>结点表示要解析的网页，可以有多个
再看看1.txt的内容

PHP 代码:

--------------------------------------------------------------------------------

regCate=([^☆]*)
regProxy=<li>.*?onMouseOver="s\\('(.*?)'\\)".*?class=".*?">(.*?):(.*?)</a></li>
countHost=2
countPort=3
countAddress=1

--------------------------------------------------------------------------------

"regCate="表示要解析网页哪部分的内容，一般就是分析整个网页
本来标准的正则表达式写法是(.*)的，但我用的java正则表示式包有点奇怪(.*)只能匹配到一行，所以我都写成([^☆]*)了

"regProxy="表示一个proxy信息的正则表达式，注意这里所分析的都是html的源代码

countHost,countPort,countAddress分别表示host,port,address是正则表达式中匹配到的第几个值

也就是说，如果你想自己加入某个网页的解析，可以在proxy.xml中加一段

PHP 代码:

--------------------------------------------------------------------------------

<type>
<file>5.txt</file>
<url>http://the_url1_you_want_to_prase.com</url>
<url>http://the_url2_you_want_to_prase.com</url>
</type>

--------------------------------------------------------------------------------

然后在5.txt文件中设定好解析规则，就OK了。

...全文

456 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

extraction 2008-09-27

打赏
举报

要搜集器,可以去乐思看看,专门做采集技术的

wyjsff 2008-09-26

打赏
举报

诚聘IT兼职教师

北京思源培训中心诚聘既有教学经验又开发经验的兼职教师，
待遇优厚
兼职高级讲师若干
1. MS.NET讲师(主讲.NET 系列课程asp.net, C#)
2. JAVA讲师 (主讲JAVA，JSP，J2EE等)
3. MS SQL Server讲师(主讲MS SQL Server课程)
4. Oracle 讲师(主讲 Oracle 系列课程)
5．软件测试讲师(主讲软件测试课程)
5. VC++讲师 (主讲VC++，C++等)
6. LINUX/UNIX讲师(主讲LINUX / UNIX 系列课程)
7．IBM Aix /SUN Solaris讲师(主讲系统管理和维护)
8. Office讲师(精通办公软件)
9．Ajax讲师(主讲程序设计和WEB高级开发)
10.3DMax讲师(主讲 3DMax 基础和建模)
11.应用服务器weblogic/jboss/websphere
12.CCNA,CCNP,CCSP,CCIE 网络信息安全技术讲师
13.中间件(Weblogic,Websphere,eclipse等)讲师
联系方式：abc@ciitc.com QQ:174629429 MSN:bjcosun@hotmail.com

网址:http://www.ciitc.com