谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件

heitianma 2007-04-07 05:14:16
谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件
http://www.cz88.net/proxy/http_2.shtml
http://www.cz88.net/proxy/http_3.shtml
就差解析规则文件了,自己编的老是导入不了。可能里面的代码有点不对,请高手指点一二。

自定义解析规则
程序所在目录的conf子目录下有一个proxy.xml文件
结构很简单,如

PHP 代码:

--------------------------------------------------------------------------------

<type>
<file>1.txt</file>
<url>http://www.cybersyndrome.net/plr.html</url>
</type>


--------------------------------------------------------------------------------

一个<type>结点表示一种网页类型,有的网站有几个十页面,但类型都一样
<file>结点,表示解析这种类型网页的规则存在于1.txt文件中
<url>结点表示要解析的网页,可以有多个
再看看1.txt的内容

PHP 代码:

--------------------------------------------------------------------------------

regCate=([^☆]*)
regProxy=<li>.*?onMouseOver="s\\('(.*?)'\\)".*?class=".*?">(.*?):(.*?)</a></li>
countHost=2
countPort=3
countAddress=1


--------------------------------------------------------------------------------

"regCate="表示要解析网页哪部分的内容,一般就是分析整个网页
本来标准的正则表达式写法是(.*)的,但我用的java正则表示式包有点奇怪(.*)只能匹配到一行,所以我都写成([^☆]*)了

"regProxy="表示一个proxy信息的正则表达式,注意这里所分析的都是html的源代码

countHost,countPort,countAddress分别表示host,port,address是正则表达式中匹配到的第几个值

也就是说,如果你想自己加入某个网页的解析,可以在proxy.xml中加一段

PHP 代码:

--------------------------------------------------------------------------------

<type>
<file>5.txt</file>
<url>http://the_url1_you_want_to_prase.com</url>
<url>http://the_url2_you_want_to_prase.com</url>
</type>


--------------------------------------------------------------------------------

然后在5.txt文件中设定好解析规则,就OK了。
...全文
456 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
extraction 2008-09-27
  • 打赏
  • 举报
回复
要搜集器,可以去乐思看看,专门做采集技术的
wyjsff 2008-09-26
  • 打赏
  • 举报
回复
诚聘IT兼职教师

北京思源培训中心诚聘既有教学经验又开发经验的兼职教师,
待遇优厚
兼职高级讲师若干
1. MS.NET讲师(主讲.NET 系列课程asp.net, C#)
2. JAVA讲师 (主讲JAVA,JSP,J2EE等)
3. MS SQL Server讲师(主讲MS SQL Server课程)
4. Oracle 讲师(主讲 Oracle 系列课程)
5.软件测试讲师(主讲软件测试课程)
5. VC++讲师 (主讲VC++,C++等)
6. LINUX/UNIX讲师(主讲LINUX / UNIX 系列课程)
7.IBM Aix /SUN Solaris讲师(主讲系统管理和维护)
8. Office讲师(精通办公软件)
9.Ajax讲师(主讲程序设计和WEB高级开发)
10.3DMax讲师(主讲 3DMax 基础和建模)
11.应用服务器weblogic/jboss/websphere
12.CCNA,CCNP,CCSP,CCIE 网络信息安全技术讲师
13.中间件(Weblogic,Websphere,eclipse等)讲师
联系方式:abc@ciitc.com QQ:174629429 MSN:bjcosun@hotmail.com

网址:http://www.ciitc.com


yeah920 2007-04-12
  • 打赏
  • 举报
回复
uppp

256

社区成员

发帖
与我相关
我的任务
社区描述
其他产品/厂家
社区管理员
  • 其他
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧