谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件
谁能帮我编这个网页的“代理服务器收集器proxyCollector”的过滤文件
http://www.cz88.net/proxy/http_2.shtml
http://www.cz88.net/proxy/http_3.shtml
就差解析规则文件了,自己编的老是导入不了。可能里面的代码有点不对,请高手指点一二。
自定义解析规则
程序所在目录的conf子目录下有一个proxy.xml文件
结构很简单,如
PHP 代码:
--------------------------------------------------------------------------------
<type>
<file>1.txt</file>
<url>http://www.cybersyndrome.net/plr.html</url>
</type>
--------------------------------------------------------------------------------
一个<type>结点表示一种网页类型,有的网站有几个十页面,但类型都一样
<file>结点,表示解析这种类型网页的规则存在于1.txt文件中
<url>结点表示要解析的网页,可以有多个
再看看1.txt的内容
PHP 代码:
--------------------------------------------------------------------------------
regCate=([^☆]*)
regProxy=<li>.*?onMouseOver="s\\('(.*?)'\\)".*?class=".*?">(.*?):(.*?)</a></li>
countHost=2
countPort=3
countAddress=1
--------------------------------------------------------------------------------
"regCate="表示要解析网页哪部分的内容,一般就是分析整个网页
本来标准的正则表达式写法是(.*)的,但我用的java正则表示式包有点奇怪(.*)只能匹配到一行,所以我都写成([^☆]*)了
"regProxy="表示一个proxy信息的正则表达式,注意这里所分析的都是html的源代码
countHost,countPort,countAddress分别表示host,port,address是正则表达式中匹配到的第几个值
也就是说,如果你想自己加入某个网页的解析,可以在proxy.xml中加一段
PHP 代码:
--------------------------------------------------------------------------------
<type>
<file>5.txt</file>
<url>http://the_url1_you_want_to_prase.com</url>
<url>http://the_url2_you_want_to_prase.com</url>
</type>
--------------------------------------------------------------------------------
然后在5.txt文件中设定好解析规则,就OK了。