php如何抓取网页中的数据?

asd_123_456_789 2010-09-07 03:05:18
比如,一个网站上有关于人名,地址,电话号码,掌握的语言等数据.
我想用程序去抓取 语言掌握情况 这类信息,但是掌握的语言不止一种,可能是两种、三种!并把它们存起来.

请问各位高手,如何用PHP实现这一功能呢?最好直接给个代码看看!。
...全文
1959 21 打赏 收藏 转发到动态 举报
写回复
用AI写文章
21 条回复
切换为时间正序
请发表友善的回复…
发表回复
ghj902260 2011-04-13
  • 打赏
  • 举报
回复

PHP100的网站看看教程吧!
jiangchuan2009 2011-04-12
  • 打赏
  • 举报
回复
给你说思路了,你就要研究下去
上面已经给你说的很具体了!
研究下吧
小雨转晴 2011-04-12
  • 打赏
  • 举报
回复
一般都是Curl+正则,目前我在用java的一个开源的程序,楼主可以参考。
我的blog有关于这个使用的,是抓取火影忍者漫画的。
http://web-harvest.sourceforge.net/index.php
ghj902260 2011-04-06
  • 打赏
  • 举报
回复
读取远程的url
然后用正则匹配
得到结果
你可以存到数据库,或者文件中
VRHSL 2011-04-06
  • 打赏
  • 举报
回复
curl+正则
花括号MC 2011-04-06
  • 打赏
  • 举报
回复
看看正则表达式吧
elfine 2011-04-05
  • 打赏
  • 举报
回复
抓取网站的标题 的正则应该怎么写啊
officesay 2010-09-21
  • 打赏
  • 举报
回复
如果网页里面的重复项很多。正则能匹配出来吗
kaifadi 2010-09-20
  • 打赏
  • 举报
回复
CURL,百度一下,资料用法很多,正则就和PHP没傻关系了,任何语言都有!
我建议楼主可以自己多研究下,自己研究获得的东西一辈子都受用,而且还能提高自我解决问题的能力,如果在实际操作中遇到什么代码故障,再发帖出来讨论,这样更符合一个学者的精神!仅供参考,我多嘴了。呵呵!
shootblue 2010-09-20
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 asd_123_456_789 的回复:]

可不可以给个具体点儿的啊!说的这么简单,还是不明白!对php这方面基本上是一窍不通啊‘
能不能把用到的关于curl的代码写给俺看看!不胜感激!!!!!!!!!!
还有这个curl+正则可以直接用到火车头采集器的接口插件中把?
[/Quote]

http://www.php100.com/html/shipinjiaocheng/PHP100shipinjiaocheng/2010/0621/4795.html

http://www.php100.com/html/shipinjiaocheng/PHP100shipinjiaocheng/2010/0628/4848.html

这里有两个curl的视频教程,希望对你能有所帮助!
eros0405 2010-09-20
  • 打赏
  • 举报
回复
curl取数据,htmldom解析
码无边 2010-09-20
  • 打赏
  • 举报
回复
写正则!
minisee 2010-09-08
  • 打赏
  • 举报
回复
用字符串截取
hzhsky1985 2010-09-08
  • 打赏
  • 举报
回复
我记得你,之前问过火车头的。其实这段代码火车头可以截取的,当然,你利用crul+正则也可以,正则的参考4楼就可以了,不过好像<,"这些字符要转义的,自己多试试吧,输出来看看就知道了
asd_123_456_789 2010-09-08
  • 打赏
  • 举报
回复
</div>
<div id="Div4" class="content">

<div class="workExCom">英语:读写能力精通 | 听说能力熟练</div>

<div class="workExCom">韩语:读写能力一般 | 听说能力良好</div>

<div class="workExCom">德语:读写能力一般 | 听说能力一般</div>

</div>
我想取出英语 韩语 德语这三个词,用正则表达是怎么写?
用这种格式:
前字符串(?<content>[\s\S]*?)后字符串
niuzai369 2010-09-07
  • 打赏
  • 举报
回复
file_get_contents 
asd_123_456_789 2010-09-07
  • 打赏
  • 举报
回复
可不可以给个具体点儿的啊!说的这么简单,还是不明白!对php这方面基本上是一窍不通啊‘
能不能把用到的关于curl的代码写给俺看看!不胜感激!!!!!!!!!!
还有这个curl+正则可以直接用到火车头采集器的接口插件中把?
heyli 2010-09-07
  • 打赏
  • 举报
回复

<?php
$str = '<div id="Div3" class="modResumeInfo">
<div class="title" onclick="clickLabel(rsmEduExCt)">
<div class="dcrL dcrArrowGreen"></div>
<h3>外语能力</h3>
</div>
<div id="Div4" class="content">

<div class="workExCom">英语:读写能力精通 | 听说能力熟练</div>

<div class="workExCom">韩语:读写能力一般 | 听说能力良好</div>

<div class="workExCom">德语:读写能力一般 | 听说能力一般</div>

</div>
</div><!--modResumeInfo结束-->

<!--=====================================================================================-->';
preg_match_all('/<div class="workExCom">(.*):/',$str,$arr);
print_r($arr[1]);
?>


我正则也不好 大概就是这样
asd_123_456_789 2010-09-07
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 heyli 的回复:]
可用curl 或 file_get_contents
会读取目标网站的html代码 然后你要自己根据他的代码来写正则提取出你想要的
没有具体的网页不太好给例子
[/Quote]
还是不太明白啊!刚开始学,能不能解释详细点啊? 比如说我要抓取下边这个网页中的数据,但是我只要“英语”"韩语"“德语”这三个词,请问用php编程怎么写啊?
===================================================================================-->

<div id="Div3" class="modResumeInfo">
<div class="title" onclick="clickLabel(rsmEduExCt)">
<div class="dcrL dcrArrowGreen"></div>
<h3>外语能力</h3>
</div>
<div id="Div4" class="content">

<div class="workExCom">英语:读写能力精通 | 听说能力熟练</div>

<div class="workExCom">韩语:读写能力一般 | 听说能力良好</div>

<div class="workExCom">德语:读写能力一般 | 听说能力一般</div>

</div>
</div><!--modResumeInfo结束-->

<!--=====================================================================================-->
加载更多回复(1)

20,359

社区成员

发帖
与我相关
我的任务
社区描述
“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页。
phpphpstorm 技术论坛(原bbs)
社区管理员
  • 开源资源社区
  • phpstory
  • xuzuning
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧