社区
基础编程
帖子详情
如何获取网页标签内的内容啊 ??
lonelyriver
2010-07-12 11:55:02
比如说 <div class="info">…………………………</div>这对标签内的内容
不过这个div里面有多个div嵌套
要用到正则吗??
先用file_get_contents()获取到网页内容,然后用正则匹配截取吗??
有没有可以直接获取的方法呢??
...全文
450
13
打赏
收藏
如何获取网页标签内的内容啊 ??
比如说 …………………………这对标签内的内容 不过这个div里面有多个div嵌套 要用到正则吗?? 先用file_get_contents()获取到网页内容,然后用正则匹配截取吗?? 有没有可以直接获取的方法呢??
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
13 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Coder_Granger
2010-07-13
打赏
举报
回复
[Quote=引用 12 楼 lonelyriver 的回复:]
引用 11 楼 standford 的回复:
里面有好多DIV标签的最好用DOM,以下是一个例子:<?xml version="1.0" encoding="gb2312"?>
<books>
<book>
<author>aa</author>
<title>bb</title>
<publisher>cc</publisher>
</book>
</books>
……
[/Quote]
html一样是dom结构
lonelyriver
2010-07-13
打赏
举报
回复
[Quote=引用 11 楼 standford 的回复:]
里面有好多DIV标签的最好用DOM,以下是一个例子:<?xml version="1.0" encoding="gb2312"?>
<books>
<book>
<author>aa</author>
<title>bb</title>
<publisher>cc</publisher>
</book>
</books>
p.php内容
<?php
$doc = ne……
[/Quote]
用dom?我说的是html啊 不是xml
standford
2010-07-13
打赏
举报
回复
里面有好多DIV标签的最好用DOM,以下是一个例子:<?xml version="1.0" encoding="gb2312"?>
<books>
<book>
<author>aa</author>
<title>bb</title>
<publisher>cc</publisher>
</book>
</books>
p.php内容
<?php
$doc = new DOMDocument();
$doc->load( 'x.xml' );
$books = $doc->getElementsByTagName( "book" );
foreach( $books as $book )
{
$authors = $book->getElementsByTagName( "author" );
$author = $authors->item(0)->nodeValue;
$publishers = $book->getElementsByTagName( "publisher" );
$publisher = $publishers->item(0)->nodeValue;
$titles = $book->getElementsByTagName( "title" );
$title = $titles->item(0)->nodeValue;
echo "$title - $author - $publisher\n";
}
?>
jianglin28290
2010-07-12
打赏
举报
回复
使用正则匹配字符串
chinajoy2012
2010-07-12
打赏
举报
回复
正则吧
qqshenyunzcz
2010-07-12
打赏
举报
回复
jQuery 不是有个html()方法吗?
dld11111
2010-07-12
打赏
举报
回复
php只能那样了吧
Coder_Granger
2010-07-12
打赏
举报
回复
尽量用处理dom结构的方式获取内容,
正则是万不得已的时候才用的。
CunningBoy
2010-07-12
打赏
举报
回复
正则匹配
如果网页内容是你自己的话,可以在网页上用Ajax提交<div>中的内容给PHP处理。
Dleno
2010-07-12
打赏
举报
回复
字符串里有明显的开始和结尾来区分的,就用正则。
如果比较模糊的那种就用dom xpath来。
如:
****************<div class='1'><div><div><div><div><div><div><div>
<div>gdgfdgdfgfd</div>
<div>gdgfdgdfgfd</div>
<div>gdgfdgdfgfd</div>
<div>gdgfdgdfgfd</div>
</div></div></div></div></div></div></div></div>******************
$dom = new DOMDocument();
$dom->loadHTML( $str );
$xpath = new DOMXPath( $dom );
$el = $xpath->query("//html/body/div[@class='1']");
dingyiding
2010-07-12
打赏
举报
回复
还真不会啊
foolbirdflyfirst
2010-07-12
打赏
举报
回复
php正则没有引入平衡组,其递归能力偏弱,能用dom就用dom吧.
床上等您
2010-07-12
打赏
举报
回复
正则就可以了,不一定需要 dom 来处理。
如何用Python
获取
网页
指定
内容
本文详细介绍了如何使用Python的requests和BeautifulSoup库抓取
网页
源代码,定位并提取'公司名'
标签
内容
,进而扩展到批量抓取多个
网页
的公司名称,适合初学者理解数据抓取的基本流程。
[java]通过
网页
class
获取
标签
内容
本文介绍了一种基于Java的简易
网页
爬虫设计方法,通过自定义CatHttp类实现了
网页
源代码的
获取
及解析,利用截取和列表读取方法提取特定class
标签
的
内容
,并展示了如何格式化输出视频标题、封面及链接。
Python 通过爬虫
获取
网页
内容
时去掉某一
标签
内容
本文介绍了一种从新浪财经
网页
中抓取文章
内容
而不包含【今日直播】模块的方法,通过使用Python的PyQuery库,实现了对指定
标签
的删除,从而干净地
获取
文章正文。
python爬虫用bs4
获取
标签
中间的文本
内容
以及
标签
里的属性
本文介绍了如何使用BeautifulSoup库解析HTML
标签
并提取
内容
及属性。通过get_text(), .string, .contents和.get()方法,可以方便地
获取
标签
内的文本、去除空格、提取属性值。例如,对于a
标签
的href属性,可以使用a.get('href')
获取
。此外,还提到通过.split()方法处理
标签
内文字与子
标签
间的来提取特定
内容
。
如何
获取
网页
里的
标签
文本
内容
本文介绍了如何在Python项目中使用lxml库抓取
网页
标签
内容
,包括文件命名、安装lxml、定位不同
标签
属性(如li元素、class和href)以及通过特定文本
内容
搜索。还提到
获取
网页
所有元素的方法,鼓励读者探索更多数据
获取
手段。,
基础编程
21,890
社区成员
140,338
社区内容
发帖
与我相关
我的任务
基础编程
从PHP安装配置,PHP入门,PHP基础到PHP应用
复制链接
扫一扫
分享
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章