正则获取
间的数据

艾米01 2012-05-29 01:22:42

现在抓取到页面信息，需要只获取到想要的div元素和li元素间的天气信息数据，
<div class="weather_div" style="margin: 8px 2px;">
<div class="name">06月01日<br>星期五</div>
<div class="weather">
<ul class="ui_top">
<li class="day">白天</li>
<li class="icon"><div class="spritesweather" id="d04"></div></li>
<li class="temp font_high">高温26℃</li>
<li class="weather_desc">雷阵雨</li>
<li class="wind">微风</li>
</ul>
<ul class="ui_bottom">
<li class="day">夜晚</li>
<li class="icon"><div class="spritesweather" id="n04"></div></li>
<li class="temp">低温15℃</li>
<li class="weather_desc">雷阵雨</li>
<li class="wind">微风</li>
</ul>
</div>
</div>
请问这个正则该怎么写呢？

...全文

134 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

艾米01 2012-05-29

打赏
举报

回复

[Quote=引用 6 楼的回复:]

引用 5 楼的回复:

(?is)<div\sclass="weather_div"[^>]*>(?><div[^>]*>(?<o>)|</div>(?<-o>)|(?:(?!</?div\b).)*)*(?(o)(?!))</div>

weather_div 的引号不能这么写的吧~
[/Quote]
嗯知道了要是用@的话 "就必须用""来转义，不用@的话，用\"来转义~
多谢哦~

艾米01 2012-05-29

打赏
举报

回复

[Quote=引用 5 楼的回复:]

(?is)<div\sclass="weather_div"[^>]*>(?><div[^>]*>(?<o>)|</div>(?<-o>)|(?:(?!</?div\b).)*)*(?(o)(?!))</div>
[/Quote]

weather_div 的引号不能这么写的吧~

q107770540 2012-05-29

打赏
举报

回复

(?is)<div\sclass="weather_div"[^>]*>(?><div[^>]*>(?<o>)|</div>(?<-o>)|(?:(?!</?div\b).)*)*(?(o)(?!))</div>

艾米01 2012-05-29

打赏
举报

回复

就是 div 标签中class="weather_div"下面的ul标签里有class 的数据了

艾米01 2012-05-29

打赏
举报

回复

标签里面有天气信息的需要获取到~ 好比ul class="ui_top"> 和<ul class="ui_bottom">中白天和夜晚的下面子标签里的信息我要获取到~

q107770540 2012-05-29

打赏
举报

回复

总要有个规则吧

bdmh 2012-05-29

打赏
举报

回复

那先问一句，什么叫想要的，总要有个规则吧

<br><br><br>网页设置里面：<br>采集内容前后标记：<br>比如说都有 <div id="title">xxx</div>，如果我要采集xxx就写“<div id="title">到</div>”，意思，当然就是<div id="title">到</div>之间的内容啦。<br><br>...

本文实例讲述了php正则匹配html中带class的div并选取... <strong>潮汐表</strong>数据仅供参考 <table width=”500″ border=”0″ cellspacing=”0″ cellpadding=”0″> <tbody><tr> <td width=”100″>

如何获取指定的标签的内容是解析网页爬取数据的必要手段，比如想获取<div class=’xxx’> …<div>这样的div标签，通常有三种办法， 1）用字符串查找方法,然后切分字符串（或切片操作），如str.index(patternStr)或...

(div)([^<>]*)>/g` 是用来匹配`<div>`标签的，包括可选的斜杠（表示闭合标签）和任何数量的非`<`和`>`字符（这些可能是标签属性）。`g`标志表示全局匹配，意味着查找所有出现的`<div>`标签，而不仅仅是第一个。 `....

Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)"); File file = new File("overview.html"); FileWriter fileWriter = new FileWriter(new File("output.txt")); Scanner in = new Scanner...

.NET技术其他语言

1,979

社区成员

12,447

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章