python 正则表达式问题

lang071234 2011-09-05 05:23:03
想在如下的代码找出以下两句
也就是 "51分钟前:原来是cookies" 和 "userID" "requestToken" "_rtk"
这几项的数值。为方便观看。我把以下两句提出。

希望高手不吝惜赐教
<a ui-async="async" title="原来是cookies" href="http://status.renren.com/status?id=238100702">
51分钟前:原来是cookies
</a>
<param name="flashVars" value="userId=238100702&hasPlayed=1&requestToken=1497440954&_rtk=25022114" />

正式数据开始:

(正式数据太长有所删减.此为renren.com 登陆 request 数据.~)

<div id="publisher-photo-box" class="publisher-photo-box" style="display:none">
<article id="publisher-photo" class="publisher-photo">
<section>
<div class="uploading-module" style="display:none">
<p><img src="http://xnimg.cn/n/res/icons/indicator.gif" width="16" height="16" />正在上传,请稍候...</p>
</div>
<div class="success-module" style="display:none">
<p><img src="http://xnimg.cn/n/res/icons/right.png" /> 发布成功!</p>
</div>
<div class="photo-info-box" style="display:none">
</div>
</section>
</article>
</div>

<div id="publisher-status-box" class="publisher-status-box" data-publishtogroupsapi="http://shell.renren.com/238100702/channel">
<article id="publisher-status" class="publisher-status">
<section>
<div class="editor-box">
<form class="status-publisher" action="http://shell.renren.com/238100702/status" method="post">
<div class="status-inputer">
<textarea name="content" class="status-content" required="required" placeholder="你正在干嘛?"></textarea>
<input name="isAtHome" type="hidden" value="1" />
<div class="chars-info" style="display:none"><span class="chars-remain">140</span></div>
<div class="status-actions">
<a class="publish-to-button" style="display:none" href="#publish-to">全站</a>
<input class="submit" style="display:none" type="submit" value="发布" />
</div>
<div class="status-toolbar" style="display:none">
<a class="emotion-button" href="#emotion">表情</a>
<a class="at-button" href="#at">点名</a>
</div>
</div>
<div class="last-status">

<a ui-async="async" title="原来是cookies" href="http://status.renren.com/status?id=238100702">
51分钟前:原来是cookies
</a>

</div>
<div class="publish-to-panel-box" style="display:none">
</div>
</form>
</div>
</section>
</article>
</div>

</div>

</div>

</div>



<div id="pvzMain" style="display:none">
<object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=10,0,0,0" width="540" height="130" id="pvzMainFlash" align="middle">
<param name="allowScriptAccess" value="always" />
<param name="allowFullScreen" value="false" />
<param name="movie" value="http://a.xnimg.cn/swf/pvz/pvz3.swf" />
<param name="flashVars" value="userId=238100702&hasPlayed=1&requestToken=1497440954&_rtk=25022114" />
<param name="quality" value="high" />
<param name="wmode" value="transparent" />
<embed src="http://a.xnimg.cn/swf/pvz/pvz3.swf" quality="high" wmode="transparent" width="540" height="130" name="pvzMainFlash" align="middle" allowScriptAccess="always" allowFullScreen="false" flashVars="userId=238100702&hasPlayed=1&requestToken=1497440954&_rtk=25022114" type="application/x-shockwave-flash" pluginspage="http://www.adobe.com/go/getflashplayer_cn" />
</object>
</div>
<input type="hidden" value="" id="pvzInviteUrl" />


<script type="text/javascript">// <![CDATA[
XN.DOM.ready(function(){
announcement_show('notice_system','238100702')
...全文
167 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
lang071234 2011-09-06
  • 打赏
  • 举报
回复
[Quote=引用 11 楼 yby4769250 的回复:]
引用 10 楼 lang071234 的回复:
引用 8 楼 yby4769250 的回复:
最近正好做了个网页抓数据的工具,也是用了python的正则表达式,你这个并不难,给你下面两个式子吧
我测试通过的:

Python code

re.findall('\<a.*?>\n*(.*)\n*\</a>',s) #提取cookie值
re.findall('\<param.*?u……
[/Quote]

大牛还需要分么··HO····要不大牛你多给我些例程..教会我···我分还有好多的····
yby4769250 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 10 楼 lang071234 的回复:]
引用 8 楼 yby4769250 的回复:
最近正好做了个网页抓数据的工具,也是用了python的正则表达式,你这个并不难,给你下面两个式子吧
我测试通过的:

Python code

re.findall('\<a.*?>\n*(.*)\n*\</a>',s) #提取cookie值
re.findall('\<param.*?userId\=(.*?)&amp;.*?r……
[/Quote]

哎哎艾艾,我的分啊,那可是100大洋呐
lang071234 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 yby4769250 的回复:]
最近正好做了个网页抓数据的工具,也是用了python的正则表达式,你这个并不难,给你下面两个式子吧
我测试通过的:

Python code

re.findall('\<a.*?>\n*(.*)\n*\</a>',s) #提取cookie值
re.findall('\<param.*?userId\=(.*?)&.*?requestToken\=(.*?)&.*?_r……
[/Quote]

大牛··我结错贴了····还以为你和他是一个·人··没给你分···辛苦你了·大牛·~~~
lang071234 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 yby4769250 的回复:]
最近正好做了个网页抓数据的工具,也是用了python的正则表达式,你这个并不难,给你下面两个式子吧
我测试通过的:

Python code

re.findall('\<a.*?>\n*(.*)\n*\</a>',s) #提取cookie值
re.findall('\<param.*?userId\=(.*?)&.*?requestToken\=(.*?)&.*?_r……
[/Quote]
我爱死你了·大牛·~~~
yby4769250 2011-09-05
  • 打赏
  • 举报
回复
最近正好做了个网页抓数据的工具,也是用了python的正则表达式,你这个并不难,给你下面两个式子吧
我测试通过的:

re.findall('\<a.*?>\n*(.*)\n*\</a>',s) #提取cookie值
re.findall('\<param.*?userId\=(.*?)&.*?requestToken\=(.*?)&.*?_rtk\=(.*?)"',s) #属性
iambic 2011-09-05
  • 打赏
  • 举报
回复
for x in re.findall(...):
print x
lang071234 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 iambic 的回复:]
引用 3 楼 iambic 的回复:
不知道你在问什么。
而且你连是python还是js都没说。

不好意思,刚看到标题里的python。
不知道你说的是不是这个意思:

Python code
re.findall(r'<a ui-async="async" [^<>]*>([^<>]*)</a>', html)
[/Quote]

大牛····我很菜···搞这点东西都是重头开头学的···搞了 3 4 天了····
lang071234 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 iambic 的回复:]
引用 3 楼 iambic 的回复:
不知道你在问什么。
而且你连是python还是js都没说。

不好意思,刚看到标题里的python。
不知道你说的是不是这个意思:

Python code
re.findall(r'<a ui-async="async" [^<>]*>([^<>]*)</a>', html)
[/Quote]
大牛我差不多看明白你的东西了···谢谢··

那个东西调用出来 是一个 list 吧?我怎么才能把list 的数据按照.gbk 输出啊?
iambic 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 iambic 的回复:]
不知道你在问什么。
而且你连是python还是js都没说。
[/Quote]
不好意思,刚看到标题里的python。
不知道你说的是不是这个意思:
 re.findall(r'<a ui-async="async" [^<>]*>([^<>]*)</a>', html)
iambic 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 lang071234 的回复:]
高手我如何调用这个数据 group ?
[/Quote]
不知道你在问什么。
而且你连是python还是js都没说。
lang071234 2011-09-05
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 iambic 的回复:]
<a ui-async="async" [^<>]*>[^<>]*</a>
[/Quote]

高手我如何调用这个数据 group ?
iambic 2011-09-05
  • 打赏
  • 举报
回复
<a ui-async="async" [^<>]*>[^<>]*</a>

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧