技术求助帖,关于python爬虫的

moqiluo 2017-10-17 08:13:42
网址:http://zhongyaocai360.com/a/ainaxiang.html#6104

问题描述:
想要爬取功能主治那一块的信息,具体需要的是第一个句号之前的信息,就是图中圈中的部分。但是查看网页源码,发现句号是直接写在网页上的,处在结点之间,如下图,请问有什么方法可以定位吗?
...全文
169 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
sanGuo_uu 2017-10-18
  • 打赏
  • 举报
回复
这个不需要什么思路嘛。 个人本事有限,正则分了2个写(感觉用一个就能实现)
txt="""
<div class="gnzzp"><p class="zz"><a href="/zhuzhi/" target="_blank">【功能主治】</a><a class="zyzz" target="_blank" href="/zhuzhi/qufeng.html" title="中药主治:祛风">祛风</a><a target="_blank" href="/zhuzhi/chushi.html" title="中药主治:除湿">除湿</a>;<a target="_blank" href="/zhuzhi/wenzhong.html" title="中药主治:温中">温中</a><a class="zyzz" target="_blank" href="/zhuzhi/zhixie-2.html" title="中药主治:止泻">止泻</a>;<a class="zyzz" target="_blank" href="/zhuzhi/huoxuejiedu.html" title="中药主治:活血解毒">活血解毒</a>。主<a class="zyzz" target="_blank" href="/zhuzhi/fenghanganmao.html" title="中药主治:风寒感冒">风寒感冒</a>;<a class="zyzz" target="_blank" href="/zhuzhi/toufengtoutong.html" title="中药主治:头风头痛">头风头痛</a>;<a class="zyzz" target="_blank" href="/zhuzhi/fengshibitong.html" title="中药主治:风湿痹痛">风湿痹痛</a>;寒湿泻<a class="zyzz" target="_blank" href="/zhuzhi/li.html" title="中药主治:痢">痢</a>;寸白虫病;<a class="zyzz" target="_blank" href="/zhuzhi/dusheyaoshang.html" title="中药主治:毒蛇咬伤">毒蛇咬伤</a>;<a class="zyzz" target="_blank" href="/zhuzhi/diedashangtong.html" title="中药主治:跌打伤痛">跌打伤痛</a>;<a target="_blank" href="/zhuzhi/xuan.html" title="中药主治:癣">癣</a><a class="zyzz" target="_blank" href="/zhuzhi/chuang.html" title="中药主治:疮">疮</a></p></div><!--div gnzz end--><div class="gnzz-more"><script type="text/javascript" src="/all/gnzz-m.js"></script></div><p>【用法用量】内服:煎汤,10-15g,鲜品加倍。外用:适量,煎水洗;或捣敷。</p><p>【注意】阴虚血热者慎用。</p><p>【附方】<a target="_blank" 
"""
import re
#取出【功能主治】~句号
patt=re.compile(r'【功能主治】</a>(.*?)。',re.S)
#取出非html标签内容
patt2=re.compile(r'.*?>(.*?)<.*?',re.S)
zzr=patt.findall(txt)
for item in zzr:
	zz=patt2.findall(item)
	print(''.join(zz))#祛风除湿;温中止泻;活血解毒
#print(zzr)
moqiluo 2017-10-18
  • 打赏
  • 举报
回复
快来个技术牛人给个思路啊 ,不用给出代码的。 我自己还有另外一个想法,就是把整个网页爬下来后转化成纯文本格式的,然后再进行纯文本处理,但是那样感觉挺麻烦的....

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧