Html源码中的反斜杠解析问题

bayou3 2013-12-29 10:19:31
我想解析一个新浪微博网页的源码,也就是在网页上我们点击“查看源码”得到的页面,部分如下:
<a href=\"http:\/\/weibo.com\/u\/2314569344\" title=\"jasminezs\" target=\"_blank\" suda-data=\"key=tblog_search_v4.1&value=:2314569344\">\n <img src=\"http:\/\/tp1.sinaimg.cn\/2314569344\/50\/40038951937\/0\" alt=\"jasminezs\" width=\"50\" height=\"50\" \/>\n <\/a>\n <\/dt>\n <dd class=\"content\">\n <p node-type=\"feed_list_content\">\n <a nick-name=\"jasminezs\" href=\"http:\/\/weibo.com\/u\/2314569344\" target=\"_blank\" title=\"jasminezs\" suda-data=\"key=tblog_search_v4.1&value=:2314569344\">jasminezs<a target=\"_blank\" href=\"http:\/\/club.weibo.com\/intro\"><img src=\"http:\/\/img.t.sinajs.cn\/t4\/style\/images\/common\/transparent.gif\" title= \"\u5fae\u535a\u8fbe\u4eba\" alt=\"\u5fae\u535a\u8fbe\u4eba\" class=\"ico_club\" node-type=\"daren\"\/><\/a><\/a>\uff1a<em><a class=\"a_topic\" href=\"http:\/\/huati.weibo.com\/k\/%E5%8C%97%E4%BA%AC%E5%9C%B0%E9%93%81%E8%B0%83%E4%BB%B7?from=526\" target=\"_blank\">#<span style=\"color:red;\">\u5317\u4eac\u5730\u94c1\u8c03\u4ef7<\/span>#<\/a>\u88ab\u4ea4\u901a\u5c40\u8822\u54ed\u4e86\u597d\u5417\uff1f\u6709\u6728\u6709\u641e\u9519\uff0c\u5730\u94c1\u8c03\u4ef7\u4f60\u8ba9\u82e6\u903c\u4e0a\u73ed\u65cf\u600e\u4e48\u6d3b\uff1f\uff01\u4e0d\u77e5\u9053\u73b0\u5728\u5317\u4eac\u96fe\u973e\u8fd9\u4e48\u4e25\u91cd\uff0c\u5730\u94c1\u8c03\u4ef7\u5f00\u8f66\u4eba\u4f1a\u66f4\u591a\uff0c\u516c\u4ea4\u4e5f\u4f1a\u53d7\u5f71\u54cd\u597d\u5417\uff1f\u4e00\u70b9\u611f\u53d7\u4e0d\u5230\u5927\u57ce\u5e02\u7684\u4eba\u6027\u3002\u3002\u3002\u7275\u4e00\u53d1\u800c\u52a8\u5168\u8eab\uff0c\u9a6c\u514b\u601d\u4e3b\u4e49\u6ef4\u8054\u7cfb\u7684\u89c2\u70b9\u90fd\u5b66\u54ea\u513f\u53bb\u4e86\uff1f\uff01\uff01\u3002\u3002\u3002\u3002sign\u3002\u3002\u3002\u3002over<\/em>\n <\/p>\n <p class=\"info W_linkb W_textb\">\n <span>\n

这里,<\/a>和<\/em>中的UTF-8信息时我要获取的,也就这一段“<\/a>\u88ab\u4ea4\u901a\u5c40\u8822\u54ed\u4e86\u597d\u5417\uff1f\u6709\u6728\u6709\u641e\u9519\uff0c\u5730\u94c1\u8c03\u4ef7\u4f60\u8ba9\u82e6\u903c\u4e0a\u73ed\u65cf\u600e\u4e48\u6d3b\uff1f\uff01\u4e0d\u77e5\u9053\u73b0\u5728\u5317\u4eac\u96fe\u973e\u8fd9\u4e48\u4e25\u91cd\uff0c\u5730\u94c1\u8c03\u4ef7\u5f00\u8f66\u4eba\u4f1a\u66f4\u591a\uff0c\u516c\u4ea4\u4e5f\u4f1a\u53d7\u5f71\u54cd\u597d\u5417\uff1f\u4e00\u70b9\u611f\u53d7\u4e0d\u5230\u5927\u57ce\u5e02\u7684\u4eba\u6027\u3002\u3002\u3002\u7275\u4e00\u53d1\u800c\u52a8\u5168\u8eab\uff0c\u9a6c\u514b\u601d\u4e3b\u4e49\u6ef4\u8054\u7cfb\u7684\u89c2\u70b9\u90fd\u5b66\u54ea\u513f\u53bb\u4e86\uff1f\uff01\uff01\u3002\u3002\u3002\u3002sign\u3002\u3002\u3002\u3002over<\/em>”。
可是我无法用正则匹配得到这一段,在处理中反斜杠问题不知道怎么解决。
因为如果把这一段赋给一个字符串,是会出错的,字符串中的\必须为\\。请问如何提取出我需要的这段文字呢?
...全文
839 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
bayou3 2013-12-30
  • 打赏
  • 举报
回复
汗!!!我知道是转义的作用。我问的是我这里如何匹配,也不要告诉我正则时用//,这个也是大家都知道的。 主要是这里如果把那一段原文放入字符串就会出现错误,然后匹配时也无法匹配到我要的内容,不知道怎么解决
tony4geek 2013-12-30
  • 打赏
  • 举报
回复
反斜杠 就是转义的作用啊。
bayou3 2013-12-30
  • 打赏
  • 举报
回复
引用 4 楼 cscript 的回复:
正则用 “<Va>([^<]+?)<Vem>” 另外楼主是用java解析还是js?
你好,我用的是java去解析 这里可以用你说的正则,比如: String pat = "<Va>([^<]+?)<Vem>"; 但这里要变成"<\\a>([^<]+?)<\\em>" 难点在于它不是V而是反斜杠 即使用我这里写这个正则,也有问题,原文中的那一大段如果我把它放到一个字符串中,是不被允许的,因为原文中有很多反斜杠,所以不知道要怎么做。
cscript 2013-12-30
  • 打赏
  • 举报
回复
正则用 “<Va>([^<]+?)<Vem>” 另外楼主是用java解析还是js?
tony4geek 2013-12-30
  • 打赏
  • 举报
回复
String s="<a href=\"http:\\/\\/weibo.com\\/u\\/2314569344\" title=\"jasminezs\" target=\"_blank\" suda-data=\"key=tblog_search_v4.1&value=:2314569344\">\n " +
				"<img src=\"http:\\/\\/tp1.sinaimg.cn\\/2314569344\\/50\\/40038951937\\/0\" alt=\"jasminezs\" width=\"50\" height=\"50\" \\/>\n  <\\/a>\n <\\/dt>\n <dd class=\"content\">\n  " +
				"<p node-type=\"feed_list_content\">\n <a nick-name=\"jasminezs\" href=\"http:\\/\\/weibo.com\\/u\\/2314569344\" target=\"_blank\" " +
				"title=\"jasminezs\" suda-data=\"key=tblog_search_v4.1&value=:2314569344\">jasminezs" +
				"<a target=\"_blank\" href=\"http:\\/\\/club.weibo.com\\/intro\">" +
				"<img src=\"http:\\/\\/img.t.sinajs.cn\\/t4\\/style\\/images\\/common\\/transparent.gif\" " +
				"title= \"\u5fae\u535a\u8fbe\u4eba\" alt=\"\u5fae\u535a\u8fbe\u4eba\" class=\"ico_club\" " +
				"node-type=\"daren\"\\/><\\/a><\\/a>\uff1a<em><a class=\"a_topic\" " +
				"href=\"http:\\/\\/huati.weibo.com\\/k\\/%E5%8C%97%E4%BA%AC%E5%9C%B0%E9%93%81%E8%B0%83%E4%BB%B7?from=526\" " +
				"target=\"_blank\">#<span style=\"color:red;\">\u5317\u4eac\u5730\u94c1\u8c03\u4ef7<\\/span>#" +
				"<\\/a>\u88ab\u4ea4\u901a\u5c40\u8822\u54ed\u4e86\u597d\u5417\uff1f\u6709\u6728\u6709\u641e\u9519\uff0c\u5730\u94c1" +
				"\u8c03\u4ef7\u4f60\u8ba9\u82e6\u903c\u4e0a\u73ed\u65cf\u600e\u4e48\u6d3b\uff1f\uff01\u4e0d\u77e5\u9053\u73b0\u5728\u5317\u4eac\u96fe\u973e\u8fd9\u4e48\u4e25\u91cd\uff0c\u5730\u94c1\u8c03\u4ef7\u5f00\u8f66\u4eba\u4f1a\u66f4\u591a\uff0c\u516c\u4ea4\u4e5f\u4f1a\u53d7\u5f71\u54cd\u597d\u5417\uff1f\u4e00\u70b9\u611f\u53d7\u4e0d\u5230\u5927\u57ce\u5e02\u7684\u4eba\u6027\u3002\u3002\u3002\u7275\u4e00\u53d1\u800c\u52a8\u5168\u8eab\uff0c\u9a6c\u514b\u601d\u4e3b\u4e49\u6ef4\u8054\u7cfb\u7684\u89c2\u70b9\u90fd\u5b66\u54ea\u513f\u53bb\u4e86\uff1f\uff01\uff01\u3002\u3002\u3002\u3002sign\u3002\u3002\u3002\u3002over<\\/em>\n  " +
				"<\\/p>\n <p class=\"info W_linkb W_textb\">\n <span>\n";
		Matcher m =Pattern.compile("#<\\\\/a>(.*?)<\\\\/em>").matcher(s);
		
		while(m.find()) { 
		     System.out.println(m.group(1)); 
		} 

//被交通局蠢哭了好吗?有木有搞错,地铁调价你让苦逼上班族怎么活?!不知道现在北京雾霾这么严重,地铁调价开车人会更多,公交也会受影响好吗?一点感受不到大城市的人性。。。牵一发而动全身,马克思主义滴联系的观点都学哪儿去了?!!。。。。sign。。。。over

81,090

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧