110,533
社区成员
发帖
与我相关
我的任务
分享
<h3 class="r"><a href="http://homepage.yesky.com/50/30000550.shtml" target=_blank class=l onmousedown="return rwt(this,'','','','4','AFQjCNGc1U58KCj6JAJ3Wz5OepAxpRBGcg','','0CEMQFjAD',null,event)">Google正在<em>测试</em>新版<em>搜索结果</em>页面_天极网</a></h3><div class="s"><div class="f kv"><cite><span class=bc>homepage.yesky.com › <a href="/url?url=http://soft.yesky.com/&rct=j&sa=X&ei=e1VDT96KGonBiQe4zqHyBA&ved=0CEQQ6QUoADAD&q=%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&usg=AFQjCNHNhNsJ0m5FeOIQ5-X9C9tuzXhyZg" target=_blank>软件频道</a> › <a href="/url?url=http://homepage.yesky.com/&rct=j&sa=X&ei=e1VDT96KGonBiQe4zqHyBA&ved=0CEUQ6QUoATAD&q=%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&usg=AFQjCNG-eWcHyoQFobh-s8IiPEXUHQnR3w" target=_blank>网页陶吧</a></span></cite><span class=gl> - <a href="http://webcache.googleusercontent.com/search?q=cache:qJBBIFYWfzgJ:homepage.yesky.com/50/30000550.shtml+%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&cd=4&hl=zh-CN&ct=clnk" target=_blank onmousedown="return rwt(this,'','','','4','AFQjCNF7yJiUekssv9GGMzDmwG_p4zA05g','','0CEcQIDAD',null,event)">网页快照</a></span><span class=vshid></span></div><div class="esc slp" id="poS3" style="display:none">您已公开地对此项 +1。 <a href="#" class="fl">撤消</a></div><span class="st"><span class="f">2011年5月9日 – </span>消息人士透露,Google正在<em>测试</em>一个全新的<em>搜索结果</em>页面,该页面目前仍然处于<em>测试</em><wbr>阶段,Google对此十分重视。<br></span></div></div><!--n--></li><!--m--><li class="g"><div class="vsc" pved="0CEkQkgowBA" sig="-cL">
<h3 class="r"><a href="http://homepage.yesky.com/50/30000550.shtml" target=_blank class=l onmousedown="return rwt(this,'','','','4','AFQjCNGc1U58KCj6JAJ3Wz5OepAxpRBGcg','','0CEMQFjAD',null,event)">Google正在<em>测试</em>新版<em>搜索结果</em>页面_天极网</a></h3><div class="s"><div class="f kv"><cite><span class=bc>homepage.yesky.com › <a href="/url?url=http://soft.yesky.com/&rct=j&sa=X&ei=e1VDT96KGonBiQe4zqHyBA&ved=0CEQQ6QUoADAD&q=%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&usg=AFQjCNHNhNsJ0m5FeOIQ5-X9C9tuzXhyZg" target=_blank>软件频道</a> › <a href="/url?url=http://homepage.yesky.com/&rct=j&sa=X&ei=e1VDT96KGonBiQe4zqHyBA&ved=0CEUQ6QUoATAD&q=%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&usg=AFQjCNG-eWcHyoQFobh-s8IiPEXUHQnR3w" target=_blank>网页陶吧</a></span></cite><span class=gl> - <a href="http://webcache.googleusercontent.com/search?q=cache:qJBBIFYWfzgJ:homepage.yesky.com/50/30000550.shtml+%E6%B5%8B%E8%AF%95%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C&cd=4&hl=zh-CN&ct=clnk" target=_blank onmousedown="return rwt(this,'','','','4','AFQjCNF7yJiUekssv9GGMzDmwG_p4zA05g','','0CEcQIDAD',null,event)">网页快照</a></span><span class=vshid></span></div><div class="esc slp" id="poS3" style="display:none">您已公开地对此项 +1。 <a href="#" class="fl">撤消</a></div><span class="st"><span class="f">2011年5月9日 – </span>消息人士透露,Google正在<em>测试</em>一个全新的<em>搜索结果</em>页面,该页面目前仍然处于<em>测试</em><wbr>阶段,Google对此十分重视。<br></span></div></div><!--n--></li><!--m--><li class="g"><div class="vsc" pved="0CEkQkgowBA" sig="-cL">
string tempStr = File.ReadAllText(@"C:\Users\dell\Desktop\Test.txt",Encoding.GetEncoding("gb2312"));//读取文档
string pattern = @"(?i)(?<=<h3[^>]+class=['""]?r[^>]*>)[\s\S]*?<a[^>]+href=(['""]?)([^'""]+)\1[^>]*>((?:(?!</a>).)*)[\s\S]*?</h3>[\s\S]*?<span[^>]*class=\1st\1[^>]*>((?:(?!(?:((/?<br>))?</span>)).)*)";
foreach (Match m in Regex.Matches(tempStr, pattern))
{
//循环输出
string output = m.Value;
string href = m.Groups[2].Value;
/*
* http://www.sowang.com/search/meta_search.htm
*/
string title = m.Groups[3].Value;
/*
* 中文<em>元搜索引擎</em>-- 中文搜索引擎指南网
*/
string description = m.Groups[4].Value;
/*
* <em>元搜索引擎</em>,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索 <b>...</b>
*/
}
string tempStr = File.ReadAllText(@"C:\Users\dell\Desktop\Test.txt",Encoding.GetEncoding("gb2312"));//读取文档
string pattern = @"(?<=<h3[^>]+class=['""]?t[^>]*>)[\s\S]*?<a[^>]+href=(['""]?)([^'""]+)\1[^>]*>((?:(?!</a>).)*)[\s\S]*?</h3>[\s\S]*?<font[^>]*>[\s\S]*?((?:(?!(?:(</?br>))?<span[^>]*class=\1g\1).)*)";
foreach (Match m in Regex.Matches(tempStr, pattern))
{
//循环输出
string output = m.Value;
string href = m.Groups[2].Value;
/*
* http://www.se-express.com/about/about1.htm
*/
string title = m.Groups[3].Value;
/*
* <em>搜索引擎</em>分类≡三种主要<em>搜索引擎</em>种类
*/
string description = m.Groups[4].Value;
/*
* 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和<em>元搜索引擎</em>(Meta Search ...
*/
}