关于解析网页的问题

AdenPlus 2005-07-25 04:21:58
我想问一下各位大大,到底是用IE的COM接口解析好, 还是自己通过http拿到网页源码用正则表达式解析好,两者各有何利弊?
...全文
405 点赞 收藏 11
写回复
11 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
boyplayee 2005-08-02
UP
回复
horisly 2005-07-28
mark.
回复
AdenPlus 2005-07-28
有一种情况,如果网页已经打开浏览器里打开,我还要再建立一个Http连接取Html文件,是不是有点傻,有没有比较智能的方法,就是如果一个网页在浏览器里被打开,我就从IE的Com接口里取,如果没打开,我就自己建立Http链接取回Html文件再用正则表达式搜索?

还有用正则表达式搜索里面的字符串对于Javascript、VBScript和JScript里的链接是不是一样可以拿的到呢?这里面的链接不一定是Href开头的啊?
回复
AntonlioX 2005-07-27
《如何提取网页中所有链接》
http://www.vckbase.com/document/viewdoc/?id=646

===========================
见过“网际快车”的“使用网际快车下载全部链接”这个功能吗?想实现它,我们可以这样做:
IE有几个有用的接口,我们可以用它来提取网页所有链接。

一、基本原理

首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网页的所有链接了!

二、具体代码

{
TCHAR HostName[2*MAX_PATH];
CComPtr<IDispatch> spDispatch;
CComQIPtr<IHTMLDocument2, &IID_IHTMLDocument2> pDoc2;
CComPtr<IHTMLElementCollection> pElementCol;
CComPtr<IHTMLAnchorElement> pLoct;
// TODO: Add your control notification handler code here
int n = m_LinksList.GetItemCount();//GetCount();

for (int i = 0; i < n; i ++){
IWebBrowser2 *pBrowser = (IWebBrowser2 *)m_LinksList.GetItemData(i);
if (pBrowser){
pBrowser->Release();
}
}

m_LinksList.DeleteAllItems();
m_LinksNum = 0;
Log("**************************************************************");
Log("\r\n");

if (m_spSHWinds){
int n = m_spSHWinds->GetCount();
for (int i = 0; i < n; i++){
_variant_t v = (long)i;
IDispatchPtr spDisp = m_spSHWinds->Item(v);


SHDocVw::IWebBrowser2Ptr spBrowser(spDisp); //生成一个IE窗口的智能指针
if (spBrowser){

if (SUCCEEDED(spBrowser->get_Document( &spDispatch)))
pDoc2 = spDispatch;
if(pDoc2!=NULL)
{
if (SUCCEEDED(pDoc2->get_links(&pElementCol)))
{
// AfxMessageBox("IHTMLElementCollection");
long p=0;
if(SUCCEEDED(pElementCol->get_length(&p)))
if(p!=0)
{
m_LinksNum = m_LinksNum+p;
UpdateData(FALSE);

for(long i=0;i<=(p-1);i++)
{

BSTR String;
_variant_t index = i;
if(SUCCEEDED(pElementCol->item( index, index, &spDispatch)))
if(SUCCEEDED(spDispatch->QueryInterface( IID_IHTMLAnchorElement,(void **) &pLoct)))

pLoct->get_href(&String);
ZeroMemory(HostName,2*MAX_PATH);
lstrcpy(HostName,_bstr_t(String));
m_LinksList.InsertItem(i,HostName);
m_LinksList.SetCheck(i,TRUE);

pLoct->get_hostname(&String);
ZeroMemory(HostName,2*MAX_PATH);
lstrcpy(HostName,_bstr_t(String));
if(lstrlen(HostName))
{
m_LinksList.SetItemText(i,1,HostName);
Log(HostName );
Log("\r\n");
}

}
}
}

}

}
}
}
}
本程序在VC7+WINXP下编译通过,详细请看源代码!
回复
AntonlioX 2005-07-27
我想起来了 vckbase里面有个文章讲到了这个 我来找找
回复
AntonlioX 2005-07-27
如果只是提取 连接 那就不要这么麻烦啊 你得到html文件后 用正则表达式搜索里面的字符串
回复
AdenPlus 2005-07-27
我的目的仅仅是提取网页里的链接的话,是不是不用浏览器控件的文档解析就不能得到DHTML里面的网页链接,是吗?
回复
蒋晟 2005-07-26
如果一个网页已经在本进程创建的浏览器控件里被打开,从浏览器控件的文档解析会比较快。
自己解析HTML可以,但是DHTML你怎么解析?自己写Javascript、VBScript和JScript引擎?
回复
AntonlioX 2005-07-25
没搞过 帮你顶
回复
AdenPlus 2005-07-25
会不会IE的COM解析的比较全面,自己解析有些会漏掉?

还有如果一个网页已经在浏览器里被打开,用IE的COM解析会比较快,如果自己解析的话是不是还要读IE的缓存啊?
回复
saucer 2005-07-25
这完全取决于你的目的是什么,引入浏览器控件一般是比较重的做法, 但如果你的程序本身已经使用了浏览器控件或者你需要对网页内容做细致周全的分析,那么采取前者,但如果你的目的就是获取网页里的一些数据,那应该采用后者
回复
相关推荐
发帖
HTML/XML
创建于2007-09-28

3055

社区成员

VC/MFC HTML/XML
申请成为版主
帖子事件
创建了帖子
2005-07-25 04:21
社区公告
暂无公告