怎样抓取 Html 中的文本(去掉所有的Html格式标记后的文本,也就是在网页上看到的文本)

Terark-CTO-雷鹏
博客专家认证
2005-01-19 10:05:04
怎样抓取 Html 中的文本(去掉所有的Html格式标记后的文本,也就是在网页上看到的文本)
...全文
419 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
Featured 2005-03-05
  • 打赏
  • 举报
回复
mark
蒋晟 2005-02-21
  • 打赏
  • 举报
回复
void CVoteDlg::OnDocumentComplete(LPCTSTR lpszURL,BOOL bEqualWebBrowser)
{
// user will override to handle this notification
CString strURL(lpszURL);
if(bEqualWebBrowser==FALSE)return;
TRACE(_T("DocumentComplet %s\r\n"),lpszURL);
LPDISPATCH pDocument=GetHtmlDocument();
if(pDocument)
{
CComQIPtr<IHTMLDocument2> pDoc2(pDocument);
pDocument->Release();
if(pDoc2)
{
USES_CONVERSION;
CComBSTR bstrTitle;
CComBSTR bstrCookie;
pDoc2->get_title(&bstrTitle);
pDoc2->get_cookie(&bstrCookie);
CString strTitle=OLE2T(bstrTitle);
CString strCookie=OLE2T(bstrCookie);
TRACE(_T("Cookie:%s\r\n"),strCookie);
BOOL bNavigateFail=FALSE;
POSITION pos=m_lstrNavigationFailedTitle.GetHeadPosition();
while(pos)
{
CString strNavigationFailedTitle=m_lstrNavigationFailedTitle.GetNext(pos);
if(strTitle.Find(strNavigationFailedTitle)!=-1)
bNavigateFail=TRUE;

}
if(!bNavigateFail)
{
if(strURL.Find(m_strVoteURL))>=0)
{
Vote(pDoc2);
return;
}
if(strURL.Find(m_strVoteResultURL))>=0)
{
CComBSTR bstrBody;
CComPtr<IHTMLElement> pBody;
pDoc2->get_body(&pBody);
if(pBody)
{
pBody->get_innerText(&bstrBody);
CString strBody=OLE2T(bstrBody);
if(strBody.Find(_T("重复投票"))!=-1)
{
CString strProxy=m_astrProxies[m_iProxyIndex];
if(strProxy.IsEmpty())
strProxy=_T("N/A");
TRACE(_T("Used Proxy : %s \r\n"),strProxy);
}
}

}
}
// if(!RecreateWebBrowser())
// {
// EndDialog(IDCANCEL);
// }
ChangeProxy();
Navigate2(m_strVoteURL);
}
}
}
sj971059 2005-02-20
  • 打赏
  • 举报
回复
有没有高手能够把
HRESULT IHTMLElement::get_outerText(BSTR *p);
的example帖一下啊,,,不知道该如何用,MSDN的介绍太精简了.
sj971059 2005-02-20
  • 打赏
  • 举报
回复
upupupupup
lygfqy 2005-01-20
  • 打赏
  • 举报
回复
从标记语言的解释器入手!
roger_ding 2005-01-20
  • 打赏
  • 举报
回复
HRESULT IHTMLElement::get_outerText(BSTR *p);
evlon 2005-01-19
  • 打赏
  • 举报
回复
用正则吧!我用C#写了一个,可以参考一下:
http://blog.csdn.net/evlon/archive/2005/01/19/259321.aspx
ssailor 2005-01-19
  • 打赏
  • 举报
回复
忽略掉<和>之间的内容!
oyljerry 2005-01-19
  • 打赏
  • 举报
回复
可能需要用正则表达式了
解决CuteEditor内容的分离问题,去掉内容的"

3,055

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC HTML/XML
社区管理员
  • HTML/XML社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧