(去除html标签)跳过错误继续运行

liuqinglei6666 2009-10-15 11:22:14
  
我用下面的方法来得到html源代码接着去除html标签之后的txt文本:

private void button1_Click(object sender, EventArgs e)
{
string filename = @"揭开人类说谎的真相————不说谎 人类就会灭绝?_海底菜園.htm";
string html = null;
HTMLDocumentClass hd = new HTMLDocumentClass();
IHTMLDocument2 doc2 = hd;
StreamReader sr = new StreamReader((System.IO.Stream)File.OpenRead(filename),System.Text.Encoding.Default);
string html = sr.ReadToEnd();//得到html代码
sr1.Close();
doc2.write(html);//这一句会出错,弹出一个对话框,
//提示:运行期间错误,未找到对象,问是否需要调试,如果点不的话程
//序就会继续运行,而且会得到去除掉html标签的文本,效果非常好如
//果点是的话,会看到例如loadCSS()这样的代码,但又不全是loadCSS,
//总共错误提示一般会出现五次以内
doc2.close();
HTMLDocumentClass document = (HTMLDocumentClass)doc2;
textBox1.Text = document.documentElement.innerText;
    }


如上代码,如果能跳过所说错误,运行结果就比较完美,而且速度也比较快
可是要怎么样才能跳过这些烦人的错误呢,各位高人不吝赐教下哈
...全文
140 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
liuqinglei6666 2009-10-16
  • 打赏
  • 举报
回复
creatdocumentfromurl()这个方法速度会比较慢,因为这个方法就相当于打开了浏览器
hsbhljl 2009-10-15
  • 打赏
  • 举报
回复
学习了
wanbotang 2009-10-15
  • 打赏
  • 举报
回复
应该有个 createDocumentfromURL()方法。
wanbotang 2009-10-15
  • 打赏
  • 举报
回复
换用 IHTMLDocument4,
有可能是 IHTMLDocument2 不支持网页中的某些元素。

110,538

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧