(去除html标签)跳过错误继续运行

liuqinglei6666 2009-10-15 11:22:14

　　
我用下面的方法来得到html源代码接着去除html标签之后的txt文本：



private void button1_Click(object sender, EventArgs e)

        {

            string filename = @"揭开人类说谎的真相————不说谎 人类就会灭绝？_海底菜園.htm";

            string html = null;

            HTMLDocumentClass hd = new HTMLDocumentClass();

            IHTMLDocument2 doc2 = hd;

            StreamReader sr = new StreamReader((System.IO.Stream)File.OpenRead(filename),System.Text.Encoding.Default);

            string html = sr.ReadToEnd();//得到html代码

            sr1.Close();

            doc2.write(html);//这一句会出错，弹出一个对话框，

 //提示：运行期间错误，未找到对象，问是否需要调试，如果点不的话程

 //序就会继续运行，而且会得到去除掉html标签的文本，效果非常好如 

 //果点是的话，会看到例如loadCSS(）这样的代码，但又不全是loadCSS，

 //总共错误提示一般会出现五次以内

            doc2.close();

            HTMLDocumentClass document = (HTMLDocumentClass)doc2;

            textBox1.Text = document.documentElement.innerText;

　　　　}

如上代码，如果能跳过所说错误，运行结果就比较完美，而且速度也比较快
可是要怎么样才能跳过这些烦人的错误呢，各位高人不吝赐教下哈

...全文

140 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

liuqinglei6666 2009-10-16

打赏
举报

回复

creatdocumentfromurl()这个方法速度会比较慢，因为这个方法就相当于打开了浏览器

hsbhljl 2009-10-15

打赏
举报

回复

学习了

wanbotang 2009-10-15

打赏
举报

回复

应该有个 createDocumentfromURL（）方法。

wanbotang 2009-10-15

打赏
举报

回复

换用 IHTMLDocument4，
有可能是 IHTMLDocument2 不支持网页中的某些元素。

JavaWeb 一、html 1、创建HTML文件 bgcolor:背景颜色 onclick:点击事件 alert():警告函数 </br>:换行 1.1 双标签: <p></p> 1.2 单标签 </br> 1.3 标签不能交叉嵌套 1.4 font标签 <!--font标签 font标签是字体标签，可以修改文本的颜色，大小，字体 color：修改颜色 fase：修改字体 size：大小 -

Latex排版全解 LATEX（英语发音：/ˈleɪtɛk/ LAY-tek或英语发音：/ˈlɑːtɛk/ LAH-tek，音译“拉泰赫”），是一种基于TEX的排版系统，由美国电脑学家莱斯利•兰伯特在20世纪80年代初期开发，利用这种格式，即使用户没有排版和程序设计的知识也可以充分发挥由TEX所提供的强大功能。对于生成复杂表格和数学公式，这一点表现得尤为突出。因此它非常适用于生成高印

有些时候，在你安装、运行某个软件，可能会得到这样一个错误提示： Microsoft Visual C++ Runtime Library Runtime Error! 可能的情况是：一、系统的运行库比较旧，而软件需要的是更新版本的运行库；或者系统里根本就没有软件需要的运行库；二、系统的运行库损坏的说；三、软件需要的运行库与系统的语言版本不一致。如图零、查毒杀毒，清理系统插件；一、如果是...

// 过滤HTML标签- (NSString *)flattenHTML:(NSString *)html { NSScanner *theScanner; NSString *text = nil; theScanner = [NSScanner scannerWithString:html]; while ([theScanner isAtEnd] == N

第1章Html Html：超级文本标记语言（HyperText Markup Language），在浏览器上运行的一种标记语言。就是给文本加上含有语义的标签。接下来应该学习更多具体语义标签：一、结构（固定的结构） <html> <head> <title></title> </head> <bod...

110,538

社区成员

642,577

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章