社区
VB基础类
帖子详情
用vb正则表达式过滤html标签
zhaoyifhq
2007-04-04 09:49:44
如题,
正则表达式不太会,急用,有会的联系我QQ80109663,
可以用了的,另外加Q币20个
要求是读取一个html文件,将html标签过滤掉,再保存成一个txt文件
我用的时候,问题一大堆,首先字母大小字给区分了,本应该不要区分的
还有标签中<>形式的都可以过滤过,不过有些是这样的
<--!<><>>标签中带标签的.........
...全文
658
8
打赏
收藏
用vb正则表达式过滤html标签
如题, 正则表达式不太会,急用,有会的联系我QQ80109663, 可以用了的,另外加Q币20个 要求是读取一个html文件,将html标签过滤掉,再保存成一个txt文件 我用的时候,问题一大堆,首先字母大小字给区分了,本应该不要区分的 还有标签中形式的都可以过滤过,不过有些是这样的 <--!>标签中带标签的.........
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hucnick
2007-04-15
打赏
举报
回复
楼主拿出来分享下代码啊
gzhoney
2007-04-05
打赏
举报
回复
哈哈,原来你在这里,我那贴还没时间结给你。。。。
CathySun118
2007-04-04
打赏
举报
回复
帮顶,要看具体要求
zhaoyifhq
2007-04-04
打赏
举报
回复
谢谢各位了,早上有位朋友用WEB控件写了一个,用是可以用,不过不太理想,呵呵,Q币还是给他了
下午自己琢磨一下,终于写出来了,哈哈.....
programart_life
2007-04-04
打赏
举报
回复
正则表达式语法
一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
这里有一些可能会遇到的正则表达式示例:
Visual Basic Scripting Edition VBScript 匹配
/^\[ \t]*$/ "^\[ \t]*$" 匹配一个空白行。
/\d{2}-\d{5}/ "\d{2}-\d{5}" 验证一个ID 号码是否由一个2位数字,一个连字符以及一个5位数字组成。
/<(.*)>.*<\/\1>/ "<(.*)>.*<\/\1>" 匹配一个 HTML 标记。
下表是元字符及其在正则表达式上下文中的行为的一个完整列表:
字符 描述
\ : 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 后向引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。
^ : 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。
$ : 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。
* : 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+ : 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? : 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}: n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,}: n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}: m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘, "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
. 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。
(pattern): 匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在Visual Basic Scripting Edition 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。
(?:pattern): 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies): 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern) 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如, 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern): 负向预查,在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
x|y : 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
[xyz]: 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz] :负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z] :字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]: 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b : 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B : 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\cx : 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\d : 匹配一个数字字符。等价于 [0-9]。
\D : 匹配一个非数字字符。等价于 [^0-9]。
\f : 匹配一个换页符。等价于 \x0c 和 \cL。
\n : 匹配一个换行符。等价于 \x0a 和 \cJ。
\r : 匹配一个回车符。等价于 \x0d 和 \cM。
\s : 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S : 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t : 匹配一个制表符。等价于 \x09 和 \cI。
\v : 匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w : 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W : 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn : 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如, '\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num : 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
\n : 标识一个八进制转义值或一个后向引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm : 标识一个八进制转义值或一个后向引用。如果 \nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
\nml : 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
\un : 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。
xiaolei1982
2007-04-04
打赏
举报
回复
<--![.]*-->|<[^>,^<]*>,首先楼主你这个<--!<><>>是不对的吧,注释应该是<--!<><>-->这样的吧,正则你测试一下吧
zhaoyifhq
2007-04-04
打赏
举报
回复
........
zhaoyifhq
2007-04-04
打赏
举报
回复
谢谢帮顶,解决了哦
ue-chinese17.1内含注册机
内含注册机,安装后打开帮助-注册或激活-离线激活(断开网络)-复制两个用户名然后在注册机上一个一个粘贴-general-激活成功! 预祝顺利! 官方说明: 两个32/64位Windows平台上的64位文件处理(4 GB以上的文件)(WIN 2000和更高版本) Unicode支持 基于磁盘的文本编辑和大文件处理,甚至多兆字节的文件的最低RAM使用 多行查找和替换所有的搜索对话框(查找,替换,在文件中查找,在文件中替换) 拼写检查和本地化支持80种语言,包括美式英语,英式英语,荷兰语,芬兰语,法语,德语,匈牙利语,意大利语,西班牙语和瑞典语) 免费的集成文件比较实用(UC精简版),或完全集成UltraCompare专业 语法高亮和代码折叠-配置,预配置为C , C + +,
VB
,
HTML
,Java和Perl的特殊选项用于FORTRAN和LaTex。提供多wordfiles 下载 XML和
HTML
打开和关闭
标签
的标记匹配 FTP客户端可设置多个账户,并自动登录和保存(仅32位)。 包括支持SFTP和FTPS(管制,控制和数据,隐) 能够设置远程(服务器)或本地(基于Perl的
正则表达式
)
过滤
器(提供对SFTP的
过滤
能力) 先进的代理支持和SSL证书处理 (可选)为每个FTP帐户的本地默认目录 SSH / Telnet窗口 解析的XML树视图加上移动,删除,编辑/修改节点的能力和格式化XML的XML经理 树样式的功能,参数,变量,属性等功能列表 项目/工作区支持 环境选择器 - 提供预定义的或用户创建的的编辑环境,能记住UltraEdit的可停靠窗口,工具栏,方便用户使用的所有状态。 集成的脚本语言来自动执行任务 可配置键盘映射 列/块模式编辑 十六进制编辑器可以编辑任何二进制文件,显示二进制和ASCII视图 命名的模板
HTML
工具栏配置流行的
HTML
功能 网络搜索工具栏:高亮显示文本,并单击网络搜索工具栏按钮,从编辑器内的搜索突出长期 文件加密/解密 与UltraSentry集成,以安全删除UltraEdit的临时文件 多字节支持与集成的IME支持 而... UltraEdit是现在可用的Linux 和 Mac !
字符串操作-
正则表达式
正则表达式
编辑
正则表达式
,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。
正则表达式
使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,
正则表达式
通常被用来检索、替换那些符合某个模式的文本。 许多程序设计语言都支持利用
正则表达式
进行字符串操作。例如,在P
正则表达式
正则表达式
正则表达式
,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。
正则表达式
通常被用来检索、替换那些符合某个模式(规则)的文本。 许多程序设计语言都支持利用
正则表达式
进行字符串操作。例如,在Perl中就内建了一个功能强大的
正则表达式
引擎。
正则表达式
这个概念最初是由Unix中的工具软...
[小小明]Python
正则表达式
速查表与实操手册
本文档是小小明个人的学习笔记: csdn博客:https://blog.csdn.net/as604049322 Python
正则表达式
基本概念
正则表达式
在每种编程语言中都具有相同的概念,整体规则都大致一致,只是部分语言没有实现少部分规则。
正则表达式
的本质就是用一些特定字符的组合,组成一个“规则字符串”表达对字符串的一种
过滤
逻辑,可以很方便的从指定的字符串中提取出我们想要的内容。 python
正则表达式
的官方文档是:https://docs.python.org/zh-cn/3.7/library
正则表达式
(转)
正则表达式
,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 许多程序设计语言都支持利用
正则表达式
进行字符串操作。例如,在Perl中就内建了一个功能强大的
正则表达式
引擎。
正则表达式
这个概念最初是由Unix中的工具软件(例如sed和grep)...
VB基础类
7,763
社区成员
197,609
社区内容
发帖
与我相关
我的任务
VB基础类
VB 基础类
复制链接
扫一扫
分享
社区描述
VB 基础类
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章