高分！正则表达式捕获网页里的内容

li_zhifu 2010-11-24 11:53:03

<meta name="keywords" content="这是内容"/>
<META name="keywords" content="这是内容"/>
<meta name="Keywords" content="这是内容"/>
<meta content="这是内容" name="keywords"/>
<meta content='这是内容' name='keywords'/>
<meta content='这是内容' name='keywords' >
最后得到结果：
这是内容
应考虑到适应网络上各种页面的需要，如大小写，name与content次序不同，标签最后以>而不是/>闭合等，应适应delphi里的TRegExp(或其它)的写法

...全文

151 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

bdmh 2010-11-24

打赏
举报

回复

这是提取name后面值的正则，不知道是不是你要的



procedure TForm1.Button1Click(Sender: TObject);

begin

  GegValues(Memo1.Text);

end;



procedure TForm1.GegValues(s: string);

var

  reg:TRegExpr;

begin

  reg := TRegExpr.Create;

  reg.Expression := '(<meta|<META)(.*?)(name="|name='+#39+')(.*?)("|'+#39+')';

  if reg.Exec(s) then

  begin

    repeat

      ListBox1.Items.Add(reg.Match[4]);

    until not reg.ExecNext;

  end;

  reg.Free;

end;

haitao 2010-11-24

打赏
举报

回复

这个。。。。。。我都是用delphi写小函数实现的
最常用的函数就是：getTag
getByTag(sHtml,'content="','" ')得到内容
getByTag(sHtml,'name="','" ')得到key
当然，还需要移动、判断sHtml的当前位置

bdmh 2010-11-24

打赏
举报

回复

你要得到什么结果呢，怎么不写

亮剑_ 2010-11-24

打赏
举报

回复

小爬虫

bdmh 2010-11-24

打赏
举报

回复

[Quote=引用 5 楼 liangpei2008 的回复:]
老孟可以啊，正则写得还挺帅
[/Quote]
博士，有在笑话我，你小子这周又回不来了

liangpei2008 2010-11-24

打赏
举报

回复

老孟可以啊，正则写得还挺帅

对于存在多个捕获组的正则表达式，系统逐层展开显示层级关系，并支持点击任意捕获组节点直接高亮对应原文本片段。工具内置完整的POSIX风格正则语法支持体系，涵盖基本正则（BRE）与扩展正则（ERE）全部特性，包括...

6. **字符串与正则表达式**：处理文本数据时，字符串操作和正则表达式是必不可少的工具。熟悉字符串的内置方法和正则表达式的模式匹配，能帮助解析和提取有用信息。 7. **面向对象编程**：Python是面向对象的语言，...

此外，应用过滤机制基于进程路径白名单与窗口类名黑名单双重匹配，支持正则表达式语法解析，可精确排除杀毒软件主界面、系统托盘弹窗、远程桌面会话等干扰项；图标缓存采用LRU算法管理强引用字典，缩略图缓存则使用...

5. **数据验证**：在输入时，可能使用Regex类进行正则表达式验证，确保成绩的格式正确。 6. **数据持久化**：如果系统需要保存成绩数据以供下次使用，可能使用XML、JSON文件或数据库（如SQLite）进行数据存储和读取...

10. **正则表达式**：对于文本处理和数据验证，正则表达式非常有用。学会使用Python的`re`模块，可以进行复杂的模式匹配和搜索替换。在解决HackerRank的Python挑战时，除了以上知识点，还需要不断实践，提高编程...

语言基础/算法/系统设计

16,742

社区成员

33,234

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章