通过正则取html页面的meta信息的问题

lp 2006-06-15 03:18:05

用一个正则取html页面中meta的一些信息，包括title，以及charset
title通过以下
preg_match_all('/<title>(.*)<\/title>/si', $html, $matches);
$title = $matches[1][0];

charset通过
preg_match_all('/<meta.*charset=([^;]*)">/i', $html, $matches);

取title的一切正常，但charset有时就不正常
比如在碰到<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
或者<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
都取不正确
求一个通用的取charset的正则

...全文

253 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

michael_g_hu 2006-06-15

打赏
举报

回复

preg_match_all('/<meta.*charset=([^;]*)">/i', $html, $matches);
在META中因为在方括号结束之前有个‘/’，你没有加这个，而是直接">,应该是"\/>

meizz 2006-06-15

打赏
举报

回复

/<meta[^<>]+charset=([^<>\"\']+)[^<>]+>/i

正则表达式方式的验证方式，这个验证比较标准而且比较全面，不过也是通过点击提交按钮才进行验证，本实例可以这样验证，具体内容如下也可以这样验证具体代码 <html> <head> <meta ...

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个： import re a = ["<meta ...

meta charset="UTF-8"> <title>正则验证注册页面</title> <style type="text/css"> .red{ color:#cc0000; font-weight:bold; } </style> [removed][removed]

本文实例讲述了jquery使用正则表达式验证email地址的方法。分享给大家供大家参考。具体实现方法如下：复制代码代码如下:<html> <head> <title>jquery使用正则表达式验证email地址</title>...

meta是html语言head区的一个辅助性标签。元素可提供有关页面的元信息，

21,886

社区成员

140,364

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章