关于网页抓取问题!截取字段!

zftow110 2007-09-26 11:50:46
抓取了一个网页,现在要截取字段
"<--开始-->内容<--结束-->"
public string HttpString_Filtrate(string Http_String, string Begin_String, string End_String)
{
int Begin_Int = Http_String.IndexOf(Begin_String);
int End_Int = Http_String.IndexOf(End_String);
string ReString = Http_String.Substring(End_Int,Begin_Int);

return ReString;
}

现在要得到内容,我写这个好象不行。。。。。<--开始-->和<--结束-->为不固定值
...全文
256 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
kirinboy 2007-09-26
  • 打赏
  • 举报
回复
substring(Begin_Int,End_Int-Begin_Int)
然后用正则表达式代替Begin_String和End_String
zftow110 2007-09-26
  • 打赏
  • 举报
回复
开始位置就是<--开始-->
whb147 2007-09-26
  • 打赏
  • 举报
回复
找到开始位置
rifhgd 2007-09-26
  • 打赏
  • 举报
回复
substring(Begin_Int,End_Int-Begin_Int)
tds__609 2007-09-26
  • 打赏
  • 举报
回复
既然你抓的是网页
那你想取哪部分HTML标识的内容 总知道吧?
zftow110 2007-09-26
  • 打赏
  • 举报
回复
符号保留啊
比如:"<hr>其它<--开始-->内容<br>内容<--结束-->其它<hr>"
得到"内容<br>内容"
M_GuiYuan 2007-09-26
  • 打赏
  • 举报
回复
正则匹配 特殊符号。。
zftow110 2007-09-26
  • 打赏
  • 举报
回复
myshell(shell)
用正则该怎么表达,能达到同样效果吗?
longjia 2007-09-26
  • 打赏
  • 举报
回复


//删除所有的html标记

public static string delHtml(string str)

{

if (str != null && str.Trim() != "")

return Regex.Replace(str, "<[^>]+>", "");

return str;

}

// 删除字符串中的特定标记

//isContent:是否清除内容

public static string delTag(string str, string tag, bool isContent)

{

if (tag == null || tag == "")

{

return str;

}

if (isContent) //要求清除内容

{

return Regex.Replace(str, string.Format("<({0})[^>]*>([\\s\\S]*?)
<\\/\\1>", tag), "", RegexOptions.IgnoreCase);

}

return Regex.Replace(str, string.Format(@"(<{0}[^>]*(>)?)|(</{0}[^>]
*>)|", tag), "", RegexOptions.IgnoreCase);

}

// 删除字符串中的一组标记

//isContent:是否清除内容

public static string delTagArray(string str, string tagA, bool isContent)

{

string[] tagAa = tagA.Split(',');

foreach (string sr1 in tagAa) //遍历所有标记,删除

{

str = delTag(str, sr1, isContent);

}

return str;

}

myshell 2007-09-26
  • 打赏
  • 举报
回复
用SubString个人觉得效率极低,用正则好!
zftow110 2007-09-26
  • 打赏
  • 举报
回复
如果End_String是:

<table width=90% border=0 align=center>
<tr></tr>
</table>
怎么办?
企业网站SEO简要安装说明 企业网站SEO优化:强大的SEO网站优化功能,快速让您的网站在搜索引擎中脱颖而出,让更多的客户找到您。 企业SEO站 v17.1 无组件生成HTML 企业SEO网站安装 1、上传至虚拟主机[根目录]。 2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、网站关键词、网站描述、网站地址、联系方式、备案统计等)都在"网站配置"设置。 4、快速瞬间整站DIV CSS 生成 HTML 整站强大的SEO优化功能,让更多的客户找到你。 5、"Manage/Login.Asp"管理登录路经,初始账号:admin,初始密码:admin 6、整站生成请先修改 网站配置/网站地址 注 路径为绝对路径 例如: 域名 “/” 然后点击生成 企业SEO站 v17.2 无组件生成HTML 更新日志 1、完美解决、修正了IE6、7、8前台页面。 2、后台编辑器的兼容性IE6、7、8 3、幻灯片、公告自由添加编辑 4、新增关键词设置,自动替换功能,减少手动输入节省时间,修正关键词排序。 5、编辑器兼容更多浏览器IE、360,谷歌,搜狗浏览器等 6、登陆页面的错误的修正 7、删除栏目同时删除该栏目下的所有内容 8、增二维码、在线客服系统,后台自由设置QQ号,前台自动提取,客服右侧浮动 9、新增手机站功能,自动提取数据库数据,HTML5模式,兼容安卓、苹果手机;自动识别移动设备、手机、平板电脑自动跳转到手机网站 10、手机站网站全面升级,全面支持生成HTML静态化,链接动态化自动生成HTML静态链接,栏目页、详细页对应一个HTML静态页面。 11、手机站全部数据自动提取对接标题、关键词、描述和内容,新增分页新闻和产品生成HTML页面。 12、后台设置关键词排序修正,按照数字从小到大排序,数据库排序字段按照数字调整。 13、添加关键词字段,重复过滤避免大量添加重复问题。 14、修正友情链接代码无响应 15、解决全站幻灯片自适应问题以及后台数据添加出错问题 16、百度自动推送全站开启和关闭功能,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。 17、后台设置自动开启和关闭功能,开启后页面URL将立即被推送给百度 18、网站集权,加入nofollow标签,不追踪无价值链接,引导搜索引擎蜘蛛更好的抓取有价值网页,快速提升排名。 19、百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 20、网站CSS升级,产品排列兼容性错误修正。 21、手机站代码加入百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 22、网站CSS升级,手机站产品排列兼容性错误修正。 23、网站增加缩略图功能,产品缩略图整体减少大小,增加网站打开的速度,搜索引擎蜘蛛快速抓取网页。 24、修复移动端首页、列表页、详情页的图片延迟加载 25、升级后台自带404功能,只需通过404管理功能,就可以实现404页面自定义生成404.htm,网站对搜索引擎更友好,利于网站体验和排名。 26、服务器设置根目录下的404.htm作为404页面即可。 27、修正后台编辑器无法调整文字大小bug.修复缩略图上传失败等的问题。 28、修正截取中文字符bug,修正文章发布时间问题。 29、增加轮播图功能,可后台维护轮播图,改善面包屑导航,显示各级路径。 30、产品代表图片上传大小有限制,大图片出错误修正。 31、修复缩略图上传失败问题。增加文章、产品转向功能修正模板CSS显示错误的bug。 32、新增添加完新闻或者自动生成HTML减少操作更自动化。 33、生成xml和txt网站地图SiteMap,包含了网站所有的URL,提交给搜索引擎后,可以便于搜索引擎抓取并收录网页。 34、新增手机端网站添加完新闻和删除HTML自动化,删除新闻和产品内容手机网站自动生成HTMML,更自动化。 35、修复部分用户在本地测试时后台可以正常打开,首页空白的情况,修复留言提交字段报错,修复程序整体兼容性 36、修正手机端网站不能同步生成问题。 37、栏目类别新增功能上下移动,产品和新闻新增功能置顶、前移、后移、底部功能。更加人性化操作排序。 38、最新升级:自动推送为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,安装完成后即可实现链接自动推送功能。 39、安装代码的页面在被加载时,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。 40、前后台新增加产品优化标题、产品名称,更合理的产品和关键词布局。更利于关键词百度的抓取和优化。 41、Banner JS图片自动轮换兼容性调整。新增三排新闻,增加关键词曝光率,新增客户案例图片滚动。 企业SEO站无组件生成HTML前台界面 企业SEO站无组件生成HTML后台界面 相关阅读 同类推荐:企业网站源码
企业网站SEO简要安装说明 企业网站SEO优化:强大的SEO网站优化功能,快速让您的网站在搜索引擎中脱颖而出,让更多的客户找到您。 企业SEO站 v17.0 无组件生成HTML 企业SEO网站安装: 1、上传至虚拟主机[根目录]。 2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、网站关键词、网站描述、网站地址、联系方式、备案统计等)都在"网站配置"设置。 4、快速瞬间整站DIV CSS 生成 HTML 整站强大的SEO优化功能,让更多的客户找到你。 5、"Manage/Login.Asp"管理登录路经,初始账号:admin,初始密码:admin 6、整站生成请先修改 网站配置/网站地址 注 路径为绝对路径 例如: 域名 “/” 然后点击生成 7、完美解决、修正了IE6、7、8前台页面。 8、后台编辑器的兼容性IE6、7、8 9、幻灯片、公告自由添加编辑 10、新增关键词设置,自动替换功能,减少手动输入节省时间,修正关键词排序。 11、编辑器兼容更多浏览器IE、360,谷歌,搜狗浏览器等 12、登陆页面的错误的修正 13、删除栏目同时删除该栏目下的所有内容 14、增二维码、在线客服系统,后台自由设置QQ号,前台自动提取,客服右侧浮动 15、新增手机站功能,自动提取数据库数据,HTML5模式,兼容安卓、苹果手机;自动识别移动设备、手机、平板电脑自动跳转到手机网站 16、手机站网站全面升级,全面支持生成HTML静态化,链接动态化自动生成HTML静态链接,栏目页、详细页对应一个HTML静态页面。 17、手机站全部数据自动提取对接标题、关键词、描述和内容,新增分页新闻和产品生成HTML页面。 18、后台设置关键词排序修正,按照数字从小到大排序,数据库排序字段按照数字调整。 19、添加关键词字段,重复过滤避免大量添加重复问题。 20、修正友情链接代码无响应 21、解决全站幻灯片自适应问题以及后台数据添加出错问题 22、百度自动推送全站开启和关闭功能,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。 23、后台设置自动开启和关闭功能,开启后页面URL将立即被推送给百度 24、网站集权,加入nofollow标签,不追踪无价值链接,引导搜索引擎蜘蛛更好的抓取有价值网页,快速提升排名。 25、百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 26、网站CSS升级,产品排列兼容性错误修正。 27、手机站代码加入百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 28、网站CSS升级,手机站产品排列兼容性错误修正。 29、网站增加缩略图功能,产品缩略图整体减少大小,增加网站打开的速度,搜索引擎蜘蛛快速抓取网页。 30、修复移动端首页、列表页、详情页的图片延迟加载 31、升级后台自带404功能,只需通过404管理功能,就可以实现404页面自定义生成404.htm,网站对搜索引擎更友好,利于网站体验和排名。 32、服务器设置根目录下的404.htm作为404页面即可。 33、修正后台编辑器无法调整文字大小bug.修复缩略图上传失败等的问题。 34、修正截取中文字符bug,修正文章发布时间问题。 35、增加轮播图功能,可后台维护轮播图,改善面包屑导航,显示各级路径。 36、修复缩略图上传失败问题。增加文章、产品转向功能修正模板CSS显示错误的bug。 37、新增添加完新闻或者自动生成HTML减少操作更自动化,删除新闻和产品内容自动生成HTMML,同时删除对应HTML文件更加自动化。 38、生成xml和txt网站地图SiteMap,包含了网站所有的URL,提交给搜索引擎后,可以便于搜索引擎抓取并收录网页。 39、新增手机端网站添加完新闻和删除HTML自动化,删除新闻和产品内容手机网站自动生成HTMML,更自动化。 40、修复部分用户在本地测试时后台可以正常打开,首页空白的情况,修复留言提交字段报错,修复程序整体兼容性 41、修正手机端网站不能同步生成问题。 42、栏目类别新增功能上下移动,产品和新闻新增功能置顶、前移、后移、底部功能。更加人性化操作排序。 企业SEO站 v17.0 无组件生成HTML 更新日志 最新升级:自动推送为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,安装完成后即可实现链接自动推送功能。 安装代码的页面在被加载时,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。 企业SEO站前台页面 企业SEO站后台管理 管理登录路经:域名/Manage/Login.Asp 初始账号:admin,初始密码:admin 后台页面 相关阅读 同类推荐:企业网站源码
企业网站SEO简要安装说明 企业网站SEO优化:强大的SEO网站优化功能,快速让您的网站在搜索引擎中脱颖而出,让更多的客户找到您。 企业SEO站 v17.1 无组件生成HTML 企业SEO网站安装: 1、上传至虚拟主机[根目录]。 2、若上传至虚拟主机根目录则要修改文件(特别注意修改 网站配置中 网站地址 域名 “/” 如然后 点击生成静态化 因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空 3、网站常规设置(网站名称、网站关键词、网站描述、网站地址、联系方式、备案统计等)都在"网站配置"设置。 4、快速瞬间整站DIV CSS 生成 HTML 整站强大的SEO优化功能,让更多的客户找到你。 5、"Manage/Login.Asp"管理登录路经,初始账号:admin,初始密码:admin 6、整站生成请先修改 网站配置/网站地址 注 路径为绝对路径 例如: 域名 “/” 然后点击生成 7、完美解决、修正了IE6、7、8前台页面。 8、后台编辑器的兼容性IE6、7、8 9、幻灯片、公告自由添加编辑 10、新增关键词设置,自动替换功能,减少手动输入节省时间,修正关键词排序。 11、编辑器兼容更多浏览器IE、360,谷歌,搜狗浏览器等 12、登陆页面的错误的修正 13、删除栏目同时删除该栏目下的所有内容 14、增二维码、在线客服系统,后台自由设置QQ号,前台自动提取,客服右侧浮动 15、新增手机站功能,自动提取数据库数据,HTML5模式,兼容安卓、苹果手机;自动识别移动设备、手机、平板电脑自动跳转到手机网站 16、手机站网站全面升级,全面支持生成HTML静态化,链接动态化自动生成HTML静态链接,栏目页、详细页对应一个HTML静态页面。 17、手机站全部数据自动提取对接标题、关键词、描述和内容,新增分页新闻和产品生成HTML页面。 18、后台设置关键词排序修正,按照数字从小到大排序,数据库排序字段按照数字调整。 19、添加关键词字段,重复过滤避免大量添加重复问题。 20、修正友情链接代码无响应 21、解决全站幻灯片自适应问题以及后台数据添加出错问题 22、百度自动推送全站开启和关闭功能,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。 23、后台设置自动开启和关闭功能,开启后页面URL将立即被推送给百度 24、网站集权,加入nofollow标签,不追踪无价值链接,引导搜索引擎蜘蛛更好的抓取有价值网页,快速提升排名。 25、百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 26、网站CSS升级,产品排列兼容性错误修正。 27、手机站代码加入百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名。 28、网站CSS升级,手机站产品排列兼容性错误修正。 29、网站增加缩略图功能,产品缩略图整体减少大小,增加网站打开的速度,搜索引擎蜘蛛快速抓取网页。 30、修复移动端首页、列表页、详情页的图片延迟加载 31、升级后台自带404功能,只需通过404管理功能,就可以实现404页面自定义生成404.htm,网站对搜索引擎更友好,利于网站体验和排名。 32、服务器设置根目录下的404.htm作为404页面即可。 33、修正后台编辑器无法调整文字大小bug.修复缩略图上传失败等的问题。 34、修正截取中文字符bug,修正文章发布时间问题。 35、增加轮播图功能,可后台维护轮播图,改善面包屑导航,显示各级路径。 36、修复缩略图上传失败问题。增加文章、产品转向功能修正模板CSS显示错误的bug。 37、新增添加完新闻或者自动生成HTML减少操作更自动化,删除新闻和产品内容自动生成HTMML,同时删除对应HTML文件更加自动化。 38、生成xml和txt网站地图SiteMap,包含了网站所有的URL,提交给搜索引擎后,可以便于搜索引擎抓取并收录网页。 39、新增手机端网站添加完新闻和删除HTML自动化,删除新闻和产品内容手机网站自动生成HTMML,更自动化。 40、修复部分用户在本地测试时后台可以正常打开,首页空白的情况,修复留言提交字段报错,修复程序整体兼容性 41、修正手机端网站不能同步生成问题。 42、栏目类别新增功能上下移动,产品和新闻新增功能置顶、前移、后移、底部功能。更加人性化操作排序。 企业SEO站 v17.1 无组件生成HTML 更新日志 前后台新增加产品优化标题、产品名称,更合理的产品和关键词布局。更利于关键词百度的抓取和优化。。 企业SEO站前台页面 企业SEO站后台管理 管理登录路经:域名/Manage/Login.Asp 初始账号:admin,初始密码:admin 后台页面 相关阅读 同类推荐:企业网站源码
企业网站SEO优化站:无组件生成HTML,强大的SEO网站优化功能,快速让您的网站在搜索引擎中脱颖而出,让更多的客户找到您。企业SEO优化站 17.6 更新日志:2017-10-15更新微信关注自动回复设置和新闻排序修正。 企业SEO网站安装:1.上传至虚拟主机[根目录];2.若上传至虚拟主机根目录则要修改文件(特别注意修改网站配置中网站地址、域名+“/”如然后,点击生成静态化,因为本站专注优化网址是绝对路径利于搜索引擎抓取)注意:子目录下可留空;3.网站常规设置(网站名称、网站关键词、网站描述、网站地址、联系方式、备案统计等)都在"网站配置"设置;4.快速瞬间整站DIV+CSS,生成HTML整站强大的SEO优化功能,让更多的客户找到你;5."Manage/Login.Asp"管理登录路经,初始账号:admin,初始密码:admin;6.整站生成请先修改 网站配置/网站地址,注,路径为绝对路径,例如:域名+“/”然后点击生成;7.完美解决.修正了IE6/7/8前台页面;8.后台编辑器的兼容性IE6/7/8;9.幻灯片.公告自由添加编辑;10.新增关键词设置,自动替换功能,减少手动输入节省时间,修正关键词排序;11.编辑器兼容更多浏览器IE、360、谷歌、搜狗浏览器等;12.登陆页面的错误的修正;13.删除栏目同时删除该栏目下的所有内容;14.增二维码.在线客服系统,后台自由设置QQ号,前台自动提取,客服右侧浮动;15.新增手机站功能,自动提取数据库数据,HTML5模式,兼容安卓.苹果手机;自动识别移动设备.手机.平板电脑自动跳转到手机网站;16.手机站网站全面升级,全面支持生成HTML静态化,链接动态化自动生成HTML静态链接,栏目页、详细页对应一个HTML静态页面;17.手机站全部数据自动提取对接标题、关键词、描述和内容,新增分页新闻和产品生成HTML页面;18.后台设置关键词排序修正,按照数字从小到大排序,数据库排序字段按照数字调整;19.添加关键词字段,重复过滤避免大量添加重复问题;20.修正友情链接代码无响应;21.解决全站幻灯片自适应问题以及后台数据添加出错问题;22.百度自动推送全站开启和关闭功能,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度;23.后台设置自动开启和关闭功能,开启后页面URL将立即被推送给百度;24.网站集权,加入nofollow标签,不追踪无价值链接,引导搜索引擎蜘蛛更好的抓取有价值网页,快速提升排名;25.百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名;26.网站CSS升级,产品排列兼容性错误修正;27.手机站代码加入百度分享插件,用户将网站内容分享到第三方网站,引入社会化流量,给网站加权,快速提升排名;28.网站CSS升级,手机站产品排列兼容性错误修正;29.网站增加缩略图功能,产品缩略图整体减少大小,增加网站打开的速度,搜索引擎蜘蛛快速抓取网页;30.修复移动端首页、列表页、详情页的图片延迟加载;31.升级后台自带404功能,只需通过404管理功能,就可以实现404页面自定义生成404.htm,网站对搜索引擎更友好,利于网站体验和排名;32.服务器设置根目录下的404.htm作为404页面即可;33.修正后台编辑器无法调整文字大小bug,修复缩略图上传失败等的问题;34.修正截取中文字符bug,修正文章发布时间问题;35.增加轮播图功能,可后台维护轮播图,改善面包屑导航,显示各级路径;36.修复缩略图上传失败问题;增加文章.产品转向功能修正模板CSS显示错误的bug;37.新增添加完新闻或者自动生成HTML减少操作更自动化,删除新闻和产品内容自动生成HTMML,同时删除对应HTML文件更加自动化;38.生成xml和txt网站地图SiteMap,包含了网站所有的URL,提交给搜索引擎后,可以便于搜索引擎抓取并收录网页;39.新增手机端网站添加完新闻和删除HTML自动化,删除新闻和产品内容手机网站自动生成HTMML,更自动化;40.修复部分用户在本地测试时后台可以正常打开,首页空白的情况,修复留言提交字段报错,修复程序整体兼容性;41.修正手机端网站不能同步生成问题;42.栏目类别新增功能上下移动,产品和新闻新增功能置顶、前移、后移、底部功能;更加人性化操作排序;43.最新升级:自动推送为提高站点新增网页发现速度推出的工具,安装自动推送JS代码的网页,安装完成后即可实现链接自动推送功能;44.安装代码的页面在被加载时,页面链接会被第一时间推送给百度,从而提高站点新内容的发现速度。

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧