怎么在程序里加上判断百度收录的问题

wawalike 2011-04-25 10:28:25
类别 网址 信息是否有效 百度是否收录
博客 blog.sina.com.cn/1234 有 有效
b2b网站 b2b.com/1234 无 无效
论坛 bbs.com/1234 无 有效




就这种形式,怎么样判断是否被收录了呢,
...全文
123 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
yzf86211861 2011-04-26
  • 打赏
  • 举报
回复
网页抓取 去google 搜下吧
wawalike 2011-04-26
  • 打赏
  • 举报
回复
抓取我知道,我就是想知道有没有接口啊
myhope88 2011-04-26
  • 打赏
  • 举报
回复
自己抓取进行判断吧,要么你就跟百度合作呗,让他们给你提供个接口
wawalike 2011-04-26
  • 打赏
  • 举报
回复
难道就搞网页抓取,没有其它方法
子夜__ 2011-04-25
  • 打赏
  • 举报
回复
既然都说完了

我就提供个抓取的吧

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Net;
using System.IO;
using System.IO.Compression;
using System.Text.RegularExpressions;

namespace WikiPageCreater.Common
{
public class PageHelper
{
/// <summary>
/// 根据 url 获取网页编码
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public static string GetEncoding(string url)
{
HttpWebRequest request = null;
HttpWebResponse response = null;
StreamReader reader = null;
try
{
request = (HttpWebRequest)WebRequest.Create(url);
request.Timeout = 20000;
request.AllowAutoRedirect = false;

response = (HttpWebResponse)request.GetResponse();
if (response.StatusCode == HttpStatusCode.OK && response.ContentLength < 1024 * 1024)
{
if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))
reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress));
else
reader = new StreamReader(response.GetResponseStream(), Encoding.ASCII);

string html = reader.ReadToEnd();

Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");
if (reg_charset.IsMatch(html))
{
return reg_charset.Match(html).Groups["charset"].Value;
}
else if (response.CharacterSet != string.Empty)
{
return response.CharacterSet;
}
else
return Encoding.Default.BodyName;
}
}
catch
{
}
finally
{

if (response != null)
{
response.Close();
response = null;
}
if (reader != null)
reader.Close();

if (request != null)
request = null;

}

return Encoding.Default.BodyName;
}

/// <summary>
/// 根据 url 和 encoding 获取当前url页面的 html 源代码
/// </summary>
/// <param name="url"></param>
/// <param name="encoding"></param>
/// <returns></returns>
public static string GetHtml(string url, Encoding encoding)
{
HttpWebRequest request = null;
HttpWebResponse response = null;
StreamReader reader = null;
try
{
request = (HttpWebRequest)WebRequest.Create(url);
request.Timeout = 20000;
request.AllowAutoRedirect = false;

response = (HttpWebResponse)request.GetResponse();
if (response.StatusCode == HttpStatusCode.OK && response.ContentLength < 1024 * 1024)
{
if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))
reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress), encoding);
else
reader = new StreamReader(response.GetResponseStream(), encoding);
string html = reader.ReadToEnd();

return html;
}
}
catch
{
}
finally
{

if (response != null)
{
response.Close();
response = null;
}
if (reader != null)
reader.Close();

if (request != null)
request = null;

}

return string.Empty;
}
}
}
dalmeeme 2011-04-25
  • 打赏
  • 举报
回复
用网页抓取,比如判断www.126.com是否被百度收录,可以发送一个web请求到:http://www.baidu.com/s?wd=http://www.126.com
然后判断字符串"www.126.com"是否在“以下是网页中包含"www.126.com"的结果:”之前的某个特定位置上出现。

另外不知道百度是否有提供查询是否收录的,你可以搜索一下。
淘宝客女包单页面源码,随着淘宝客程序的火热,淘宝客的程序也应运而生,各种程序的版本之多让人难以选择!而作者依据自己的经验发现各种版本的淘宝客程序不能有效的平衡用户和搜索引擎!因此作者依据自己的经验开发了一个程序,首次尝试手写代码。依据用户体验为基础,延伸到SEO,并针对性的做出了防封杀技术!真正意义上实现淘宝客程序的防封杀! 淘宝客女包单页面源码 1.5 升级说明: 1.0版本开发后受到大家的支持,当日下载次数超过1000人,感谢热心人士提供建议和批评。百度优化紧急修复V1.0版本的错误,推出V1.5版 1.1.5版修复了V1.0浏览器兼容的问题,测试了遨游 IE7.0 IE8.0 FF等主流浏览器,解决了兼容问题! 2.1.5版修复了高分辨率下,层错位的问题。定义了层的位置。 3.1.5版改进了“细节”,进一步的优化了代码,修复了背景出现“黑色线条”的问题 4.1.5版经磋商,把产品佣金提高到11% 5.1.5版经改进产品的细节,提高了用户的“点击概率” 6.1.5版增加了详细的代码注释,方便大家套用各种CMS程序程序特点: 一,结构优化,代码优化,更加符合“搜索引擎”。有效防止了被k和拔毛! 二,4年专注百度优化,更适合百度推广和优化。 三,良好“用户体验”设计,更加吸引用户。 四,独家技术支持,让你轻松优化。 五,工厂产品,品质更有保证。 六,单页面更容易维护。 七,一件修改“关键词”,笔者,已经做好了“结构”“关键词布局”“防百度封杀”技术。(此模板关键词 “时尚女包”) 八,独家使用“百度防封杀”技术,精准控制导向流量。 九,只要有空间和域名即可上线优化。 淘宝客女包单页面源码 1.5 有关问题说明: 1.页面一样会不会让蜘蛛判断作弊 1.5版采用了独家的“结构优化”。有效的控制了蜘蛛的访问深度。是大部分内容是无法抓取的。只抓取对排名有利的页面,增加权重 2.防封杀效果! 目前,淘宝客女包源码采用的技术,是国内蜘蛛无法判断的,百度优化舍弃了主流的“框架识别”漏洞和“脚本”引用。采用了“图片识别”漏洞,目前世界上主流的搜索引擎蜘蛛还是无法识别的,因此在防封杀效果明显。 3.关于代码问题 精简了绝大部分代码,由于单页面优化有一定的难度,因此,百度优化建议你加入QQ群:45041704,有技术支持,能解决你遇到的问题 ,如,不收录。快照退档等问题。 4.关于结构问题 什么是结构优化,结构优化是百度优化的核心技术,同时,百度优化立志搜索引擎设计师,在很多方面对搜索引擎有较为深刻的研究,对于主流的黑帽子技术也是比较了解的。 5.排名技术解析 百度优化采用了独家技术,源码本身就很好的平衡了用户和搜索引擎的关系,加上有针对性的对蜘蛛做了“引诱”,百度优化进4年的百度深度研究。立志开发更为智能的搜索引擎,源码本身并没有特殊的地方,只是在结构方面做了精深优化,百度优化利用“免费空间”“二级域名”测试。均达到了快速收录的效果的,大家注意到源码本身的官方网站使用的就是“中国8U的免费空间”和“二级域名”(垃圾空间和二级域名本身对搜因不友好。)同时,建议想玩淘宝客的朋友使用,顶级空间和顶级域名,收录排名更快更好! 6.技术支持问题 此版源码采用了独家技术,同类比的源码在市场上均售价50-200元不等,商业版由“兰若轩”买断。因此,你使用的源码均是商业版,提供技术支持主要针对推广兰若轩的产品,同时,没有技术的支持,此源码会出现,快照停档的问题,和排名不稳定的问题。市场上淘宝客的佣金都为10%-15%,出售的源码本身就经过了修改。而我们提供的不仅仅有高达11%的佣金 季度奖金,更有完善的技术支持。因此,我们建议你推广兰若轩的产品,并且加入我们,享受高比例佣金和技术支持。免费使用升级版。CMS2.0和V2.0版本不排除开发商业版!
[本课程属于AI完整学习路线套餐,该套餐已“硬核”上线,点击立即学习!] 【为什么学习数学?】 人工智能的本质是数学,网上有很多AI课程,只蜻蜓点水的介绍一下算法背后的数学理论,知识点比较混乱,不成体系,学了以后一旦在实战遇到难点就不知道该怎么办了。比方说老师遇到过用很多层MLP预测用户转化率的工程师,只是单纯的追求模型的“复杂度”,而忘记了底层数学的本质回归问题超过3层神经网络足以拟合空间中任一曲线,耗费了大量的运算资源却造成了模型的过拟合。 很多同学因为不理解AI底层的数学和理论,知其然不知其所以然,遇到问题不知道如何从根源上去思考排查解决问题,而是花了大量时间做一个“调参侠”,期望蒙中一个优化组合,可是调参空间之巨大如果没有方向随机的搜索和买彩票一样。但是专门的数学课学习起来非常抽象和枯燥,而且其中大量内容和人工智能关系不大。因此在设计这门专为人工智能服务的数学课,讲解从人工智能用到的底层的数学逻辑,让大家可以真正理解数学知识。 【讲师介绍】 褚英昊  技术总监深造于美国圣地亚哥国家超级计算中心,毕业后归国曾服务于世界某500强中国区AI Lab,是人工智能+智能制造领域的专家。先后发表国际期刊21篇(其中SCI收录17篇),第一作者发明专利11份。【学习目标】 1、更加高效学习、更好的理解AI知识 2、在找工作中在众多的套工程的“调参侠”中脱颖而出,获得面试官的重视 3、在实际工作和开发中,遇到问题能理解问题的本质,真正做到精准而高效的解决问题,获得领导的倚重 【梳理数学与AI知识之间的关联】 【专门为数学设计的项目案例】
淘宝客女包单页面源码V1.5版升级说明 V1.0版本开发后受到大家的支持,当日下载次数超过1000人,感谢热心人士提供建议和批评。百度优化紧急修复V1.0版本的错误,推出V1.5版 1.V1.5版修复了V1.0浏览器兼容的问题,测试了遨游 IE7.0 IE8.0 FF等主流浏览器,解决了兼容问题! 2.V1.5版修复了高分辨率下,层错位的问题。定义了层的位置。 3.V1.5版改进了“细节”,进一步的优化了代码,修复了背景出现“黑色线条”的问题 4.V1.5版经磋商,把产品佣金提高到11% 5.V1.5版经改进产品的细节,提高了用户的“点击概率” 6.V1.5版增加了详细的代码注释,方便大家套用各种CMS程序! 淘宝客女包单页面源码V1.5版有关问题说明 1.页面一样会不会让蜘蛛判断作弊   V1.5版采用了独家的“结构优化”。有效的控制了蜘蛛的访问深度。是大部分内容是无法抓取的。只抓取对排名有利的页面,增加权重 2.防封杀效果!   目前,淘宝客女包源码采用的技术,是国内蜘蛛无法判断的,百度优化舍弃了主流的“框架识别”漏洞和“脚本”引用。采用了“图片识别”漏洞,目前世界上主流的搜索引擎蜘蛛还是无法识别的,因此在防封杀效果明显。 3.关于代码问题   精简了绝大部分代码,由于单页面优化有一定的难度,因此,百度优化建议你加入QQ群:45041704,有技术支持,能解决你遇到的问题 ,如,不收录。快照退档等问题。 4.关于结构问题   什么是结构优化,结构优化是百度优化的核心技术,同时,百度优化立志搜索引擎设计师,在很多方面对搜索引擎有较为深刻的研究,对于主流的黑帽子技术也是比较了解的。 5.排名技术解析   百度优化采用了独家技术,源码本身就很好的平衡了用户和搜索引擎的关系,加上有针对性的对蜘蛛做了“引诱”,百度优化进4年的百度深度研究。立志开发更为智能的搜索引擎,源码本身并没有特殊的地方,只是在结构方面做了精深优化,百度优化利用“免费空间”“二级域名”测试。均达到了快速收录的效果的,大家注意到源码本身的官方网站使用的就是“中国8U的免费空间”和“二级域名”(垃圾空间和二级域名本身对搜因不友好。)同时,建议想玩淘宝客的朋友使用,顶级空间和顶级域名,收录排名更快更好! 6.技术支持问题   此版源码采用了独家技术,同类比的源码在市场上均售价50-200元不等,商业版由“兰若轩”买断。因此,你使用的源码均是商业版,提供技术支持主要针对推广兰若轩的产品,同时,没有技术的支持,此源码会出现,快照停档的问题,和排名不稳定的问题。市场上淘宝客的佣金都为10%-15%,出售的源码本身就经过了修改。而我们提供的不仅仅有高达11%的佣金 季度奖金,更有完善的技术支持。因此,我们建议你推广兰若轩的产品,并且加入我们,享受高比例佣金和技术支持。免费使用升级版。CMS2.0和V2.0版本不排除开发商业版! 淘宝客女包单页面源码V1.5版特点 一,结构优化,代码优化,更加符合“搜索引擎”。有效防止了被k和拔毛! 二,4年专注百度优化,更适合百度推广和优化。 三,良好“用户体验”设计,更加吸引用户。 四,独家技术支持,让你轻松优化。 五,工厂产品,品质更有保证。 六,一健修改“关键词”,笔者,已经做好了“结构”“关键词布局”“防百度封杀”技术。 七,独家使用“百度防封杀”技术,精准控制导向流量。 声明:V1.0版本上线不到几分钟就发现网络上有同步“倒卖”的情况,在此,程序优化:百度优化 页面设计:一亩半 发出声明,V1.0版和V1.5版本均为免费版本,请勿上当受骗。程序本身就是免费的,因此大家可以自由的传播。但是违背作者本意,尤其是“盗用源码”“修改源码”打包出售行为,并将受到同行的BS。同时,不少人建议我们结合CMS。百度优化V1.5版做了详细的代码注释!方便了大家可以自由套用CMS。关于CMS2.0版和单页面V2.0版我们正在努力。并表示CMS2.0和V2.0不排除将收取开发费用。如果你推广兰若轩的产品,均可免费享受到商业版并且获得高比例佣金和季度奖金。并且享受到独家的技术支持。!详情加入QQ群45041704                                          联系作者:qq交流群:45041704  BY:百度优化  一亩半

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧