社区
数据结构与算法
帖子详情
再来两到百度面试题!
wjc_hit
2008-05-23 03:47:38
如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。
假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、
正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己
对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案
...全文
827
6
打赏
收藏
再来两到百度面试题!
如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。 假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、 正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己 对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
时间过的真快
2008-05-27
打赏
举报
回复
鄙视楼上的,吊人胃口……
lole0803
2008-05-27
打赏
举报
回复
这些问题一般用层次分析法就可以基本搞定
复杂些可以用量化算法
至于最好的算法, 我知道, 就是不说
哈哈, 顶楼上
Dancing_Sea
2008-05-24
打赏
举报
回复
发表于:2008-05-23 19:05:163楼 得分:0
引用楼主 wjc_hit 的帖子:
如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿)
PageRank
-------------
Lz 说道去掉其中的重复网页
计算相似度,投到向量空间上去,计算夹角
-------------
这些都是考Sense的,你若能提出完美的解决方案,百度不去也罢,基本可以自己搞了。
就是,有些公司面试会拿一些公司目前还在设计的算法,群策群力,从中找到一些思想
你可以自己对网页重复下定义——如果想到优秀的算法,有个更好的定义,就可以自己搞了
怀疑这种题不是测试题,就是他们内部的算法需求
njurain
2008-05-23
打赏
举报
回复
[Quote=引用楼主 wjc_hit 的帖子:]
如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿)[/Quote]
PageRank
-------------
[Quote= Lz 说道]去掉其中的重复网页[/quote]
计算相似度,投到向量空间上去,计算夹角
-------------
这些都是考Sense的,你若能提出完美的解决方案,百度不去也罢,基本可以自己搞了。
YJDP0918
2008-05-23
打赏
举报
回复
完全不懂....UP
Jade_2008
2008-05-23
打赏
举报
回复
关注!
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
本微软面试100题系列,共计11篇文章,300多道
面试题
,截取本blog索引性文章:程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大系列集锦:http://blog.csdn.net/v_july_v/article/details/6543438,中的第一部分编辑而成,涵盖了数据结构、算法、海量数据处理等3大主题。 闲不多说,眼下九月正是校招,各种笔试,面试进行火热的时节,希望此份微软面试100题系列的PDF文档能给正在找工作的朋友助一臂之力! 如果读者发现了本系列任何一题的答案有问题,错误,bug,恳请随时不吝指正,你可以直接评论在原文之下,也可以通过私信联系我。 祝诸君均能找到令自己满意的offer或工作,谢谢。July、二零一二年九月二十日
各个公司
面试题
(
百度
、华为、中兴、烽火科技等)
本文件包括了国内外各大IT企业(
百度
、华为、中兴、烽火科技等)的
面试题
目,可供向往这些企业的哥们们提供些参考
2013年IT面试之
百度
笔试面试大礼包
2013年IT面试之
百度
笔试面试大礼包,专业的IT面试社区,
百度
笔试,
百度
面试
面试经验+基础总结
(阿里、
百度
、蘑菇街的面试总结)+平时的面试资料整理+我的简历,是自己平时的总结,带有主观性呢,大家可以随便看看。
Java 面经手册·小傅哥.pdf
这是一本以
面试题
为入口讲解 Java 核心内容的技术书籍,书中内容极力的向你证实代码是对数学逻辑的具体实现。当你仔细阅读书籍时,会发现Java中有大量的数学知识,包括:扰动函数、负载因子、拉链寻址、开放寻址、斐波那契(Fibonacci)散列法还有黄金分割点的使用等等。 适合人群 1. 具备一定编程基础,工作1-3年的研发人员 2. 想阅读 Java 核心源码,但总感觉看不懂的 3. 看了太多理论,但没有实践验证的 4. 求职面试,总被
面试题
搞的死去活来的
数据结构与算法
33,028
社区成员
35,336
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章