再来两到百度面试题!

wjc_hit 2008-05-23 03:47:38

如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。

假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、
正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己
对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案
...全文
755 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
时间过的真快 2008-05-27
  • 打赏
  • 举报
回复
鄙视楼上的,吊人胃口……
lole0803 2008-05-27
  • 打赏
  • 举报
回复
这些问题一般用层次分析法就可以基本搞定

复杂些可以用量化算法

至于最好的算法, 我知道, 就是不说

哈哈, 顶楼上
Dancing_Sea 2008-05-24
  • 打赏
  • 举报
回复
发表于:2008-05-23 19:05:163楼 得分:0
引用楼主 wjc_hit 的帖子:

如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿)


PageRank

-------------

Lz 说道去掉其中的重复网页


计算相似度,投到向量空间上去,计算夹角

-------------

这些都是考Sense的,你若能提出完美的解决方案,百度不去也罢,基本可以自己搞了。

就是,有些公司面试会拿一些公司目前还在设计的算法,群策群力,从中找到一些思想

你可以自己对网页重复下定义——如果想到优秀的算法,有个更好的定义,就可以自己搞了

怀疑这种题不是测试题,就是他们内部的算法需求
njurain 2008-05-23
  • 打赏
  • 举报
回复
[Quote=引用楼主 wjc_hit 的帖子:]

如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿)[/Quote]

PageRank

-------------

[Quote= Lz 说道]去掉其中的重复网页[/quote]

计算相似度,投到向量空间上去,计算夹角

-------------

这些都是考Sense的,你若能提出完美的解决方案,百度不去也罢,基本可以自己搞了。
YJDP0918 2008-05-23
  • 打赏
  • 举报
回复
完全不懂....UP
Jade_2008 2008-05-23
  • 打赏
  • 举报
回复
关注!

33,006

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧