nutch 2.2.1只抓取深度为5的url数据存入solr,不抓取1234深度的数据

qq_24524717 2017-09-02 06:05:35
如题,nutch 2.2.1只抓取深度为5的url数据存入solr,不抓取1234深度的数据,求告知
...全文
307 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
碧水幽幽泉 2017-09-18
  • 打赏
  • 举报
回复
陈茂辉: 相信学习改变命运的人!

可能大家都会有一个很明显的发现:同样一起学校毕业,经过两三年的磨砺,人家在快速的进步、升职、加薪,而你却还一直在原地停留打转。
这种距离的产生,不乏我一直强调的学习能力,后期的不断学习、自我提升。更重要的是工作方法的不科学,不能够进行有效的工作。因此,不仅个人工作效率持续的低下,
而且还会因为日复一日的拖延累积,导致与别人的差距越来越明显。

因为我们萌牙很大一部分是90后,还算是职场菜鸟,有些甚至是他们的第一次面试,第一份工作!空有一腔热血,却不知道如何去奋斗。
所以为了让他们更好的完成工作,进入可持续性的工作状态,接受良好的工作方法是必需的。

所以,从萌牙的创业开始,我就一直强调工作法的重要性,甚至有过全体会议,统一工作方法,具体详解"番茄工作法"的原理。
而现在,每一位新加入萌牙的同事,拿到手的第一本书,就是《番茄工作法图解》;进行的第一次培训,也是相关于工作时间管理方法的。

下面,我就大致解释一下番茄工作法,希望对于你提升工作效率,有所帮助。
1.什么是番茄工作法?
简单来说,就是将你的工作时间划分成N个番茄钟,而每一个番茄钟是30分钟,包括25分钟的工作时间以及5分钟的休息时间。这样通过短频率的工作作息,避免过长时间的工作,造成头晕眼花的状态,导致后续工作底下。

2.如何执行番茄工作法?
具体执行的话,我建议合理利用“三张表格”,即今日待办、活动清单、记录反馈来简化工作方法。
(1)今日待办
顾名思义,就是你今天准备要办理的事情,也就是你的日计划。我会要求同事每天上班的第一件事,就是先动笔,
将今天需要完成的事情,按照重要紧急顺序,一项一项写出来,并预估好每一项的工作时间。然后再根据自己的计划,去执行每日的工作。
正常工作时间是8小时。一般,我会要求我的同事,每日预估出70%时间进行工作。而其他30%的时间作为机动时间。

(2)活动清单
指的是你最近要进行的工作,也就是你的周计划。现在我们的同事都养成一个很好的习惯:在每周一上班前,将下一工作周期需要完成的工作,记录下来。
重要紧急的放在周一周二完成,重要不紧急以及不重要的工作再依次往后推。这样,也方便安排日计划——直接从里面提取即可。
将工作按四象限法则区分,不仅能将主要的精力花费在重要又紧急的事情上,而且能更深入的分析自己的工作重点,减少时间的浪费。

(3)记录反馈
通俗的讲,就是每天的跟踪记录,也就是总结。具体的话可以划分为日总结与周总结。日总结:每天下班前,花费10-20分钟的时间,分析一下自己当天的工作,是否完成?
完成效率怎么样?工作期间打断次数多不多?需要如何改进?周总结:根据自己的活动清单,分析自己每一类工作的完成情况?是否需要改进?如何改进?
只有不断的分析总结自己,才能更有效的了解自己的情况,发现自己的问题,从而提升自己的能力。

3.番茄工作法的原则?
(1)一个番茄时间(30分钟)不可分割,不存在半个或一个半番茄时间。
(2)一个番茄时间内如果做与任务无关的事情,则该番茄时间作废。如果番茄时间内被打断,做更要的事情。那么这个番茄时间不算,并且要重新记录。
(3)在进行4个番茄时间后,建议较长的一次休息。充分的休息能保证更好的工作状态。
(4)不要拿自己的番茄数据与他人的番茄数据比较。要拿自己的前后工作时期番茄数据对比:有减少时间,说明你的工作效率提升了。

在番茄工作法中,有以上四点原则。但是关于番茄时间,因为具体的工作性质,我做了适当的调整。建议有些同事,将自己的番茄时间适当延长,但最高不超过60分钟。
比如设计部的同事或者市场部的同事,思考了20多分钟,刚有了灵感,总不能够放下手中的鼠标或者笔,去休息一下吧。所以根据个人的工作,作出适当的调改是有必要的。

4.番茄工作法的优势?
总的来说,通过番茄工作法的管理,能让我们有效的减轻对于时间的焦虑,提升集中力和注意力,增强决策意识,减少工作中的中断次数,从而精准的保质保量完成自己的工作。
而持之以恒的时间刺激,能强化我们的决断力,提升我们的工作效率,改进我们的学习流程,从而更好的完善自己。

最后,如果你想进一步的提升自己的工作效率,推荐给你一本《金字塔原理》。这本书很有逻辑性,所以起初看可能会比较困难。
但熟读之后,能强化你的逻辑思维架构能力,让你在日常工作中能快速掌握核心思想,主次分明的安排自己的工作,解决工作问题更便捷有效。
自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nutch网络搜索软件 15 2.2.5 用户界面 17 2.3 商业搜索引擎技术介绍 17 2.3.1 通用搜索 17 2.3.2 垂直搜索 18 2.3.3 站内搜索 19 2.3.4 桌面搜索 21 2.4 本章小结 21 第3章 获得海量数据 22 3.1 自己的网络蜘蛛 22 3.1.1 BerkeleyDB介绍 27 3.1.2 抓取网页 28 3.1.3 MP3 抓取 29 3.1.4 RSS 抓取 30 3.1.5 图片抓取 33 3.1.6 垂直行业抓取 34 3.2 抓取数据库中的内容 36 3.2.1 建立数据视图 36 3.2.2 JDBC数据库连接 36 3.2.3 增量抓取 40 3.3 抓取本地硬盘上的文件 41 3.3.1 目录遍历 41 3.4 本章小结 42 第4章 提取文档中的文本内容 43 4.1 从HTML文件中提取文本 43 4.1.1 HtmlParser介绍 51 4.1.2 结构化信息提取 54 4.1.3 网页去噪 60 4.1.4 网页结构相似度计算 63 4.1.5 正文提取的工具FireBug 64 4.1.6 正文提取的工具NekoHTML 66 4.1.7 正文提取 68 4.2 从非HTML文件中提取文本 73 4.2.1 TEXT文件 73 4.2.2 PDF文件 73 4.2.3 Word文件 82 4.2.4 Rtf文件 82 4.2.5 Excel文件 83 4.2.6 PowerPoint文件 84 4.3 流媒体内容提取 85 4.3.1 音频流内容提取 85 4.3.2 视频流内容提取 87 4.4 抓取限制应对方法 89 4.5 本章小结 90 第5章 自然语言处理 91 5.1 中文分词处理 91 5.1.1 Lucene 中的中文分词 91 5.1.2 Lietu中文分词的使用 92 5.1.3 中文分词的原理 92 5.1.4 查找词典算法 95 5.1.5 最大概率分词方法 98 5.1.6 新词发现 101 5.1.7 隐马尔可夫模型 102 5.2 语法解析树 104 5.3 文档排重 105 5.4 中文关键词提取 106 5.4.1 关键词提取的基本方法 106 5.4.2 关键词提取的设计 107 5.4.3 从网页提取关键词 107 5.5 相关搜索 107 5.6 拼写检查 110 5.6.1 英文拼写检查 110 5.6.2 中文拼写检查 112 5.7 自动摘要 116 5.7.1 自动摘要技术 117 5.7.2 自动摘要的设计 117 5.7.3 Lucene中的动态摘要 124 5.8 自动分类 125 5.8.1 Classifier4J 126 5.8.2 自动分类的接口定义 127 5.8.3 自动分类的SVM方法实现 128 5.8.4 多级分类 128 5.9 自动聚类 131 5.9.1 聚类的定义 131 5.9.2 K均值聚类方法 131 5.9.3 K均值实现 133 5.10 拼音转换 138 5.11 语义搜索 139 5.12 跨语言搜索 143 5.13 本章小结 144 第6章 创建索引库 145 6.1 设计索引库结构 146 6.1.1 理解 Lucene 的索引库结构 146 6.1.2 设计一个简单的索引库 148 6.2 创建和维护索引库 149 6.2.1 创建索引库 149 6.2.2 向索引库中添加索引文档 149 6.2.3 删除索引库中的索引文档 151 6.2.4 更新索引库中的索引文档 151 6.2.5 索引的合并 151 6.2.6 索引的定时更新 152 6.2.7 索引的备份和恢复 153 6.2.8 修复索引 154 6.3 读写并发控制 154 6.4 优化使用 Lucene 155 6.4.1 索引优化 155 6.4.2 查询优化 157 6.4.3 实现时间加权排序 162 6.4.4 实现字词混合索引 163 6.4.5 定制Similarity 170 6.4.6 定制Tokenizer 171 6.5 查询大容量索引 173 6.6 本章小结 174 第7章

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧