Elasticsearch 5.4新闻搜索项目实战

CSDN学习
CSDN学习官方账号
博客专家认证
2018-03-06 08:14:36
Elasticsearch 5.4新闻搜索项目实战
第一章:课程简介
第一节课程简介
第二章:软件安装
第一节Elasticsearch安装
第二节Head插件安装
第三节Kibana安装
第三章:中文分词配置
第一节Ik分词插件安装
第二节扩展自定义词库
第四章:Elasticsearch核心概念
第一节Elasticsearch核心概念
第五章:文档的CRUD
第一节文档的CRUD
第六章:理解倒排索引
第一节理解倒排索引
第七章:Mapping详解
第一节Mapping详解
第八章:搜索排序和高亮
第一节搜索排序和高亮
第九章:关键属性解读
第一节_source和_all字段
第一十章:实战一 创建maven工程
第一节工程创建说明
第二节Intellij IDEA中创建maven工程
第三节Eclipse中创建maven工程
第一十一章:实战二 新闻搜索框设计
第一节新闻搜索框设计
第一十二章:实战三 新闻搜索结果页设计
第一节新闻搜索结果页设计
第一十三章:实战四 导入新闻数据到MySQL
第一节导入新闻数据到MySQL
第一十四章:实战五 Elasticsearch Java API
第一节创建Transportclient对象
第二节双重检验加锁单例模式的Transportclient对象
第三节ES Java AP进阶
第一十五章:实战六 索引新闻数据到Elasticsearch
第一节Java API设置mapping
第二节导入MySQL中新闻数据到Elasticsearch
第一十六章:实战七 新闻搜索核心代码编写
第一节搜索结果展示
第二节搜索关键字高亮
第三节搜索结果和耗时处理
第四节搜索结果分页处理
第一十七章:项目总结
第一节项目总结

姚攀
中国科学院大学硕士,CSDN博客专家,《从Lucene到Elasticsearch:全文检索实战》作者。熟悉信息检索模型,Lucene、Elasticsearch、ELK日志处理。
相关链接:https://edu.csdn.net/course/detail/5578?utm_source=edu_bbs_autocreate
...全文
136 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
前言 第1章 Elasticsearch入门 1 1.1 Elasticsearch是什么 1 1.1.1 Elasticsearch的历史 2 1.1.2 相关产品 3 1.2 全文搜索 3 1.2.1 Lucene介绍 4 1.2.2 Lucene倒排索引 4 1.3 基础知识 6 1.3.1 Elasticsearch术语及概念 6 1.3.2 JSON介绍 10 1.4 安装配置 12 1.4.1 安装Java 12 1.4.2 安装Elasticsearch 12 1.4.3 配置 13 1.4.4 运行 15 1.4.5 停止 17 1.4.6 作为服务 17 1.4.7 版本升级 19 1.5 对外接口 21 1.5.1 API约定 22 1.5 .2 REST介绍 25 1.5.3 Head插件安装 26 1.5.4 创建库 27 1.5.5 插入数据 28 1.5.6 修改文档 28 1.5.7 查询文档 29 1.5.8 删除文档 29 1.5.9 删除库 30 1.6 Java接口 30 1.6.1 Java接口说明 30 1.6.2 创建索引文档 33 1.6.3 增加文档 34 1.6.4 修改文档 35 1.6.5 查询文档 35 1.6.6 删除文档 35 1.7 小结 36 第2章 索引 37 2.1 索引管理 37 2.1.1 创建索引 37 2.1.2 删除索引 39 2.1.3 获取索引 39 2.1.4 打开/关闭索引 40 2.2 索引映射管理 41 2.2.1 增加映射 41 2.2.2 获取映射 44 2.2.3 获取字段映射 45 2.2.4 判断类型是否存在 46 2.3 索引别名 46 2.4 索引配置 51 2.4.1 更新索引配置 51 2.4.2 获取配置 52 2.4.3 索引分析 52 2.4.4 索引模板 54 2.4.5 复制配置 55 2.4.6 重建索引 56 2.5 索引监控 60 2.5.1 索引统计 60 2.5.2 索引分片 62 2.5.3 索引恢复 63 2.5.4 索引分片存储 64 2.6 状态管理 64 2.6.1 清除缓存 64 2.6.2 索引刷新 64 2.6.3 冲洗 65 2.6.4 合并索引 65 2.7 文档管理 66 2.7.1 增加文档 66 2.7.2 更新删除文档 69 2.7.3 查询文档 73 2.7.4 多文档操作 76 2.7.5 索引词频率 80 2.7.6 查询更新接口 83 2.8 小结 87 第3章 映射 88 3.1 概念 88 3.2 字段数据类型 90 3.2.1 核心数据类型 91 3.2.2 复杂数据类型 96 3.2.3 地理数据类型 100 3.2.4 专门数据类型 106 3.3 元字段 108 3.3.1 _all字段 109 3.3.2 _field_names字段 109 3.3.3 _id字段 110 3.3.4 _index字段 110 3.3.5 _meta字段 111 3.3.6 _parent字段 111 3.3.7 _routing字段 112 3.3.8 _source字段 114 3.3.9 _type字段 115 3.3.10 _uid字段 115 3.4 映射参数 116 3.4.1 analyzer参数 116 3.4.2 boost参数 118 3.4.3 coerce参数 119 3.4.4 copy_to参数 120 3.4.5 doc_values参数 121 3.4.6 dynamic参数 122 3.4.7 enabled参数 122 3.4.8 fielddata参数 123 3.4.9 format参数 126 3.4.10 geohash参数 128 3.4.11 geohash_precision参数 129 3.4.12 geohash_prefix参数 130 3.4.13 ignore_above参数 131 3.4.14 ignore_malformed参数 131 3.4.15 include_in_all参数 132 3.4.16 index参数 133 3.4.17 index_options参数 133 3.4.18 lat_lon参数 134 3.4.19 fields参数 135 3.4.20 norms参数 136 3.4.21 null_value参数 137 3.4.22 position_increment_gap参数 137 3.4.23 precision_step参数 138 3.4.24 properties参数 138 3.4.25 search_analyzer参数 139 3.4.26 similarity参数 140 3.4.27 store参数 141 3.4.28 term_vector参数 141 3.5 动态映射 142 3.5.1 概念 142 3.5.2 _default_映射 143 3.5.3 动态字段映射 143 3.5.4 动态模板 145 3.5.5 重写默认模板 148 3.6 小结 148 第4章 搜索 149 4.1 深入搜索 149 4.1.1 搜索方式 149 4.1.2 重新评分 153 4.1.3 滚动查询请求 155 4.1.4 隐藏内容查询 158 4.1.5 搜索相关函数 161 4.1.6 搜索模板 164 4.2 查询DSL 167 4.2.1 查询和过滤的区别 167 4.2.2 全文搜索 168 4.2.3 字段查询 179 4.2.4 复合查询 183 4.2.5 连接查询 188 4.2.6 地理查询 190 4.2.7 跨度查询 197 4.2.8 高亮显示 200 4.3 简化查询 203 4.4 小结 206 第5章 聚合 207 5.1 聚合的分类 207 5.2 度量聚合 209 5.2.1 平均值聚合 209 5.2.2 基数聚合 211 5.2.3 最大值聚合 213 5.2.4 最小值聚合 214 5.2.5 和聚合 214 5.2.6 值计数聚合 215 5.2.7 统计聚合 215 5.2.8 百分比聚合 215 5.2.9 百分比分级聚合 216 5.2.10 最高命中排行聚合 217 5.2.11 脚本度量聚合 217 5.2.12 地理边界聚合 221 5.2.13 地理重心聚合 222 5.3 分组聚合 223 5.3.1 子聚合 224 5.3.2 直方图聚合 226 5.3.3 日期直方图聚合 230 5.3.4 时间范围聚合 233 5.3.5 范围聚合 234 5.3.6 过滤聚合 235 5.3.7 多重过滤聚合 236 5.3.8 空值聚合 238 5.3.9 嵌套聚合 239 5.3.10 采样聚合 240 5.3.11 重要索引词聚合 242 5.3.12 索引词聚合 245 5.3.13 总体聚合 251 5.3.14 地理点距离聚合 251 5.3.15 地理散列网格聚合 253 5.3.16 IPv4范围聚合 255 5.4 管道聚合 257 5.4.1 平均分组聚合 259 5.4.2 移动平均聚合 261 5.4.3 总和分组聚合 262 5.4.4 总和累计聚合 262 5.4.5 最大分组聚合 264 5.4.6 最小分组聚合 265 5.4.7 统计分组聚合 266 5.4.8 百分位分组聚合 268 5.4.9 差值聚合 269 5.4.10 分组脚本聚合 273 5.4.11 串行差分聚合 275 5.4.12 分组选择器聚合 276 5.5 小结 277 第6章 集群管理 278 6.1 集群节点监控 278 6.1.1 集群健康值 278 6.1.2 集群状态 279 6.1.3 集群统计 280 6.1.4 集群任务管理 280 6.1.5 待定集群任务 281 6.1.6 节点信息 281 6.1.7 节点统计 282 6.2 集群分片迁移 283 6.3 集群节点配置 284 6.3.1 主节点 285 6.3.2 数据节点 286 6.3.3 客户端节点 286 6.3.4 部落节点 287 6.4 节点发现 287 6.4.1 主节点选举 288 6.4.2 故障检测 288 6.5 集群平衡配置 289 6.5.1 分片分配设置 289 6.5.2 基于磁盘的配置 290 6.5.3 分片智能分配 291 6.5.4 分片配置过滤 292 6.5.5 其他集群配置 293 6.6 小结 293 第7章 索引分词器 294 7.1 分词器的概念 294 7.2 中文分词器 298 7.3 插件 300 7.3.1 插件管理 301 7.3.2 插件安装 301 7.3.3 插件清单 302 7.4 小结 304 第8章 高级配置 305 8.1 网络相关配置 305 8.1.1 本地网关配置 305 8.1.2 HTTP配置 306 8.1.3 网络配置 307 8.1.4 传输配置 308 8.2 脚本配置 310 8.2.1 脚本使用 311 8.2.2 脚本配置 313 8.3 快照和恢复配置 318 8.4 线程池配置 324 8.5 索引配置 326 8.5.1 缓存配置 326 8.5.2 索引碎片分配 329 8.5.3 合并 332 8.5.4 相似模块 332 8.5.5 响应慢日志监控 333 8.5.6 存储 335 8.5.7 事务日志 336 8.6 小结 337 第9章 告警、监控和权限管理 338 9.1 告警 338 9.1.1 安装 338 9.1.2 结构 339 9.1.3 示例 352 9.1.4 告警输出配置 354 9.1.5 告警管理 355 9.2 监控 356 9.2.1 安装 356 9.2.2 配置 357 9.3 权限管理 360 9.3.1 工作原理 361 9.3.2 用户认证 361 9.3.3 角色管理 366 9.3.4 综合示例 368 9.4 小结 369 第10章 ELK应用 370 10.1 Logstash 370 10.1.1 配置 371 10.1.2 插件管理 374 10.2 Kibana配置 377 10.2.1 Discover 379 10.2.2 Visualize 381 10.2.3 Dashboard 383 10.2.4 Settings 386 10.3 综合示例 387 10.4 小结 390 附录 Elasticsearch 5.0的特性与改进 391
《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。 《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。 书籍目录: 第一部分 Hadoop——一种分布式编程框架  第1章 Hadoop简介   1.1 为什么写《Hadoop 实战》   1.2 什么是Hadoop   1.3 了解分布式系统和Hadoop   1.4 比较SQL 数据库和Hadoop   1.5 理解MapReduce   1.5.1 动手扩展一个简单程序   1.5.2 相同程序在MapReduce中的扩展   1.6 用Hadoop统计单词——运行第一个程序   1.7 Hadoop历史   1.8 小结   1.9 资源  第2章 初识Hadoop   2.1 Hadoop 的构造模块显示全部信息 第一部分 Hadoop——一种分布式编程框架  第1章 Hadoop简介   1.1 为什么写《Hadoop 实战》   1.2 什么是Hadoop   1.3 了解分布式系统和Hadoop   1.4 比较SQL 数据库和Hadoop   1.5 理解MapReduce   1.5.1 动手扩展一个简单程序   1.5.2 相同程序在MapReduce中的扩展   1.6 用Hadoop统计单词——运行第一个程序   1.7 Hadoop历史   1.8 小结   1.9 资源  第2章 初识Hadoop   2.1 Hadoop 的构造模块   2.1.1 NameNode   2.1.2 DataNode   2.1.3 Secondary NameNode   2.1.4 JobTracker   2.1.5 TaskTracker   2.2 为Hadoop 集群安装SSH   2.2.1 定义一个公共账号   2.2.2 验证SSH安装   2.2.3 生成SSH密钥对   2.2.4 将公钥分布并登录验证   2.3 运行Hadoop   2.3.1 本地(单机)模式   2.3.2  伪分布模式   2.3.3 全分布模式   2.4 基于Web 的集群用户界面   2.5 小结  第3章 Hadoop组件   3.1 HDFS 文件操作   3.1.1 基本文件命令   3.1.2 编程读写HDFS   3.2 剖析MapReduce 程序   3.2.1 Hadoop数据类型   3.2.2 Mapper   3.2.3 Reducer   3.2.4 Partitioner:重定向Mapper输出   3.2.5 Combiner:本地reduce   3.2.6 预定义mapper和Reducer类的单词计数   3.3 读和写   3.3.1 InputFormat   3.3.2 OutputFormat   3.4 小结 第二部分 实战  第4章 编写MapReduce基础程序   4.1 获得专利数据集   4.1.1 专利引用数据   4.1.2 专利描述数据   4.2 构建MapReduce 程序的基础模板   4.3 计数   4.4 适应Hadoop API 的改变   4.5 Hadoop 的Streaming   4.5.1 通过Unix命令使用Streaming   4.5.2 通过脚本使用Streaming   4.5.3 用Streaming处理键/值对   4.5.4 通过Aggregate包使用Streaming   4.6 使用combiner 提升性能   4.7 温故知新   4.8 小结   4.9 更多资源  第5章 高阶MapReduce   5.1 链接MapReduce 作业   5.1.1 顺序链接MapReduce作业   5.1.2 具有复杂依赖的MapReduce链接   5.1.3 预处理和后处理阶段的链接   5.2 联结不同来源的数据   5.2.1 Reduce侧的联结   5.2.2 基于DistributedCache的复制联结   5.2.3 半联结:map侧过滤后在reduce侧联结   5.3 创建一个Bloom filter   5.3.1 Bloom filter做了什么   5.3.2 实现一个Bloom filter   5.3.3 Hadoop 0.20 以上版本的Bloom filter   5.4 温故知新   5.5 小结   5.6 更多资源  第6章 编程实践   6.1 开发MapReduce 程序   6.1.1 本地模式   6.1.2 伪分布模式   6.2 生产集群上的监视和调试   6.2.1 计数器   6.2.2 跳过坏记录   6.2.3 用IsolationRunner重新运行出错的任务   6.3 性能调优   6.3.1 通过combiner来减少网络流量   6.3.2 减少输入数据量   6.3.3 使用压缩   6.3.4 重用JVM   6.3.5 根据猜测执行来运行   6.3.6 代码重构与算法重写   6.4 小结  第7章 细则手册   7.1 向任务传递作业定制的参数   7.2 探查任务特定信息   7.3 划分为多个输出文件   7.4 以数据库作为输入输出   7.5 保持输出的顺序   7.6 小结  第8章 管理Hadoop   8.1 为实际应用设置特定参数值   8.2 系统体检   8.3 权限设置   8.4 配额管理   8.5 启用回收站   8.6 删减DataNode   8.7 增加DataNode   8.8 管理NameNode 和SNN   8.9 恢复失效的NameNode   8.10 感知网络布局和机架的设计   8.11 多用户作业的调度   8.11.1 多个JobTracker   8.11.2 公平调度器   8.12 小结 第三部分 Hadoop也疯狂  第9章 在云上运行Hadoop   9.1 Amazon Web Services 简介   9.2 安装AWS   9.2.1 获得AWS身份认证凭据   9.2.2 获得命令行工具   9.2.3 准备SSH密钥对   9.3 在EC2 上安装Hadoop   9.3.1 配置安全参数   9.3.2 配置集群类型   9.4 在EC2 上运行MapReduce 程序   9.4.1 将代码转移到Hadoop集群上   9.4.2 访问Hadoop集群上的数据   9.5 清空和关闭EC2 实例   9.6 Amazon Elastic MapReduce 和其他AWS 服务   9.6.1 Amazon Elastic MapReduce   9.6.2 AWS导入/导出   9.7 小结  第10章 用Pig编程   10.1 像Pig 一样思考   10.1.1 数据流语言   10.1.2 数据类型   10.1.3 用户定义函数   10.2 安装Pig   10.3 运行Pig   10.4 通过Grunt 学习Pig Latin   10.5 谈谈Pig Latin   10.5.1 数据类型和schema   10.5.2 表达式和函数   10.5.3 关系型运算符   10.5.4 执行优化   10.6 用户定义函数   10.6.1 使用UDF   10.6.2 编写UDF   10.7 脚本   10.7.1 注释   10.7.2 参数替换   10.7.3 多查询执行   10.8 Pig 实战——计算相似专利的例子   10.9 小结  第11章 Hive及Hadoop群   11.1 Hive   11.1.1 安装与配置Hive   11.1.2 查询的示例   11.1.3 深入HiveQL   11.1.4 Hive小结   11.2 其他Hadoop 相关的部分   11.2.1 HBase   11.2.2 ZooKeeper   11.2.3 Cascading   11.2.4 Cloudera   11.2.5 Katta   11.2.6 CloudBase   11.2.7 Aster Data和Greenplum   11.2.8 Hama和Mahout   11.2.9 search-hadoop.com   11.3 小结  第12章 案例研究   12.1 转换《纽约时报》1100 万个库存图片文档   12.2 挖掘中国移动的数据   12.3 在StumbleUpon 推荐最佳网站   12.3.1 分布式StumbleUpon 的开端   12.3.2 HBase 和StumbleUpon   12.3.3 StumbleUpon 上的更多Hadoop 应用   12.4 搭建面向企业查询的分析系统——IBM的ES2 项目   12.4.1 ES2 系统结构   12.4.2 ES2 爬虫   12.4.3 ES2 分析   12.4.4 小结   12.4.5 参考文献 附录A HDFS文件命令
经过学术界和业界近10年的努力,Hadoop技术已经趋于完善而且应用广泛,几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂,而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术,学习门槛比较高,对于初学者和基础不太扎实的读者而言,有一本适合系统学习的Hadoop图书显得十分重要。本书即是专门为这两类读者量身定做的:第一,它的内容非常全面和前沿,不仅讲解了最新的Hadoop技术和第二代MapReduce,还讲解了涉及的所有周边技术,能满足系统学习的需求;第二,实战性非常强,不仅很多知识点配有精心设计的小案例,而且有完整的企业级案例,能满足操作实践的需求;第三,这一版在上一版的基础上根据最新的技术做了更新和补充,能满足读者学习最新技术的需求。本书第1版不仅取得了好的销量,而且广受好评,第2版在内容上有很大的提升,相信能让更多的读者从中受益。    —— EasyHadoop  国内专业的Hadooop社区,致力于让Hadoop大数据分析更简单 第一部分 Hadoop——一种分布式编程框架 第1 章 Hadoop简介 1.1 为什么写《Hadoop 实战》 1.2 什么是Hadoop 1.3 了解分布式系统和Hadoop 1.4 比较SQL 数据库和Hadoop 1.5 理解MapReduce 1.5.1 动手扩展一个简单程序 1.5.2 相同程序在MapReduce中的扩展 1.6 用Hadoop统计单词——运行第一个程序 1.7 Hadoop历史 1.8 小结 1.9 资源 第2 章 初识Hadoop 2.1 Hadoop 的构造模块 2.1.1 NameNode 2.1.2 DataNode 2.1.3 Secondary NameNode 2.1.4 JobTracker 2.1.5 TaskTracker 2.2 为Hadoop 集群安装SSH 2.2.1 定义一个公共账号 2.2.2 验证SSH安装 2.2.3 生成SSH密钥对 2.2.4 将公钥分布并登录验证 2.3 运行Hadoop 2.3.1 本地(单机)模式 2.3.2  伪分布模式 2.3.3 全分布模式 2.4 基于Web 的集群用户界面 2.5 小结 第3 章 Hadoop组件 3.1 HDFS 文件操作 3.1.1 基本文件命令 3.1.2 编程读写HDFS 3.2 剖析MapReduce 程序 3.2.1 Hadoop数据类型 3.2.2 Mapper 3.2.3 Reducer 3.2.4 Partitioner:重定向Mapper输出 3.2.5 Combiner:本地reduce 3.2.6 预定义mapper和Reducer类的单词计数 3.3 读和写 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小结 第二部分 实战 第4 章 编写MapReduce基础程序 4.1 获得专利数据集 4.1.1 专利引用数据 4.1.2 专利描述数据 4.2 构建MapReduce 程序的基础模板 4.3 计数 4.4 适应Hadoop API 的改变 4.5 Hadoop 的Streaming 4.5.1 通过Unix命令使用Streaming 4.5.2 通过脚本使用Streaming 4.5.3 用Streaming处理键/值对 4.5.4 通过Aggregate包使用Streaming 4.6 使用combiner 提升性能 4.7 温故知新 4.8 小结 4.9 更多资源 第5 章 高阶MapReduce 5.1 链接MapReduce 作业 5.1.1 顺序链接MapReduce作业 5.1.2 具有复杂依赖的MapReduce链接 5.1.3 预处理和后处理阶段的链接 5.2 联结不同来源的数据 5.2.1 Reduce侧的联结 5.2.2 基于DistributedCache的复制联结 5.2.3 半联结:map侧过滤后在reduce侧联结 5.3 创建一个Bloom filter 5.3.1 Bloom filter做了什么 5.3.2 实现一个Bloom filter 5.3.3 Hadoop 0.20 以上版本的Bloom filter 5.4 温故知新 5.5 小结 5.6 更多资源 第6 章 编程实践 6.1 开发MapReduce 程序 6.1.1 本地模式 6.1.2 伪分布模式 6.2 生产集群上的监视和调试 6.2.1 计数器 6.2.2 跳过坏记录 6.2.3 用IsolationRunner重新运行出错的任务 6.3 性能调优 6.3.1 通过combiner来减少网络流量 6.3.2 减少输入数据量 6.3.3 使用压缩 6.3.4 重用JVM 6.3.5 根据猜测执行来运行 6.3.6 代码重构与算法重写 6.4 小结 第7 章 细则手册 7.1 向任务传递作业定制的参数 7.2 探查任务特定信息 7.3 划分为多个输出文件 7.4 以数据库作为输入输出 7.5 保持输出的顺序 7.6 小结 第8 章 管理Hadoop 8.1 为实际应用设置特定参数值 8.2 系统体检 8.3 权限设置 8.4 配额管理 8.5 启用回收站 8.6 删减DataNode 8.7 增加DataNode 8.8 管理NameNode 和SNN 8.9 恢复失效的NameNode 8.10 感知网络布局和机架的设计 8.11 多用户作业的调度 8.11.1 多个JobTracker 8.11.2 公平调度器 8.12 小结 第三部分 Hadoop也疯狂 第9 章 在云上运行Hadoop 9.1 Amazon Web Services 简介 9.2 安装AWS 9.2.1 获得AWS身份认证凭据 9.2.2 获得命令行工具 9.2.3 准备SSH密钥对 9.3 在EC2 上安装Hadoop 9.3.1 配置安全参数 9.3.2 配置集群类型 9.4 在EC2 上运行MapReduce 程序 9.4.1 将代码转移到Hadoop集群上 9.4.2 访问Hadoop集群上的数据 9.5 清空和关闭EC2 实例 9.6 Amazon Elastic MapReduce 和其他AWS 服务 9.6.1 Amazon Elastic MapReduce 9.6.2 AWS导入/导出 9.7 小结 第10 章 用Pig编程 10.1 像Pig 一样思考 10.1.1 数据流语言 10.1.2 数据类型 10.1.3 用户定义函数 10.2 安装Pig 10.3 运行Pig 10.4 通过Grunt 学习Pig Latin 10.5 谈谈Pig Latin 10.5.1 数据类型和schema 10.5.2 表达式和函数 10.5.3 关系型运算符 10.5.4 执行优化 10.6 用户定义函数 10.6.1 使用UDF 10.6.2 编写UDF 10.7 脚本 10.7.1 注释 10.7.2 参数替换 10.7.3 多查询执行 10.8 Pig 实战——计算相似专利的例子 10.9 小结 第11 章 Hive及Hadoop群 11.1 Hive 11.1.1 安装与配置Hive 11.1.2 查询的示例 11.1.3 深入HiveQL 11.1.4 Hive小结 11.2 其他Hadoop 相关的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera 11.2.5 Katta 11.2.6 CloudBase 11.2.7 Aster Data和Greenplum 11.2.8 Hama和Mahout 11.2.9 search-hadoop.com 11.3 小结 第12 章 案例研究 12.1 转换《纽约时报》1100 万个库存图片文档 12.2 挖掘中国移动的数据 12.3 在StumbleUpon 推荐最佳网站 12.3.1 分布式StumbleUpon 的开端 12.3.2 HBase 和StumbleUpon 12.3.3 StumbleUpon 上的更多Hadoop 应用 12.4 搭建面向企业查询的分析系统——IBM的ES2 项目 12.4.1 ES2 系统结构 12.4.2 ES2 爬虫 12.4.3 ES2 分析 12.4.4 小结 12.4.5 参考文献
目录 c~11tcob 推荐序 1.6.4 使用 R 进行 K 最近邻分类…·37 前言 1.6.5 单机环境使用 Mahout 运行 引子 第一篇支持高效的运营 第 1 章方案设计和技术选型:分类 ·5 1.1 分类的基本概念…...... .…………….. 6 1.2 分类任务的处理流程 ……·· ……·7 1.3 算法:朴素贝叶斯和 K最近邻……·8 1.3.1 朴素贝叶斯….......……… …….. 8 1.3.2 K 最近邻……………………... 9 1.4 分类效果评估…………·…….. 10 1.5 相关软件: R 和 Mahout·………….. 12 1.5.1 R 简介………………………… 12 1.5.2 Mahout 简介……………….. 13 1.5.3 Hadoop 简介………………· 14 1.6 案例实践·……...... .… ··· ·· ·········… 17 1.6.l 实验环境设置…………….... 17 1.6.2 中文分词 ……………….. 18 1.6.3 使用 R进行朴素贝叶斯分类… 22 朴素贝 叶斯分类..... . .…......... 39 1.6.6 多机环境使用 Mahout 运行 朴素贝叶斯分类…..........…… 47 1.7 更多的思考……….. .... ................. 58 第 2 章方案设计和技术选型: 聚类… … … ..... 60 2.1 聚类的基本概念…………........….. 60 2.2 算法: K 均值和层次型聚类…… 61 2.2.1 K 均值聚类………… ... ......… 61 2.2.2 层次型聚类……………… ·· 62 2.3 聚类的效果评估…·· ……....... 64 2.4 案例实践……………………··· ···· 66 2.4.1 使用 R 进行 K 均值聚类·· .... 66 2.4.2 使用 Mahout 进行 K均值聚类… 69 第 3 章方案设计和技术选型: 因变量连续的回归分析....... 74 3.1 线性回归的基本概念…………....... 74 3.2 案例实践… 3.2. 1 实验环境设置……………….. 76 3.2.2 R 中数据的标准化……… 78 3.2.3 使用 R 的线性回归分析…… ·81 第二篇 为顾客发现喜欢的商晶: 基础篇 第 4 章方案郎,+和技术选型:搜索 . 94 4.1 搜索引擎的基本概念………………·” 4 1 1 相关性…………………………· 95 4 口及时性…·.............… 97 4.2 搜索引擎的评估.........……········· 100 4.3 为什么不是数据库……........……. 103 4.4 系统框架………………… · 104 4.4.1 离线预处理…………………… 104 4.4.2 在线查询………… ……··· 107 4.5 常见的搜索引擎实现………... 108 4.5.1 Lucene 简介……………… 108 4.5.2 Solr 简介 ......………………… 113 4.5.3 Elasticsearch 简介…………… · 120 4.6 案例实践……………… 123 4.6.1 实验环境设置.. ... ....………… 123 4.6.2 基于 Solr 的实现 …………… 123 4.6.3 基于 Elasticsearch 的实现 … 154 4.6.4 统一的搜索 API ………··……·175 第三篇 为顾客发现喜欢的商局: 高级篇 第 5 章方案设计和技术选型: NoSQL 和搜索的整合· .. 195 5.1 问题分析 …… IX 5.2 HBase 简介……….. ... .. .…...... . …. 196 5.3 结合 HBase 和搜索引擎………….. 203 5.4 案例实践….... . . . .………........…… 204 5.4.1 实验环境设置 ........ ……··204 5.4.2 HBase 的部署………………… 205 5.4.3 HBase 和搜索引擎的集成 …. . 211 第 6 章方案设计和技术选型: 查询分类和搜索的整合 ·219 6.1 问题分析…………………. . 219 6.2 结合分类器和搜索引擎.. ....……. . 219 6.3 案例实践…······ ·············………… 225 6.3.1 实验环境设置……….......… 225 6.3.2 构建查询分类器 …………······226 6.3.3 定制化的搜索排序…… ··· ·229 6.3.4 整合查询分类和定制化 排序…·… …… ………… 236 第 7 章方案设计和技术选型: 个性化搜索 …· · … 245 7.1 问题分析……………………. ....... . . 245 7.2 结合用户画像和搜索引擎…… ··· 245 7.3 案例实践….........……….......…… 249 7.3.1 用户画像的读取……………… 250 7.3.2 个性化搜索引擎………·· 253 7.3.3 结果对比……………… ··260 第 8 章方案设计和技术选型: 搜索分片 ……·· ····· 267 8.1 问题分析……. ........... . . .………… 267 8.2 利用搜索的分片机制……………··269 x 8.3 案例实践 …………· · · ·· ·· · ····· ·….... . .. . . 271 8.3.1 Solr 路由的实现.. ......... . ...... 271 8.3.2 Elasticsearch 路由的实现 ……· 278 第 9 章 方案设计和技术选型: 搜索提示………….. ..... 283 9.1 问题分析 ……..... . ..….............… 283 9.2 案例实践:基础方案 ..............… 284 9.2.1 Solr 搜索建议和拼写纠错的 实现…….. ... ..…………·· · ···· · 284 9.2.2 Elasticsearch 搜索建议和拼写 纠错的实现 …··..........……… 286 9.3 改进方案 .. . .. . ..... .. ... . .. . .... . ..... . … 291 9.4 案例实践:改进方案 ….... . ....…·· 294 第 10 章方案设计和技术选型: 推荐 ……… ……….. 303 10.l 推荐系统的基本概念 ……......…· 305 10.2 推荐的核心要素…………········ 306 10.2.1 系统角色 .. . .. . ...…………·· 306 10.2.2 相似度 …. . ... . .......... . .…·· 307 10.2.3 相似度传播框架 .... . ....…·· 307 10.3 推荐系统的分类 . . . ... . ..….... ... .. . 307 10.4 混合模型. ··r ..………................. 311 10.5 系统架构… . .. ..........…..... . . … . .. 312 10.6 Mahout 中的推荐算法…….. ... .... 313 10.7 电商常见的推荐系统方案……… 314 10.7.1 电商常见的推荐系统 方案……………………….. 314 10.7.2 相似度的计算 …………….. 317 10.7.3 协同过滤………………….. 319 10.7.4 结果的查询………………·· 320 10.8 案例实践 ……………. ... ....… 321 10.8.1 基于内容特征的推荐…... 321 10.8.2 基于行为特征的推荐…….. 341 第四篇获取数据,跟踪效果 第 11 章方案设计和技术选型: 行为跟踪 … ……….... 369 l l.l 基本概念… . .... . ...... .... ....….. . .... 370 11.1.1 网站的核心框架……….. 370 11.1.2 行为数据的类型 … …… . . . . 371 11.1.3 行为数据的模式…………··372 11.1.4 设计理念…………………·· 374 11.2 使用谷歌分析 ..... . ..……… …. . . 375 11.3 自行设计之 Flume、 HDFS 和 Hive 的整合…·········· ···········…· 378 11.3.1 数据的收集一-Flume 简介…………………········ 378 11.3.2 数据的存储一-Hadoop HDFS 回顾………·…… 382 11 .3.3 批量数据分析一-Hive 简介 ……··..................… 383 11.3.4 Flume、 HDFS 和 Hive 的 整合方案 …··.......... .....… 386 11.4 自行设计之 Flume、 Kafka 和 Storm 的整合……………··…… 386 11.4.1 实时性数据分析之 Kafka 简介 ……….......……....... 386 11.4.2 实时性数据分析之 Storm 简介………………·388 11.4.3 Flume 、 Kafka 和 Storm 的 XI 11.5.4 自主设计实战之 Flume、 HDFS 和 Hive 的整合........ 401 11.5.5 自主设计实战之 Flume、 整合方案………………….. 390 Kafka 和 Storm 的整合……410 11.5 案例实践…………………….. 391 11.6 更多的思考………·……………·424 11.5.1 数据模式的设计……....... . 392 11.5.2 实验环境设置………… ... 392 后记……··…. ... .. .......….. .. . . .….............. 425 11.5.3 谷歌分析实战…………….. 394

12,781

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧