社区
数据库开发
帖子详情
mongodb 的优化 与使用spark连接
yisun123456
2017-10-23 02:32:52
1.千万级数据量的mongodb 结果集在百万级上,性能如何?
2.使用spark连接与处理mongodb数据,是否比JavaEE快?
...全文
850
1
打赏
收藏
mongodb 的优化 与使用spark连接
1.千万级数据量的mongodb 结果集在百万级上,性能如何? 2.使用spark连接与处理mongodb数据,是否比JavaEE快?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
小莫分享
2017-10-23
打赏
举报
回复
没玩过,就玩过mongodb感觉还行
【白雪红叶】JAVA学习技术栈梳理思维导图.xmind
关于java程序员发展需要学习的路线整理集合 技术 应用技术 计算机基础知识 cpu mem disk net 线程,进程 第三方库 poi Jsoup zxing Gson 数据结构 树 栈 链表 队列 图 操作系统 linux 代码控制 自动化代码检查 sonar 代码规范 阿里巴巴Java开发规范手册 UMPAY——编码规范 日志规范 异常规范 网络 协议 TCP/IP HTTP hession file HTTPS 负载均衡 容器 JBOSS tomcat resin jetty 容灾 日志框架 开源框架 slf4j 框架实现 log4j logback commong logging jdk logger 测试框架 测试框架 junit easymock testng mockito bug管理 禅道 jira 开发工具 编程工具 eclipse myeclipse idea vi VS webstorm sublime text 版本控制 svn git 项目管理 maven Nexus Jenkins 工作软件 反编译软件 office系列 下载器 adobe系列 记录软件 思维导图 office--Note 邮件管理 性能
优化
分层
优化
系统级别 中间件级别 JVM级别 代码级别 分段
优化
前端 web应用 服务应用 资源池 数据库 大数据与nosql zookeeper hadoop hbase
mongodb
strom
spark
java语言 语言语法基础 异常 泛型 内部类 反射 序列化 nIo 匿名类 包装类 优先级 引用 语言工具类库 容器类 集合 链表 map 工具类 系统类 日期类 数字类 字符串+正则 流 字符流 字节流 语言特性 继承 封装 多态 JVM 多线程与并发 GC机制 GC收集器类型 串行 CMS 并行 G1 算法 复制 标记清理 标记整理 分区 新生代 eden survivor 老年代(old区) 永久代(perm区) 版本变化 1.5 1.6 1.7 1.8 1.9 IO/NIO IO类型 同步阻塞 同步非阻塞 基于信号 多路复用 异步IO 类加载机制 双亲委派 OSGI 算法 搜索 二分 排序 选择 冒泡 插入 快速 归并 堆 桶 基数 常用算法 贪婪 回溯 剪枝 动态规划 数据挖掘算法 KMP算法 GZZ算法 HASH分桶 关联规则算法 APRORIVE算法 分布式 负载均衡 水平伸缩 集群 分片 Key-hash 异步 一致性hash 消峰 分库分表 锁 悲观锁 乐观锁 行级锁 分布式锁 分区排队 一致性 一致性算法 paxos zab nwr raft gossip 柔性事务(TCC) 一致性原理 CAP BASE 中间件 数据库 mysql 存储引擎 索引 锁 oracle db2 缓存 redis 数据结构 持久 复制 cas 单线程 memcache eacache Tair 消息队列 jms Queue Topic kafka 持久 复制 Stream Partition rocketMQ RabbitMQ ActiveMQ 常用开源框架 Spring Spring MVC Spring WebFlow spring tx aop ioc Struts ibatis Mybatis CAS Dubbo 工作能力 软实力 应急能力 创新能力 管理能力 分享能力 学习能力 沟通能力 解决问题能力 经历 技术攻关案例 程序开发案例 程序设计案例 设计 设计原则 单一职责原则 开闭原则 里氏替换原则 依赖倒转原则 接口隔离原则 迪米特原则 设计模式 结构模式 适配器模式 桥接模式 组合模式 装饰模式 外观模式 享元模式 代理模式 创建模式 抽象工厂模式 工厂方法模式 建造这模式 原型模式 单例模式 行为模式 责任链模式 命令模式 解释器模式 迭代器模式 中介者模式 备忘录模式 观察者模式 状态模式 策略模式 模板方法模式 访问者模式 设计案例 UML 架构 系统架构能力 基本理论 扩展性设计 可用性设计 可靠性设计 一致性设计 负载均衡设计 过载保护设计 协议设计 二进制协议 文本协议 接入层架构设计 DNS轮询 动静态分离 静态化 反向代理 LVS F5 CDN 逻辑层架构设计
连接
池 串行化技术 影子Master架构 批量写入 配置中心 去中心化 通讯机制 同步 RPC RMI 异步 MQ Cron 数据层架构设计 缓存
优化
DAO&ORM; 双主架构 主从同步 读写分离 性能
优化
架构能力 代码级别 关联代码
优化
cache对其 分支预测 copy on write 内联
优化
系统
优化
cache 延迟计算 数据预读 异步 轮询与通知 内存池 模块化 工程架构能力 开发语言 运维与监控 监控 系统监控 日志监控 流量监控 接口监控 数据库监控 业务监控 性能监控 告警 日志 设计模式 数据结构与算法 各种工具
大数据系列之
Spark
和
MongoDB
集成
在
Spark
生态系统中,HDFS作为存储可以
使用
MongoDB
来替代,构建成
Spark
+
MongoDB
生态系统。
MongoDB
作为文档存储型数据库,支持HDFS没有的索引概念,响应时间为毫秒级别,同时可以利用强大的aggregate函数做数据的筛选和预处理。
Spark
与
MongoDB
集成
1.背景介绍
Spark
是一个快速、通用的大数据处理框架,可以处理批量数据和流式数据。
MongoDB
是一个高性能的NoSQL数据库,可以存储和查询大量数据。在现代数据科学和大数据处理中,
Spark
和
MongoDB
之间的集成非常重要,可以帮助我们更高效地处理和分析数据。 本文将从以下几个方面进行阐述: 背景介绍 核心概念与联系 核心算法原理和具体操作步骤以及数学模型公式详细讲解 具体代码实例...
MongoDB
优化
的几点原则
确认你的查询是否充分利用到了索引,用explain命令查看一下查询执行的情况,添加必要的索引,避免扫表操作。可能你的数据集非常大,但是这并不那么重要,重要的是你的热数据集有多大,你经常访问的数据有多大(包括经常访问的数据和所有索引数据)。
使用
MongoDB
,你最好保证你的热数据在你机器的内存大小之下,保证内存能容纳所有热数据。
MongoDB
的数据文件是采用的预分配模式,并且在Replication里面,Master和Replica Sets的非Arbiter节点都是会预先创建足够的空文件用以存储操作日志。这
MongoDB
与大数据平台的整合(Hive、
Spark
)
一、
mongodb
与hive整合 1.拷贝jar包到hive的lib目录 2.在hive中创建表,关联
mongodb
create table individuals( id int, name string, age int, work STRUCT<title:string,hours:int>) stored by "com.
mongodb
.hadoop.hive.MongoStorageHandler" with serdeproperties ('mongo.columns.map
数据库开发
8,028
社区成员
1,361
社区内容
发帖
与我相关
我的任务
数据库开发
高性能数据库开发
复制链接
扫一扫
分享
社区描述
高性能数据库开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章