mongodb 的优化与使用spark连接

yisun123456 2017-10-23 02:32:52

1.千万级数据量的mongodb 结果集在百万级上，性能如何？
2.使用spark连接与处理mongodb数据，是否比JavaEE快？

...全文

850 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

小莫分享 2017-10-23

打赏
举报

回复

没玩过，就玩过mongodb感觉还行

关于java程序员发展需要学习的路线整理集合技术应用技术计算机基础知识 cpu mem disk net 线程，进程第三方库 poi Jsoup zxing Gson 数据结构树栈链表队列图操作系统 linux 代码控制自动化代码检查 sonar 代码规范阿里巴巴Java开发规范手册 UMPAY——编码规范日志规范异常规范网络协议 TCP/IP HTTP hession file HTTPS 负载均衡容器 JBOSS tomcat resin jetty 容灾日志框架开源框架 slf4j 框架实现 log4j logback commong logging jdk logger 测试框架测试框架 junit easymock testng mockito bug管理禅道 jira 开发工具编程工具 eclipse myeclipse idea vi VS webstorm sublime text 版本控制 svn git 项目管理 maven Nexus Jenkins 工作软件反编译软件 office系列下载器 adobe系列记录软件思维导图 office--Note 邮件管理性能优化分层优化系统级别中间件级别 JVM级别代码级别分段优化前端 web应用服务应用资源池数据库大数据与nosql zookeeper hadoop hbase mongodb strom spark java语言语言语法基础异常泛型内部类反射序列化 nIo 匿名类包装类优先级引用语言工具类库容器类集合链表 map 工具类系统类日期类数字类字符串+正则流字符流字节流语言特性继承封装多态 JVM 多线程与并发 GC机制 GC收集器类型串行 CMS 并行 G1 算法复制标记清理标记整理分区新生代 eden survivor 老年代（old区）永久代（perm区）版本变化 1.5 1.6 1.7 1.8 1.9 IO/NIO IO类型同步阻塞同步非阻塞基于信号多路复用异步IO 类加载机制双亲委派 OSGI 算法搜索二分排序选择冒泡插入快速归并堆桶基数常用算法贪婪回溯剪枝动态规划数据挖掘算法 KMP算法 GZZ算法 HASH分桶关联规则算法 APRORIVE算法分布式负载均衡水平伸缩集群分片 Key-hash 异步一致性hash 消峰分库分表锁悲观锁乐观锁行级锁分布式锁分区排队一致性一致性算法 paxos zab nwr raft gossip 柔性事务（TCC）一致性原理 CAP BASE 中间件数据库 mysql 存储引擎索引锁 oracle db2 缓存 redis 数据结构持久复制 cas 单线程 memcache eacache Tair 消息队列 jms Queue Topic kafka 持久复制 Stream Partition rocketMQ RabbitMQ ActiveMQ 常用开源框架 Spring Spring MVC Spring WebFlow spring tx aop ioc Struts ibatis Mybatis CAS Dubbo 工作能力软实力应急能力创新能力管理能力分享能力学习能力沟通能力解决问题能力经历技术攻关案例程序开发案例程序设计案例设计设计原则单一职责原则开闭原则里氏替换原则依赖倒转原则接口隔离原则迪米特原则设计模式结构模式适配器模式桥接模式组合模式装饰模式外观模式享元模式代理模式创建模式抽象工厂模式工厂方法模式建造这模式原型模式单例模式行为模式责任链模式命令模式解释器模式迭代器模式中介者模式备忘录模式观察者模式状态模式策略模式模板方法模式访问者模式设计案例 UML 架构系统架构能力基本理论扩展性设计可用性设计可靠性设计一致性设计负载均衡设计过载保护设计协议设计二进制协议文本协议接入层架构设计 DNS轮询动静态分离静态化反向代理 LVS F5 CDN 逻辑层架构设计连接池串行化技术影子Master架构批量写入配置中心去中心化通讯机制同步 RPC RMI 异步 MQ Cron 数据层架构设计缓存优化 DAO&ORM; 双主架构主从同步读写分离性能优化架构能力代码级别关联代码优化 cache对其分支预测 copy on write 内联优化系统优化 cache 延迟计算数据预读异步轮询与通知内存池模块化工程架构能力开发语言运维与监控监控系统监控日志监控流量监控接口监控数据库监控业务监控性能监控告警日志设计模式数据结构与算法各种工具

在Spark生态系统中，HDFS作为存储可以使用MongoDB来替代，构建成Spark+MongoDB生态系统。MongoDB作为文档存储型数据库，支持HDFS没有的索引概念，响应时间为毫秒级别，同时可以利用强大的aggregate函数做数据的筛选和预处理。

1.背景介绍 Spark是一个快速、通用的大数据处理框架，可以处理批量数据和流式数据。MongoDB是一个高性能的NoSQL数据库，可以存储和查询大量数据。在现代数据科学和大数据处理中，Spark和MongoDB之间的集成非常重要，可以帮助我们更高效地处理和分析数据。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例...

确认你的查询是否充分利用到了索引，用explain命令查看一下查询执行的情况，添加必要的索引，避免扫表操作。可能你的数据集非常大，但是这并不那么重要，重要的是你的热数据集有多大，你经常访问的数据有多大(包括经常访问的数据和所有索引数据)。使用MongoDB，你最好保证你的热数据在你机器的内存大小之下，保证内存能容纳所有热数据。MongoDB的数据文件是采用的预分配模式，并且在Replication里面，Master和Replica Sets的非Arbiter节点都是会预先创建足够的空文件用以存储操作日志。这

一、 mongodb与hive整合 1.拷贝jar包到hive的lib目录 2.在hive中创建表，关联mongodb create table individuals( id int, name string, age int, work STRUCT<title:string,hours:int>) stored by "com.mongodb.hadoop.hive.MongoStorageHandler" with serdeproperties ('mongo.columns.map

数据库开发

8,028

社区成员

1,361

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章