mongodb分片奔溃

小瑾 2017-03-09 05:13:41

因为资源紧张，一开始使用的是两台服务器，最近加了第3台服务器，很多集合的数据已经上亿，遇到的问题：
1、当数据进行查询的时候，我看了下有42条线程同时在执行查询操作，所有的写入都停止了，有没有办法解决这个问题，在没有查询的情况下，其实每秒的插入量应该到4K+的
insert query update delete getmore command flushes mapped vsize res faults qr|qw ar|aw netIn netOut conn set repl time
*0 *0 *0 *0 0 6|0 0 2.1G 177.0M 0 0|0 0|0 766b 9k 27 RTR 2017-03-09T14:26:41+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:42+08:00
*0 *0 *0 *0 0 2|0 0 2.1G 177.0M 0 0|0 0|0 201b 8k 27 RTR 2017-03-09T14:26:43+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:44+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:45+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:46+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:47+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:48+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:49+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:50+08:00
insert query update delete getmore command flushes mapped vsize res faults qr|qw ar|aw netIn netOut conn set repl time
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:51+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:52+08:00
*0 *0 *0 *0 0 2|0 0 2.1G 177.0M 0 0|0 0|0 201b 8k 27 RTR 2017-03-09T14:26:53+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:54+08:00
*0 *0 *0 *0 0 6|0 0 2.1G 177.0M 0 0|0 0|0 762b 8k 27 RTR 2017-03-09T14:26:55+08:00
*0 *0 *0 *0 0 1|0 0 2.1G 177.0M 0 0|0 0|0 143b 8k 27 RTR 2017-03-09T14:26:56+08:00
1265 *0 *0 *0 0 190|0 0 2.1G 177.0M 0 0|0 0|0 2m 22k 27 RTR 2017-03-09T14:26:57+08:00

2、发现经常出现主分片宕掉，比如昨天：是因为移动分片的时间过长了吗？

2017-03-08T12:23:12.871+0800 I WRITE [conn490] write request to old shard version 1887|1||5896e9b370956d953a47dfe1 waiting for migration commit
2017-03-08T12:23:12.871+0800 I SHARDING [conn490] Waiting for 10 seconds for the migration critical section to end
2017-03-08T12:23:12.871+0800 I - [conn76]

...全文

339 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

方丈的寺院 2017-04-04

打赏
举报

1. 查询阻塞了插入看下CPU，和IO占用考虑能不能提供查询性能。 2、发现经常出现主分片宕掉，比如昨天：是因为移动分片的时间过长了吗？什么叫主分片？ shard没有主从一说，只有某个shard的复制集结构有主从节点一说。移动分片的时间过长? 你是怀疑数据做rebalance,move chunk的时间过长？