【100分】Mongodb查询结果做差

mooonchen 2016-03-07 04:11:34

mongo中的collection为user，表结构如下：

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-01",

    "name" : "a"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-01",

    "name" : "b"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-02",

    "name" : "c"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-03",

    "name" : "a"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-03",

    "name" : "c"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-03",

    "name" : "d"

}

我想查询"create"为"2016-01-03"的name，但是这个name不能出现在"create"为"2016-01-01"中，
那么查询结果应该是

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-03",

    "name" : "c"

}

{

    "_id" : ObjectId("123..."),

    "create" : "2016-01-03",

    "name" : "d"

}

请问查询语句怎么写，最好用aggregate而不是find，急求结果，快速结帖给分，谢谢大家。

...全文

193 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

小灸舞 2016-03-08

打赏
举报

回复

mongodb是没有子查询和跨表查询的概念的，感觉没法实现啊 LZ这个感觉应该先把日期是2016-01-01中distinct所有name保存到一个数组中然后第二次查询的时候可以用$match:{$nin:[ ] } 那个数组排掉那个


db.user.aggregate([{"$match":{"create":"2016-01-03","name":{"$nin":["a","b"]}}}])

小灸舞 2016-03-08

打赏
举报

回复

引用 2 楼 mooonchen 的回复:

[quote=引用 1 楼 qq423399099 的回复:] mongodb是没有子查询和跨表查询的概念的，感觉没法实现啊 LZ这个感觉应该先把日期是2016-01-01中distinct所有name保存到一个数组中然后第二次查询的时候可以用$match:{$nin:[ ] } 那个数组排掉那个
db.user.aggregate([{"$match":{"create":"2016-01-03","name":{"$nin":["a","b"]}}}])

谢谢您的回复，有人建议我用aggregate，先match in ["2016-01-01","2016-01-03"]，然后group by name，然后count > 1的就是出现两次的，然后match过滤掉出现两次的同时保留 "create":"2016-01-03"，就是满足要求的。可是，我还是写不出来，求帮助。非常感谢。[/quote] 我一开始也是这么想的，我先match["2016-01-01","2016-01-03"]然后用$group和$sum计数大于1的，但是我保留不了create字段如果在group之前就用project显示的话，那么sum计数所有都是1，如果放在后面的话我就不会了。。。

mooonchen 2016-03-08

打赏
举报

回复

引用 1 楼 qq423399099 的回复:

mongodb是没有子查询和跨表查询的概念的，感觉没法实现啊 LZ这个感觉应该先把日期是2016-01-01中distinct所有name保存到一个数组中然后第二次查询的时候可以用$match:{$nin:[ ] } 那个数组排掉那个
db.user.aggregate([{"$match":{"create":"2016-01-03","name":{"$nin":["a","b"]}}}])

谢谢您的回复，有人建议我用aggregate，先match in ["2016-01-01","2016-01-03"]，然后group by name，然后count > 1的就是出现两次的，然后match过滤掉出现两次的同时保留 "create":"2016-01-03"，就是满足要求的。可是，我还是写不出来，求帮助。非常感谢。

数据库的名字叫WawaDB，是用python实现的。由此可见python是灰常强大啊！简介记录日志的需求一般是这样的：只追加，不修改，写入按时间顺序写入；大量写，少量读，查询一般查询一个时间段的数据； MongoDB的固定集合很好的满足了这个需求，但是MongoDB占内存比较大，有点儿火穿蚊子，小题大做的感觉。 WawaDB的思路是每写入1000条日志，在一个索引文件里记录下当前的时间和日志文件的偏移量。然后按时间询日志时，先把索引加载到内存中，用二分法查出时间点的偏移量，再打开日志文件seek到指定位置，这样就能很快定位用户需要的数据并读取，而不需要遍历整个日志文件。性能 Core 2 P8400,2.26GHZ,2G内存，32 bit win7 写入测试：模拟1分钟写入10000条数据，共写入5个小时的数据，插入300万条数据，每条数据54个字符，用时2分51秒读取测试:读取指定时间段内包含某个子串的日志数据范围遍历数据量结果数用时（秒） 5小时 300万 604 6.6 2小时 120万 225 2.7 1小时 60万 96 1.3 30分钟 30万 44 0.6 索引只对日志记录的时间做索引，简介里大概说了下索引的实现，二分查找肯定没B Tree效率高，但一般情况下也差不了一个数量级，而且实现特别简单。因为是稀疏索引，并不是每条日志都有索引记录它的偏移量，所以读取数据时要往前多读一些数据，防止漏读，等读到真正所需的数据时再真正给用户返回数据。如下图，比如用户要读取25到43的日志，用二分法找25，找到的是30所在的点，索引：0 10 20 30 40 50 日志：|.........|.........|.........|.........|.........|>>>a = [0, 10, 20, 30, 40, 50]>>>bisect.bisect_left(a, 35)>>>3>>>a[3]>>>30>>>bisect.bisect_left(a, 43)>>>5>>>a[5]>>>50 所以我们要往前倒一些，从20（30的前一个刻度）开始读取日志，21，22，23，24读取后因为比25小，所以扔掉, 读到25,26,27,...后返回给用户读取到40（50的前一个刻度）后就要判断当前数据是否大于43了，如果大于43（返回全开区间的数据），就要停止读了。整体下来我们只操作了大文件的很少一部分就得到了用户想要的数据。缓冲区为了减少写入日志时大量的磁盘写，索引在append日志时，把buffer设置成了10k，系统默认应该是4k。同理，为了提高读取日志的效率，读取的buffer也设置了10k，也需要根据你日志的大小做适当调整。索引的读写设置成了行buffer，每满一行都要flush到磁盘上，防止读到不完整的索引行（其实实践证明，设置了行buffer，还是能读到半拉的行）。查询啥？要支持SQL，别闹了，100行代码怎么支持SQL呀。现在查询是直接传入一个lambada表达式，系统遍历指定时间范围内的数据行时，满足用户的lambada条件才会返回给用户。当然这样会多读取很多用户不需要的数据，而且每行都要进行lambda表达式的运算，不过没办法，简单就是美呀。以前我是把一个需要查询的条件和日志时间，日志文件偏移量都记录在索引里，这样从索引里查找出符合条件的偏移量，然后每条数据都如日志文件里seek一次，read一次。这样好处只有一个，就是读取的数据量少了，但缺点有两个：索引文件特别大，不方便加载到内存中每次读取都要先seek，貌似缓冲区用不上，特别慢，比连续读一个段的数据，并用lambda过滤慢四五倍写入前面说过了，只append，不修改数据，而且每行日志最前面是时间戳。多线程查询数据，可以多线程同时查询，每次查询都会打开一个新的日志文件的描述符，所以并行的多个读取不会打架。写入的话，虽然只是append操作，但不确认多线程对文件进行append操作是否安全，所以建议用一个队列，一个专用线程进行写入。锁没有任何锁。排序默认查询出来的数据是按时间正序排列，如需其它排序，可取到内存后用python的sorted函数排序，想怎么排就怎么排。

1、取top N这种小结果集，想办法利用索引有序特性尽快返回结果集；db.collection.find({query}).sort({name:1}).limit(50)2、分页翻页，尤其是结果集特别多越往后翻页越慢。db.collection.find({query}).sort({name:1}).skip(N).limit(50)这里N越大，性能会越低。【上篇】分页topN案例以及优化思...

本课程环境：MongoDB 4.0.10，win7本课程为MongoDB实践课程，围绕MongoDB的安装，图形化工具的引入，CRUD实战演练，聚合技术的使用、索引的介绍、索引优化、性能优化、副本集搭建及分布式分片集群的搭建和原理解析以及Java实操Mongo来对MongoDB进行更深入的学习。学习完本课程后，同学们将对MongoDB有一个系统的认识，并且对如何应用MongoDB开发也会形成一套系统框架，深入学习本课程后，将学习MongoDB的大多使用场景。

spring data mongodb 大数据量查询性能差的原因(20s 优化到2s)

mongodb查询速度慢是什么原因？ 2011-12-22 15:28:00 标签：休闲 mongodb 查询慢职场 mongodb查询速度慢是什么原因？通过mongodb客户端samus代码研究解决问题最近有项目需要用到mongodb，于是在网上下载了mongodb的源码，根据示例写了测试代码，但发现一个非常奇怪的问题：插入记录的速度比获取数据

1,747

社区成员

1,464

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章