求教，多线程脏读问题！

魏飞翔 2020-11-09 10:27:39

问题描述：
多线程获取内容（消费kafka数据），想实现的功能是数据满1000条或者30秒则把数据推送到下游接口
问题：
查看数据库中数据发现会造成丢数、脏读等情况。

...全文

2228 20 打赏收藏转发到动态举报

写回复

用AI写文章

20 条回复

切换为时间正序

请发表友善的回复…

发表回复

魏飞翔 2020-11-11

打赏
举报

我的解决方法是把kafka改为批量消费啦，所以上面问题也就是不存在，谢谢大家

魏飞翔 2020-11-11

打赏
举报

引用 16 楼冰思雨的回复:

entityMap的用法有些问题，synchronized关键字的用法也存在瑕疵。 1. 先说一下entityMap，楼主对 ConcurrentHashMap 的理解还是存在问题，这个Map是线程安全的类，只能保证它的单独一次调用是线程安全的，也就是说它的锁区间只包含在单个的方法调用期间。楼主在使用 entityMap 的过程中，是先调用了 containsKey 函数，然后才是 get 或者 put 方法，这种用法的逻辑思路很清晰，但是，你忽略了一点，就是它的锁不是上在if块上的，只在单独的 containsKey 函数调用期间有锁保护（单独的get/put调用也一样），所以，代码的保护区间出现了问题。造成的后果是：相同batchKey的两个线程，一个线程调用完 containsKey 返回false之后被切换出去，另一个线程也调用 containsKey 函数，也会返回 false，因为第一个线程的if块不是整体锁保护的，在执行完containsKey函数之后，是可以被切换出去的。然后，两个线程都会执行false条件下的代码块，创建了两个ArrayList，当然，先创建的ArrayList会被后创建的覆盖掉，从而造成数据的丢失。 2. List<CouponEntity> list 的用法也存在问题。多线程状况下，没有对核心数据操作进行锁保护，一个线程执行完 sendPostRequest 函数后别切换出去，另一个线程已然可以对相同的list进行sendPostRequest调用，因为前一个线程没有调用clear方法，list里面仍然有数据，从而造成数据的重复发送。 3. 为啥最后说这个 synchronized 呢？因为，exeKafka 方法上的同步关键字，它的锁对象不是 entityMap ，所以，后面那个在 entityMap上面使用同步关键字的代码，失去了意义。两个不同的锁对象，代表两个独立的锁保护机制。正确的做法应该是对同一个对象进行上锁，然后，保护这个对象的多个数据操作代码，从而达到同一时刻只能有一个线程进入被保护的其中一个代码块，达到线程安全的目的。额外解释一下：为啥 exeKafka 函数已经上锁了，为啥还会出现数据问题呢？关键就在于你只保证了同一时刻只有一个线程在调用exeKafka函数，但是，目前的synchronized关键字的用法，你无法保证一个线程在执行exeKafka函数时，其他线程不能调用timerSend函数啊。如果有两个线程同时分别调用exeKafka函数和timerSend函数，会产生什么结果? 看看我1和2说的内容，你品，你细品~

我明白i的意思，这块代码已经优化啦。还是谢谢大佬给讲解的多线程这块知识

幽饮烛 2020-11-11

打赏
举报

都用 kafka 了，下游直接消费处理就行了。

冰思雨 2020-11-11

打赏
举报

最后吐槽一下楼主的这段代码吧。 1. 对线程安全以及synchronized的理解有严重的偏差，代码写成这个样子，面试线程安全相关的问题，肯定是过不去的。 2. 对线程安全的类以及使用方法缺少使用经验，感觉线程安全方面的编程应该是个空白的样子。实际上，滥用synchronized关键字，会造成代码的执行效率极其低下，最极端的情况是不如单个线程的执行效率高。编写多线程程序的时候，还要注意，很多线程安全的类都会提供一些原子操作的函数，完成一些由一个逻辑判断加一个数据访问组成的操作，巧用这些函数可以免去很多if判断然后put/get这样的用法，从而避免由锁保护区不完整造成线程安全的问题。总之，不是说使用了线程安全的类对象，就不会产生线程安全的问题了，关键还是要会用才行。

冰思雨 2020-11-11

打赏
举报

entityMap的用法有些问题，synchronized关键字的用法也存在瑕疵。 1. 先说一下entityMap，楼主对 ConcurrentHashMap 的理解还是存在问题，这个Map是线程安全的类，只能保证它的单独一次调用是线程安全的，也就是说它的锁区间只包含在单个的方法调用期间。楼主在使用 entityMap 的过程中，是先调用了 containsKey 函数，然后才是 get 或者 put 方法，这种用法的逻辑思路很清晰，但是，你忽略了一点，就是它的锁不是上在if块上的，只在单独的 containsKey 函数调用期间有锁保护（单独的get/put调用也一样），所以，代码的保护区间出现了问题。造成的后果是：相同batchKey的两个线程，一个线程调用完 containsKey 返回false之后被切换出去，另一个线程也调用 containsKey 函数，也会返回 false，因为第一个线程的if块不是整体锁保护的，在执行完containsKey函数之后，是可以被切换出去的。然后，两个线程都会执行false条件下的代码块，创建了两个ArrayList，当然，先创建的ArrayList会被后创建的覆盖掉，从而造成数据的丢失。 2. List<CouponEntity> list 的用法也存在问题。多线程状况下，没有对核心数据操作进行锁保护，一个线程执行完 sendPostRequest 函数后别切换出去，另一个线程已然可以对相同的list进行sendPostRequest调用，因为前一个线程没有调用clear方法，list里面仍然有数据，从而造成数据的重复发送。 3. 为啥最后说这个 synchronized 呢？因为，exeKafka 方法上的同步关键字，它的锁对象不是 entityMap ，所以，后面那个在 entityMap上面使用同步关键字的代码，失去了意义。两个不同的锁对象，代表两个独立的锁保护机制。正确的做法应该是对同一个对象进行上锁，然后，保护这个对象的多个数据操作代码，从而达到同一时刻只能有一个线程进入被保护的其中一个代码块，达到线程安全的目的。额外解释一下：为啥 exeKafka 函数已经上锁了，为啥还会出现数据问题呢？关键就在于你只保证了同一时刻只有一个线程在调用exeKafka函数，但是，目前的synchronized关键字的用法，你无法保证一个线程在执行exeKafka函数时，其他线程不能调用timerSend函数啊。如果有两个线程同时分别调用exeKafka函数和timerSend函数，会产生什么结果? 看看我1和2说的内容，你品，你细品~