spark如何处理多数据集类似leftjoin的操作

WagTTo 2018-01-24 09:49:59
我有两个超大数据集,一个是ip地址列表,另一个是网络prefix列表。
例如:ip_list(192.168.0.1, 192.168.0.2, 192.168.1.9, 172.16.1.100...), prefix_list(192.168.0.0/16, 172.16.1.0/24...)
需要将左边的ip和右边所有prefix列表进行匹配,得出所有prefix中包含的ip个数。
例如对于以上例子最终结果应该为(192.168.0.0/16, 3), (172.16.1.0/24, 1),即对于ip列表(192.168.0.1, 192.168.0.2, 192.168.1.9, 172.16.1.100)有3个ip属于192.168.0.0/16这个网段,有1个ip属于172.16.1.0/24这个网段。
请问各位,这个用spark该如何实现呢?
...全文
725 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
jpcflyer 2018-01-27
  • 打赏
  • 举报
回复
使用spark sql

2,209

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 其他数据库
社区管理员
  • 其他数据库社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧