map清洗数据出错

batsom 2015-10-15 01:05:04

数据格式：0.0.0.0 0.255.255.255 湖北省

while(tokenizer.hasMoreTokens()){
String startip=tokenizer.nextToken();
String endip=tokenizer.nextToken();
String country=tokenizer.nextToken().substring(0,4);
context.write(new Text(startip),new Text());
}

出错的地方在第二个nextToken()，但是我以前用的时候很正确，这次使用时发现在第一次nextToken()数据就已经分离出来了，很奇怪，就大神解答

...全文

175 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

batsom 2015-10-15

打赏
举报

回复

问题已经找出来了！哎！太菜了

夜无边CN 2015-10-15

打赏
举报

回复

引用楼主 batsom 的回复:

数据格式：0.0.0.0 0.255.255.255 湖北省 while(tokenizer.hasMoreTokens()){ String startip=tokenizer.nextToken(); String endip=tokenizer.nextToken(); String country=tokenizer.nextToken().substring(0,4); context.write(new Text(startip),new Text()); } 出错的地方在第二个nextToken()，但是我以前用的时候很正确，这次使用时发现在第一次nextToken()数据就已经分离出来了，很奇怪，就大神解答

没太明白你表达的什么意思。StringTokenizer好像已经不建议使用了吧。

目标:通过网上下载的OpenStreetMap.xml数据格式,将该文件的格式进行统计,清洗,并导出成CSV格式的文件,最后倒入到SQLite中本案例中所需的包 import csv import codecs import pprint import re import xml....

第四部分清洗数据进行分析深入了解数据清理的一些重要方面。学习字符串操作和模式匹配以处理非结构化数据，然后探索处理丢失或重复数据的技术。学习以编程方式检查数据的一致性的技能，用以确信代码正确运行并且...

数据清洗 ETL 编写MapReduce程序实现数据清洗简介：实现的功能：对采集到的日志数据进行清洗，过滤无效数据、静态资源方法：编写MapReduce进行处理涉及到的类： 1）实体类Bean 描述日志数据的各个字段：如...

咳咳，终于要写mapreduce了，算是填上了以前挖的坑...数据去重：map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce，无论这个数据出现多少次，只要在最终结果中输出一次就可以了...

数据清洗是处理大型复杂情况数据必不可少的步骤，这里总结一些数据清洗的常用方法：包括缺失值、重复值、异常值处理，数据类型统计，分箱，随机采样，向量化编码等方法。每种方法都给出了代码和实例，并用表格进行...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章