hadoop问题请教??

yangzhengm 2012-12-04 04:33:47
请问一下,hadoop处理的数据从哪里来???有没有专门提供练习的数据包之类的,还是通过淘宝等开放平台的api连接到它的数据中心开发或者抓取它的web信息作分析,谢谢。
...全文
177 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
cranley 2013-01-08
  • 打赏
  • 举报
回复
HADOOP分两部分,HDFS文件系统和MapReduce计算框架 HDFS只是提供一个文件存取操作的接口,一般是调用HADOOP包里面的API往往上面写文件就是了 MAPREDUCE是处理HDFS上面文件的计算框架,一般要自己根据业务开发JAR包来运行,以处理已经上载的文件。 你说的数据获取和算法的改进,就要自己根据业务系统去实现了。
yangzhengm 2012-12-06
  • 打赏
  • 举报
回复
好的,非常感谢你的建议,想必你弄过hadoop吧。但是我更关心的是数据的获取,呵呵,运行环境的搭建可以有参考书之类的,但是下面一步就是有效数据的获取和算法的改进,希望能够继续得到你的帮助。谢谢!
BaYangMoBeiBei 2012-12-05
  • 打赏
  • 举报
回复
hadoop处理的数据,是放在HDFS上。 Hadoop刚开始主要包括HDFS和MapReduce,现在Hadoop越来越成熟了,HDFS和MapReduce都可以独立研究,Hadoop也能兼容其他的分布式文件系统了。 你如果想用hadoop,建议先自己在Linux下搭建一个Hadoop环境,配置成伪分布式模式,网上有很多教程的。hadoop官网有一个WordCount实例,这就相当于编程的HelloWorld级别的一个MapReduce程序,有本书是Hadoop权威指南,你可以看一下

20,807

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧