谁能帮做一下这套试卷

xiaocao7k 2017-12-18 08:46:45
一、选择题(1题1分)
1、以下那个不是hdfs模块的服务(B)
A.Namenode
B.Nodemanager
C.Datanode
D.Secondarynamenode
2、哪一个方法不在FileInputFormat类中(D),不用考虑方法参数。
A. addInputPath()
B. getPathStrings()
C. getSplits()
D. List()
3、HIVE与传统SQL数据库对比,下面描述不正确的是(C)
A. 对于查询语言:HIVE使用HQL,传统SQL数据库使用SQL
B. 对于数据存储:HIVE使用HDFS存储,传统SQL数据库使用本地磁盘
C. 最终执行者:HIVE使用MapReduce和Excutor执行,传统SQL数据库使用Excutor执行器
D. 执行延迟:HIVE属于高,传统SQL数据库属于低
4、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是(D)
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D.文件系统允许有修改
5、Hive数据仓库和关系型数据库mysql的区别(BC)
A.Hive不支持事务而mysql支持事务
B.hive高延迟而mysql相对低延迟。
C.Hive不支持索引而mysql支持索引。
D.Hive的分区和mysql的分区都用表内字段。
6、MapReduce与HBase的关系,哪些描述是正确的? (BC)
A 两者不可或缺,MapReduce是HBase可以正常运行的保证
B 两者是强关联关系,没有MapReduce,HBase就不可以正常运行
C MapReduce可以直接访问HBase
D 它们之间没有任何关系
7、关于ssh协议中的免登录,下列理解错误的是(B)
A. 可以用命令 ssh-keygen -t rsa 生成公私密钥对
B. Ssh协议是一种非安全的连接
C. 可以用 ssh-copy-id 命令来发送公钥到别的服务器
D.Ssh的私钥不是必须保留在服务器上
8、Mapper类的输入输出类型参数,下列那个有错()
A.LongWritable, Text, Text, Text
B.object, Text, Text, IntWritable
C.Text, Text, Text, Text
D.LongWritable, Text, Text, NullWritable
9、对mapreduce数据类型理解正确()
A.自定义数据类型都必须实现WritableComparable接口。
B.数据可以被序列化进行网络传输和文件存储。
C.Mapreduce中的数据类型和java一模一样。
D.Mapreduce中的数据类型完全覆写java中基本类型。
10、hbase中的HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()
A 是byte[]数组
B 没有固定的结构
C 数据的大小是定长的
D 可以存储字符串

二、多选题(1题2分)
1、Rowkey设计的原则,下列哪些选项的描述是正确的?(ABC)
A 保证业务前提下,尽量保证越短越好
B 可以存java中的基础类型
C 可以使用字符串
D 本身是无序的d
2、下列有关hive说法正确的有()
A 动态分区表只有一种加载数据的方式。
B cluster by 和 distrbute by + sortby的功能相同。
C 在 hive中 ,子查询 和主查询如果是一个表的 话 ,没有必要给子查询或主查询加别名。
D hive是基于Hadoop 构建的一套数据仓库分析系统。
3、下列理解错误的是()
A.mapreduce程序一定需要map
B.Mapreduce可以不用map
C.Mapreduce一定需要reduce
D.Mapreduce程序不需要configuration类
4、以下哪些分区的特点()
A.一个表可以有一个或者多个分区。
B.表名和字段名不区分大小
C.分区字段名是一个伪列,并不真实存在在元数据中。
D.分区表和分桶表一模一样。
5、下列关于hbase的说法错误的是 ()
A.Hbase表中的数据 每一个列族 单独一个存储文件 在hdfs上
B.Hbase是适合海量数据(PB级)的秒级查询的数据库
C.Hbase表中的记录按照列进行拆分
D.Hbase适合频繁插入修改数据

三、填空题(1题1分)
1、Hive的数据管理模式采用( )。
2、sqoop指定导入到hdfs的目录的关键字()
3、将hdfs文件系统中的根目录下的hadoop.tar文件下载到服务器的home目录下的命令是()
4、将jdk1.7远程拷贝到主机名为hadoop的服务器的home目录下的命令: ()。
5、HBase中()是用来检索记录的主键。


四、判断题(1题1分)
1、Hbase列中没有值就插入null,占用底层物理存储很少的空间()
2、hive 能insert into同时也能updata 、delete等操作。 ( )
3、flume 的source有avro类型,sink也有avro类型。 ( )
4、NameNode 负责文件元数据的操作,DataNode负责处理文件内容的读写操作,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode联系。( )
5、HBaase中查询记录的关键字是select。()

五、简答题
1、写出mapreduce的运行流程?
2、hdfs的存储机制是什么?
3、hive的优化有哪些?
4、hbase的优化有哪些?
5、介绍hadoop、hive、sqoop、hbase、flume各自的用处?
6、写出你了解的hadoop生态圈其它的组件(除我们学习外的2个及以上)并简单介绍用途和需要注意事项?

六、编程题
1、已知有文件test.txt,内容格式如下:
A,b,c,d,e
1,2,3,4,5
请你使用熟悉的脚本语言,实现输出如下的格式:
b,d
2,4

2、用一条hql语句查询出没门课程都大于80分的学生的姓名和总分数:(先创建表、再加载数据、最后查询)
Name course score
张三 chinese 81
张三 math 75
李四 chinese 90
李四 math 71
王五 chinese 91
王五 math 81

3、请参照wordcount实现自己的一个mr:
需求:
a 输入文件格式: XXX,XXX,XXX,XXX,XXX
b 输出文件格式: xxx,20 xxx,30 xxx,40 xxx,50
c 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示出来
例如:hadoop jar xxx.jar keywordcount xxx,xxx,xxx,xxx /输入文件 、输出文件
4、写一个hive自定义函数实现如下需求:(数据如该目录下的两个文件)
某房地产元数据清洗。清洗规则如下:
a、过滤,整行数据完全相同的只留一行即可。
b、第1列数据某些字段需要加"[]"(自己结合分析前后观察规律)。
c、第2列数据不需要。
d、将第4列中的"-"替换成"室"。
e、将第5列数据中的空格去掉。
f、将6、7、8列改成如下格式。
g、将10列数据中值小于300的排除掉整行数据,并将剩下的第10列数据后面加上单位"万"。
h、清洗完后的第1列和第2列用Tab键分隔,第2、3、4、5、6、7列分别用空格分隔。
i、全部按规则输出,并且输出文件中第一行是抬头。
...全文
689 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
SmallbenClock 2018-11-29
  • 打赏
  • 举报
回复
一、选择题的第7题D选项是否也是错的

20,807

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧