hive建表及导入数据的问题

dlkdqpi 2013-05-24 09:15:38

本人hive菜鸟，刚尝试着将hadoop及hive安装上，建了一个有45个double类型组成的表:
create table dht_tab(name1 DOUBLE ,name2 DOUBLE, ... ,name45 DOUBLE);
本地磁盘上有个名为“dhtnew.dh”的一个数据，可看为45*n个DOUBLE型的2进制字节的顺序文件组成。
我将其导入的语句是：
load data local inpath 'dhtnew.dh' overwrite into table dht_tab;
但是后来查看的时候表是空的，貌似全部违反了schema。这我很不理解。
请问是否我建表的语句有问题，过于简单了？那么正确的建表语句是什么？

...全文

1907 13 打赏收藏转发到动态举报

写回复

用AI写文章

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

egraldloi 2015-03-06

打赏
举报

楼主问题解决了吗？

dlkdqpi 2013-06-03

打赏
举报

引用 11 楼 0flying0 的回复:

[quote=引用 2 楼 dlk004 的回复:] 之前想到分隔符的事了,我要导入的是顺序文件，都是2进制字节，请问怎么设置行分隔符和列分隔符?

要看一下二进制的文件是什么编码的，ascii的考虑 '\001',unicode 可以考虑'\u0001'[/quote] 我明白你的意思，但我要处理的文件是一个double8字节紧挨着另一个double的。所以不知道怎么让hive区分列。难道它不能自动按模式中类型的长度自动读取一定长度的字节么？

r6 2013-05-31

打赏
举报

引用 2 楼 dlk004 的回复:

之前想到分隔符的事了,我要导入的是顺序文件，都是2进制字节，请问怎么设置行分隔符和列分隔符?

要看一下二进制的文件是什么编码的，ascii的考虑 '\001',unicode 可以考虑'\u0001'

dlkdqpi 2013-05-28

打赏
举报

本以为Hive很强大呢，难道只能处理文本文件么？木有知道解决办法的么？这周末结贴。

dlkdqpi 2013-05-27

打赏
举报

引用 8 楼 tntzbzc 的回复:

这个有点无解了给你两种解决方案 1、修改C Code，用文本输出，每个DOUBLE之间一个分隔符分割数据列 2、把原数据全部导入HDFS，然后写一个MAPREDUCE，重整这些数据到文本

谢谢，我在网上也没查到什么方法。貌似hive只有切割，没有按固定字节长度读取的方法。

撸大湿 2013-05-27

打赏
举报

这个有点无解了给你两种解决方案 1、修改C Code，用文本输出，每个DOUBLE之间一个分隔符分割数据列 2、把原数据全部导入HDFS，然后写一个MAPREDUCE，重整这些数据到文本

dlkdqpi 2013-05-27

打赏
举报

原始数据也就是地震数据，如segy,segd等格式，通常比较庞大。

dlkdqpi 2013-05-27

打赏
举报

引用 5 楼 tntzbzc 的回复:

贴一行原始数据给我看看

原始数据擦不多这样：用C操作的，

double a,b;
char* c = (char*)malloc(sizeof(double)*2);
memcpy(c,&a,8);memcpy(c,&b,8);
int h = open(filepath,wr);
write(h,c,16);

撸大湿 2013-05-26

打赏
举报

贴一行原始数据给我看看

dlkdqpi 2013-05-26

打赏
举报

引用 1 楼 tntzbzc 的回复:

create table dht_tab(name1 DOUBLE ,name2 DOUBLE, ... ,name45 DOUBLE)row format delimited fields terminated by '\t';
--用制表符作为分隔符
load data local inpath 'LOCAL_PATH/dhtnew.dh' overwrite into table dht_tab fields terminated by '\t' 确认你要倒入文件的分隔符

谢谢您的帮助，可我还是没有明白设置行列分隔符如何设置。因为我用row format delimited fields terminated by '\t'还是没有成功。数据都以字节挨着的，怎么能用\t呢。而且这我只是举个例子。实际上数据很大我无法转成double.本想建个表，45个double,3000个float列组成，数据都是按这个结构重复组成的。

撸大湿 2013-05-26

打赏
举报

引用 2 楼 dlk004 的回复:

之前想到分隔符的事了,我要导入的是顺序文件，都是2进制字节，请问怎么设置行分隔符和列分隔符?

二进制数据倒入HIVE前最好做一次ETl转换看LZ都是用DOUBLE，不妨把二进制先转成DOUBLE，再倒入HIVE 当然，如果LZ一定要用HIVE直接保存二进制数据也可以给你个链接https://issues.apache.org/jira/browse/HIVE-637 介绍了如何用HIVE去处理二进制BLOB数据

dlkdqpi 2013-05-26

打赏
举报

之前想到分隔符的事了,我要导入的是顺序文件，都是2进制字节，请问怎么设置行分隔符和列分隔符?

撸大湿 2013-05-26

打赏
举报

create table dht_tab(name1 DOUBLE ,name2 DOUBLE, ... ,name45 DOUBLE)row format delimited fields terminated by '\t';
--用制表符作为分隔符

load data local inpath 'LOCAL_PATH/dhtnew.dh' overwrite into table dht_tab fields terminated by '\t' 确认你要倒入文件的分隔符

HIVE建表时可以指定映射关系直接读取HBASE的数据，相当于有了一个HBASE向HIVE的通道。那HIVE向HBASE有通道吗？本文主要讲述了Hive库数据如何入到HBASE中。

关于Hive自学视频的对照数据，包含了Hive分栏里面的全部导表数据，直接按照Hive对照文档建表导入数据即可使用

Hive SQL是基于Hadoop的数仓解决方案之一，它提供了类似于SQL的数据操作语言和丰富的数据处理函数，可以帮助我们快速地从大量的非结构化和半结构化数据中提取有意义的信息。 Hive SQL主要包括以下内容：建表语句：可以通过Hive SQL创建表格，并定义列名、数据类型、分隔符等属性。数据加载语句：可以将数据从本地文件系统或HDFS中导入到Hive表中。数据查询语句：可以通过类似于SQL的语法查询Hive表中的数据，并支持聚合操作、过滤条件等操作。数据转换语句：可以通过Hive SQL进行数据转换，例如数据清洗、转换、合并等操作。数据导出语句：可以将Hive表中的数据导出到本地文件系统或HDFS中。总体而言，Hive SQL是面向数据仓库的一种数据操作语言，它使用类似于SQL的语法，同时又能够利用Hadoop的分布式计算能力对海量数据进行处理。

hive脚本固定参数建表模板导入数据模板等

详细描述了hive分桶表，分区表的创建，附带详细建表语句，包含一级静态分区，二级静态分区，一级动态分区，二级动态分区，分区的查询，删除，添加，数据的导入

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章