如何通过COPY Command把s3上csv gz的文件load到reshift上

alex_82712 2018-04-13 09:44:28
csv gz的文件是以逗号分隔的,但是有一些特殊字符为了保证数据的完整性,被双型号包起来了

csv file sample:

doc_key,doc_name,doc_brand,brand_inc,etl_load_date
8a14eff760993c84d2306b3547fc6bea,VIRTUALLY CALIFORNIA,UNITED STATES OF AMERICA,UNKNOWN,2018-02-28
1fd23373942c9ffcdfc7223cd1114ee1,"ARIZONA \"9\" LLC",UNITED STATES OF AMERICA,UNKNOWN,2018-02-28

copy stg.train_ticket from 's3://{path}/'
CREDENTIALS 'aws_access_key_id={aws_access_key_id};aws_secret_access_key={aws_secret_access_key}'
TRIMBLANKS TRUNCATECOLUMNS ACCEPTINVCHARS dateformat as 'auto'
GZIP csv quote as '"' delimiter ',' IGNOREHEADER as 1;

我在sqlworkbench运行上面这个copy cmd,报错
An error occurred when executing the SQL command:
copy stg.train_ticket from 's3://{path}/'
CREDENTIALS 'aws_access_key_id={aws_access_key_id};aws_secret_access...

[Amazon](500310) Invalid operation: Load into table 'train_ticket ' failed. Check 'stl_load_errors' system table for details.;
1 statement failed.

查到stl_load_errors这个表的错误信息是:
column: doc_name
err_reason: Invalid quote formatting for CSV
raw_field_value: ARIZONA \\
err_code: 1214

请问这一段要怎么处理 "ARIZONA \"9\" LLC"
...全文
1339 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧