目前Dataworks只支持写入doris,不支持读 从阿里云selectdb文档可以看到有一种导出方式:SELECT INTO OUTFILE 可以搭配Dataworks的数据库节点:Doris节点+oss外表的方式导入数据到MaxCompute
可以先写个简单sql测试下是否可以查询到数据 参考sql
sqlSET sql_select_limit = 999999999; -- sql结果条数限制
set enable_parallel_outfile = true; -- 开发并发,实际有无并发可参考官方文档查看
SET query_timeout = 900*3; -- 设置查询超时时间
SELECT
*
FROM
mm_hailuo.trace_log
WHERE
create_date = '${P_DATE}'
AND GET_JSON_BIGINT(content, '$.type') = 3
INTO OUTFILE "s3://crawler-data-storage/trace_log/ymd=${P_DATE}/"
FORMAT AS PARQUET
PROPERTIES
(
"s3.endpoint" = "oss-cn-shanghai-internal.aliyuncs.com",
"s3.access_key" = "xxx",
"s3.secret_key" = "xxx",
"s3.region" = "cn-shanghai",
"success_file_name" = "_SUCCESS"
);
Schemaless Query MaxCompute支持免定义查询(Schemaless Query)OSS中Parquet外部表数据,解析后的数据集结果可以导出至OSS或写入内部表,同时也可以作为子查询嵌入SQL运算,从而便捷地操作湖上数据。
sqlINSERT OVERWRITE TABLE ods_hailuo_trace_log_di PARTITION(ymd='${P_DATE}')
SELECT
create_date,
biz_id,
log_key,
sub_log_key,
content
FROM location 'oss://oss-cn-shanghai-internal.aliyuncs.com/crawler-data-storage/trace_log/ymd=${P_DATE}/'
(
'file_format'='parquet',
'file_pattern_blacklist'='.*SUCCESS'
);
本文作者:ender
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!