编辑
2025-07-23
数仓
0
请注意,本文编写于 294 天前,最后修改于 149 天前,其中某些信息可能已经过时。

目录

1. 新建doris节点
2. 外表导入

目前Dataworks只支持写入doris,不支持读 从阿里云selectdb文档可以看到有一种导出方式:SELECT INTO OUTFILE 可以搭配Dataworks的数据库节点:Doris节点+oss外表的方式导入数据到MaxCompute

1. 新建doris节点

可以先写个简单sql测试下是否可以查询到数据 参考sql

sql
SET sql_select_limit = 999999999; -- sql结果条数限制 set enable_parallel_outfile = true; -- 开发并发,实际有无并发可参考官方文档查看 SET query_timeout = 900*3; -- 设置查询超时时间 SELECT * FROM mm_hailuo.trace_log WHERE create_date = '${P_DATE}' AND GET_JSON_BIGINT(content, '$.type') = 3 INTO OUTFILE "s3://crawler-data-storage/trace_log/ymd=${P_DATE}/" FORMAT AS PARQUET PROPERTIES ( "s3.endpoint" = "oss-cn-shanghai-internal.aliyuncs.com", "s3.access_key" = "xxx", "s3.secret_key" = "xxx", "s3.region" = "cn-shanghai", "success_file_name" = "_SUCCESS" );

2. 外表导入

Schemaless Query MaxCompute支持免定义查询(Schemaless Query)OSS中Parquet外部表数据,解析后的数据集结果可以导出至OSS或写入内部表,同时也可以作为子查询嵌入SQL运算,从而便捷地操作湖上数据。

sql
INSERT OVERWRITE TABLE ods_hailuo_trace_log_di PARTITION(ymd='${P_DATE}') SELECT create_date, biz_id, log_key, sub_log_key, content FROM location 'oss://oss-cn-shanghai-internal.aliyuncs.com/crawler-data-storage/trace_log/ymd=${P_DATE}/' ( 'file_format'='parquet', 'file_pattern_blacklist'='.*SUCCESS' );

本文作者:ender

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!