Doris数据同步到MaxCompute

目前Dataworks只支持写入doris，不支持读从阿里云selectdb文档可以看到有一种导出方式：SELECT INTO OUTFILE 可以搭配Dataworks的数据库节点：Doris节点+oss外表的方式导入数据到MaxCompute

1. 新建doris节点

可以先写个简单sql测试下是否可以查询到数据参考sql

sql
SET sql_select_limit = 999999999; -- sql结果条数限制
set enable_parallel_outfile = true; -- 开发并发，实际有无并发可参考官方文档查看
SET query_timeout = 900*3; -- 设置查询超时时间

SELECT 
    *
FROM  
    mm_hailuo.trace_log  
WHERE 
    create_date = '${P_DATE}' 
    AND GET_JSON_BIGINT(content, '$.type') = 3
INTO OUTFILE "s3://crawler-data-storage/trace_log/ymd=${P_DATE}/"
FORMAT AS PARQUET
PROPERTIES
(
    "s3.endpoint" = "oss-cn-shanghai-internal.aliyuncs.com",
    "s3.access_key" = "xxx",
    "s3.secret_key" = "xxx",
    "s3.region" = "cn-shanghai",
    "success_file_name" = "_SUCCESS"
);

2. 外表导入

Schemaless Query MaxCompute支持免定义查询（Schemaless Query）OSS中Parquet外部表数据，解析后的数据集结果可以导出至OSS或写入内部表，同时也可以作为子查询嵌入SQL运算，从而便捷地操作湖上数据。

sql
INSERT OVERWRITE TABLE ods_hailuo_trace_log_di PARTITION(ymd='${P_DATE}')
SELECT 
    create_date,
    biz_id,
    log_key,
    sub_log_key,
    content
FROM location 'oss://oss-cn-shanghai-internal.aliyuncs.com/crawler-data-storage/trace_log/ymd=${P_DATE}/'
(
'file_format'='parquet',
'file_pattern_blacklist'='.*SUCCESS'
);

目录

1. 新建doris节点

2. 外表导入