一、概述

oracle数据库中的表可以批量导出成csv文件,然后通过工具导入华为大数据平台MPP操作指南

二、方案选择

由于源库数据量超过100GB,采用oracle自带的UTL_FILE包,能够最大程度的提升导出性能,具体使用方法参考官网连接:https://docs.oracle.com/cd/B19306_01/appdev.102/b14258/u_file.htm#BABGGEDF

三、实现步骤

分析获取基本信息

  • 数据库的用户
  • 视图
  • dblink
  • 存储过程
  • 触发器
  • job
  • 同义词

假设条件

1、仅需要导出业务用户的表,其他对象如果需要,通过手动创建。

操作过程
1、创建存储过程

    CREATE OR REPLACE PROCEDURE SQL_TO_CSV
(
---参数
 P_QUERY IN VARCHAR2, -- PLSQL文件
 P_DIR IN VARCHAR2, -- 导出的文件放置目录
 P_FILENAME IN VARCHAR2 -- CSV名
 )
 IS
---变量
  L_OUTPUT UTL_FILE.FILE_TYPE;
  L_THECURSOR INTEGER DEFAULT DBMS_SQL.OPEN_CURSOR;
  L_COLUMNVALUE VARCHAR2(4000);
  L_STATUS INTEGER;
  L_COLCNT NUMBER := 0;
  L_SEPARATOR VARCHAR2(1);
  L_DESCTBL DBMS_SQL.DESC_TAB;
  P_MAX_LINESIZE NUMBER := 32000;
BEGIN
  --OPEN FILE
  L_OUTPUT := UTL_FILE.FOPEN(P_DIR, P_FILENAME, 'W', P_MAX_LINESIZE);
  --DEFINE DATE FORMAT
  EXECUTE IMMEDIATE 'ALTER SESSION SET NLS_DATE_FORMAT=''YYYY-MM-DD HH24:MI:SS''';
  --OPEN CURSOR
  DBMS_SQL.PARSE(L_THECURSOR, P_QUERY, DBMS_SQL.NATIVE);
  DBMS_SQL.DESCRIBE_COLUMNS(L_THECURSOR, L_COLCNT, L_DESCTBL);
  --DUMP TABLE COLUMN NAME
  FOR I IN 1 .. L_COLCNT LOOP
    UTL_FILE.PUT(L_OUTPUT,L_SEPARATOR || '"' || L_DESCTBL(I).COL_NAME || '"'); --输出表字段
    DBMS_SQL.DEFINE_COLUMN(L_THECURSOR, I, L_COLUMNVALUE, 4000);
    L_SEPARATOR := ',';
  END LOOP;
  UTL_FILE.NEW_LINE(L_OUTPUT); --输出表字段
  --EXECUTE THE QUERY STATEMENT
  L_STATUS := DBMS_SQL.EXECUTE(L_THECURSOR);
  --DUMP TABLE COLUMN VALUE
  WHILE (DBMS_SQL.FETCH_ROWS(L_THECURSOR) > 0) LOOP
    L_SEPARATOR := '';
    FOR I IN 1 .. L_COLCNT LOOP
      DBMS_SQL.COLUMN_VALUE(L_THECURSOR, I, L_COLUMNVALUE);
      UTL_FILE.PUT(L_OUTPUT,
                  L_SEPARATOR || '"' ||
                  TRIM(BOTH ' ' FROM REPLACE(L_COLUMNVALUE, '"', '""')) || '"');
      L_SEPARATOR := ',';
    END LOOP;
    UTL_FILE.NEW_LINE(L_OUTPUT);
  END LOOP;
  --CLOSE CURSOR
  DBMS_SQL.CLOSE_CURSOR(L_THECURSOR);
  --CLOSE FILE
  UTL_FILE.FCLOSE(L_OUTPUT);
EXCEPTION
  WHEN OTHERS THEN
    RAISE;
END;

2、创建目录

create or replace directory OUT_PATH as ‘/expdp_dir’;  

授权给用户

grant read, write on directory OUT_PATH to user;

3、拼接语句

spool /tmp/exec01.sql
SELECT 'EXEC sql_to_csv(''select * from ' ||T.TABLE_NAME || ''',''OUT_PUT_CSV''' || ',''ODS_MDS.' || T.TABLE_NAME ||'.csv'');' FROM user_TABLES T;
spool off

4、执行存储过程生成csv文件

spool /tmp/exec01.log
sql>@/tmp/exec01.sql
spool off

执行完毕后,检查/tmp/exec01.log文件,检查执行失败的表,根据报错进行处理,一般报错为字段不匹配或者存在特殊字符

5、特殊字段处理

5.1含有blob/clob字段的表,无法直接导出,需要进行转换

查询具有blob、clob字段的表

select distinct ('TABLE "' || a.OWNER || '"."' || a.TABLE_NAME || '"')
from sys.all_tab_columns a
where a.OWNER = 'EHL_TOS'--用户名
and a.TABLE_NAME in
(select t.TABLE_NAME
from sys.all_tab_columns t
where t.OWNER = 'EHL_TOS'--用户名
and t.DATA_TYPE in ('CLOB', 'BLOB'))

解决方式:
select utl_raw.cast_to_varchar2(dbms_lob.substr(a,b,c)) from table;
a:你要转换的那个字段;
b:截取字符串长度,一般限制2000;
c:起始位置;

5.2 查询含有特殊字符的字段

如果传入的sql语句里有特殊字符,要用转义字符转义 ,
如:to_date('2017-01-10 13:14:20','yyyy-MM-dd HH24:mi:ss')要写成to_date(''2017-01-10 13:14:20'',''yyyy-MM-dd HH24:mi:ss'')

6、导入mpp
6.1 mppdb 概述

产品手册:https://support.huawei.com/enterprise/zh/doc/EDOC1100091039
和hadoop比较
https://blog.csdn.net/alionsss/article/details/101106401
MPP是主要处理结构化数据,关联分析有优势;Hadoop可处理多种类型数据,但关联分析不足,在流处理方面有优势

6.2 导入
导出操作参考 产品手册gds导入数据教程
oracle 语法迁移LibrA Tool 2.7.RC2 Oracle 语法迁移 01.pdfhttps://support.huawei.com/enterprise/zh/doc/EDOC1000161488

标签: none

评论已关闭