oracle表导出成csv文件操作指南
一、概述
oracle数据库中的表可以批量导出成csv文件,然后通过工具导入华为大数据平台MPP操作指南
二、方案选择
由于源库数据量超过100GB,采用oracle自带的UTL_FILE包,能够最大程度的提升导出性能,具体使用方法参考官网连接:https://docs.oracle.com/cd/B19306_01/appdev.102/b14258/u_file.htm#BABGGEDF
三、实现步骤
分析获取基本信息
- 数据库的用户
- 视图
- dblink
- 存储过程
- 触发器
- job
- 同义词
假设条件
1、仅需要导出业务用户的表,其他对象如果需要,通过手动创建。
操作过程
1、创建存储过程
CREATE OR REPLACE PROCEDURE SQL_TO_CSV
(
---参数
P_QUERY IN VARCHAR2, -- PLSQL文件
P_DIR IN VARCHAR2, -- 导出的文件放置目录
P_FILENAME IN VARCHAR2 -- CSV名
)
IS
---变量
L_OUTPUT UTL_FILE.FILE_TYPE;
L_THECURSOR INTEGER DEFAULT DBMS_SQL.OPEN_CURSOR;
L_COLUMNVALUE VARCHAR2(4000);
L_STATUS INTEGER;
L_COLCNT NUMBER := 0;
L_SEPARATOR VARCHAR2(1);
L_DESCTBL DBMS_SQL.DESC_TAB;
P_MAX_LINESIZE NUMBER := 32000;
BEGIN
--OPEN FILE
L_OUTPUT := UTL_FILE.FOPEN(P_DIR, P_FILENAME, 'W', P_MAX_LINESIZE);
--DEFINE DATE FORMAT
EXECUTE IMMEDIATE 'ALTER SESSION SET NLS_DATE_FORMAT=''YYYY-MM-DD HH24:MI:SS''';
--OPEN CURSOR
DBMS_SQL.PARSE(L_THECURSOR, P_QUERY, DBMS_SQL.NATIVE);
DBMS_SQL.DESCRIBE_COLUMNS(L_THECURSOR, L_COLCNT, L_DESCTBL);
--DUMP TABLE COLUMN NAME
FOR I IN 1 .. L_COLCNT LOOP
UTL_FILE.PUT(L_OUTPUT,L_SEPARATOR || '"' || L_DESCTBL(I).COL_NAME || '"'); --输出表字段
DBMS_SQL.DEFINE_COLUMN(L_THECURSOR, I, L_COLUMNVALUE, 4000);
L_SEPARATOR := ',';
END LOOP;
UTL_FILE.NEW_LINE(L_OUTPUT); --输出表字段
--EXECUTE THE QUERY STATEMENT
L_STATUS := DBMS_SQL.EXECUTE(L_THECURSOR);
--DUMP TABLE COLUMN VALUE
WHILE (DBMS_SQL.FETCH_ROWS(L_THECURSOR) > 0) LOOP
L_SEPARATOR := '';
FOR I IN 1 .. L_COLCNT LOOP
DBMS_SQL.COLUMN_VALUE(L_THECURSOR, I, L_COLUMNVALUE);
UTL_FILE.PUT(L_OUTPUT,
L_SEPARATOR || '"' ||
TRIM(BOTH ' ' FROM REPLACE(L_COLUMNVALUE, '"', '""')) || '"');
L_SEPARATOR := ',';
END LOOP;
UTL_FILE.NEW_LINE(L_OUTPUT);
END LOOP;
--CLOSE CURSOR
DBMS_SQL.CLOSE_CURSOR(L_THECURSOR);
--CLOSE FILE
UTL_FILE.FCLOSE(L_OUTPUT);
EXCEPTION
WHEN OTHERS THEN
RAISE;
END;
2、创建目录
create or replace directory OUT_PATH as ‘/expdp_dir’;
授权给用户
grant read, write on directory OUT_PATH to user;
3、拼接语句
spool /tmp/exec01.sql
SELECT 'EXEC sql_to_csv(''select * from ' ||T.TABLE_NAME || ''',''OUT_PUT_CSV''' || ',''ODS_MDS.' || T.TABLE_NAME ||'.csv'');' FROM user_TABLES T;
spool off
4、执行存储过程生成csv文件
spool /tmp/exec01.log
sql>@/tmp/exec01.sql
spool off
执行完毕后,检查/tmp/exec01.log文件,检查执行失败的表,根据报错进行处理,一般报错为字段不匹配或者存在特殊字符
5、特殊字段处理
5.1含有blob/clob字段的表,无法直接导出,需要进行转换
查询具有blob、clob字段的表
select distinct ('TABLE "' || a.OWNER || '"."' || a.TABLE_NAME || '"')
from sys.all_tab_columns a
where a.OWNER = 'EHL_TOS'--用户名
and a.TABLE_NAME in
(select t.TABLE_NAME
from sys.all_tab_columns t
where t.OWNER = 'EHL_TOS'--用户名
and t.DATA_TYPE in ('CLOB', 'BLOB'))
解决方式:
select utl_raw.cast_to_varchar2(dbms_lob.substr(a,b,c)) from table;
a:你要转换的那个字段;
b:截取字符串长度,一般限制2000;
c:起始位置;
5.2 查询含有特殊字符的字段
如果传入的sql语句里有特殊字符,要用转义字符转义 ,
如:to_date('2017-01-10 13:14:20','yyyy-MM-dd HH24:mi:ss')要写成to_date(''2017-01-10 13:14:20'',''yyyy-MM-dd HH24:mi:ss'')
6、导入mpp
6.1 mppdb 概述
产品手册:https://support.huawei.com/enterprise/zh/doc/EDOC1100091039
和hadoop比较
https://blog.csdn.net/alionsss/article/details/101106401
MPP是主要处理结构化数据,关联分析有优势;Hadoop可处理多种类型数据,但关联分析不足,在流处理方面有优势
6.2 导入
导出操作参考 产品手册gds导入数据教程
oracle 语法迁移LibrA Tool 2.7.RC2 Oracle 语法迁移 01.pdfhttps://support.huawei.com/enterprise/zh/doc/EDOC1000161488
评论已关闭