最近再學(xué)習(xí)spark streaming做實時計算這方面內(nèi)容,過程中需要從后臺數(shù)據(jù)庫導(dǎo)出數(shù)據(jù)到hdfs中,經(jīng)過調(diào)研發(fā)現(xiàn)需要使用sqoop進(jìn)行操作,本次操作環(huán)境是Linux下。
首先確保環(huán)境安裝了Hadoop和sqoop,安裝只需要下載 ,解壓 以及配置環(huán)境變量,這里不多說了,網(wǎng)上教程很多。
一、配置sqoop以及驗證是否成功
切換到配置文件下:cd $SQOOP_HOME/conf
創(chuàng)建配置環(huán)境文件: cp sqoop-env-template.sh sqoop-env.sh
修改配置文件:conf/vi sqoop-env.sh:修改內(nèi)容如下
配置完成后,執(zhí)行命令sqoop-version ,檢查是否成功,如圖顯示sqoop 1.4.7即成功。
二、添加postgresql驅(qū)動jar包
因為這里使用sqoop讀取postgresql的數(shù)據(jù),所以需要將數(shù)據(jù)庫驅(qū)動包放到$SQOOP_HOME/lib 下即可 。
三、導(dǎo)入pg數(shù)據(jù)庫中表到hdfs中
1、首先要啟動Hadoop集群,不然會報錯
執(zhí)行語句 $HADOOP_HOME/sbin/./start-all.sh
2、執(zhí)行sqoop語句進(jìn)行數(shù)據(jù)導(dǎo)入到hdfs
sqoop import \
--connect jdbc:postgresql:localhost:5432/test(數(shù)據(jù)庫的名稱)
--username postgres (填自己的數(shù)據(jù)庫用戶名)
--password 888888 (填自己數(shù)據(jù)庫的密碼)
--table company (自己創(chuàng)建表的名稱)
--m 1 (mapreduce的個數(shù))
執(zhí)行結(jié)果如圖:
3、檢查hdfs上是否成功存儲到表數(shù)據(jù)
$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(數(shù)據(jù)目錄改成自己的)
結(jié)果如圖所示:
顯示使用sqoop 將 postgreql上的表格數(shù)據(jù)成功導(dǎo)入到hdfs中,這算今天也有點收獲了!
補(bǔ)充:利用Sqoop從PostgreSQL導(dǎo)入數(shù)據(jù)時遇到的坑
sqoop import \
--connect "jdbc:postgresql://10.101.70.169:5432/db_name" \
--username "postgres" \
--password "123456" \
--table "test_user"\
--target-dir "/user/hive/warehouse/test.db/test_user" \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--hive-drop-import-delims \
--incremental lastmodified \
--merge-key id \
--check-column update_time \
--last-value "2019-03-25" \
--m 1 \
-- --schema "schema_name" \
--null-string '\\N' \
--null-non-string '\\N'
1、-- --schema
一定要放在后面,否則可能導(dǎo)致無運(yùn)行日志或無法導(dǎo)入數(shù)據(jù)到指定目錄且無法重新執(zhí)行(報目錄已存在)
2、PostgreSQL
須設(shè)置SET standard_conforming_strings = on;
,否則--null-string和--null-non-string
不起作用;
3、--null-string
和--null-non-string
放在-- --schema
后面,否則執(zhí)行時報Can't parse input data: '\N'
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
您可能感興趣的文章:- 在Hadoop集群環(huán)境中為MySQL安裝配置Sqoop的教程
- sqoop export導(dǎo)出 map100% reduce0% 卡住的多種原因及解決
- 解決sqoop從postgresql拉數(shù)據(jù),報錯TCP/IP連接的問題
- 解決sqoop import 導(dǎo)入到hive后數(shù)據(jù)量變多的問題
- sqoop 實現(xiàn)將postgresql表導(dǎo)入hive表
- 使用shell腳本執(zhí)行hive、sqoop命令的方法
- Sqoop的安裝與使用詳細(xì)教程