服務近2000家企業,依托一系列實踐中打磨過的技術和產品,根據企業的具體業務問題和需求,針對性的提供各行業大數據解決方案。
spark hive整合安裝
來源:未知 時間:2019-56-18 瀏覽次數:152次
1.hadoop安裝參考相關文檔
2.spark安裝
1)下載解壓(須編譯,編譯步驟詳見4)
2)配置環境變量
3)cd 到spark安裝目錄cp conf/spark-env.sh.template conf /spark-env.sh
vi conf/spark-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_141
export SCALA_HOME=/usr/scala-2.11.7
export HADOOP_HOME=/usr/local/hadoop-2.7.2
export HADOOP_CONF_DIR=/usr/local/hadoop-2.7.2/etc/hadoop
export SPARK_MASTER_IP=SparkMaster
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
4)vi conf/slaves
在最后面寫上IP地址或主機名
5)啟動hadoop的文件系統start-dfs.sh
6)啟動spark start-all.sh
3.hive 安裝
1)下載hive(版本任意但spark版本需要從hive安裝版對應的源碼版本中查)
2)解壓,配置環境變量
3)hive與hadoop整合vim hive-env.sh 在最后加入HADOOP_HOME=hadoophomedir
4)配置cp hive-default.xml.template hive-site.xml vim hive-site.xml
5.復制mysql的驅動程序到hivehome/lib下面mysql-connector-java-5.1.18-bin.jar
6).拷貝hive-site.xml到spark/conf下(這點非常關鍵)
初始化元數據、cd hivehome/bin
執行 schematool -initSchema -dbType mysql
需提前在mysql中創建庫
7)hive進入客戶端
hive>set hive.execution.engine=spark; (將執行引擎設為Spark,默認是mr,退出hive CLI后,回到默認設置。若想讓引擎默認為Spark,需要在hive-site.xml里設置)
hive>create table test(ts BIGINT,line STRING); (創建表)
hive>select count(*) from test;
若無報錯則OK
4.spark編譯
1)查看spark版本,需要下載hive對應的源碼并在pom文件中查看兼容的spark版本,到官網下載對應源碼
2)環境安裝,須安裝scala,maven3.3.9以上版本
3)如果hadoop是cdh版本需要在spark源碼的pom中加入如下,須本地檢測,直接刪帖會報錯
<repository>
<id>cloudera</id>
<name>cloudera Repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
4)修改make-distribution.sh
在使用這個方式編譯的時候,根據查看里面的代碼,它會去確認scala,hadoop等的版本信息,這個動作會花費較長的時間。為了不長時間卡在這里,我們直接指定版本信息。先將上面的代碼注釋掉,然后在后面添加指定信息。其中VERSION為spark的版本。SPARK_HIVE=1為支持hive的意思。
5)修改spark源碼的pom文件
<useZincServer>true</useZincServer> 屬性,將值改為false
6)運行下列命令編譯
./dev/./make-distribution.sh --name 2.6.0-cdh5.13.0 hive --tgz -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.13.0 -Phive -Phive-thriftserver -DskipTests
- 上一篇: mysql在線保持腳本
- 下一篇: Centos系統安裝配置MongoDB4x

掃一掃