SparkSQL初步應(yīng)用（HiveContext使用）

折騰了一天，終于解決了上節(jié)中result3的錯誤。至于為什么會產(chǎn)生這個錯誤，這里，先賣個關(guān)子，先看看這個問題是如何發(fā)現(xiàn)的：

10年積累的成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)經(jīng)驗，可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認識你，你也不認識我。但先做網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程，更有鄱陽免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

首先，找到了這篇文章：http://apache-spark-user-list.1001560.n3.nabble.com/SparkSQL-select-syntax-td16299.html 里面有這么一段：

The issue is that you're using SQLContext instead of HiveContext. SQLContext implements a smaller subset of the SQL language and so you're getting a SQL parse error because it doesn't support the syntax you have. Look at how you'd write this in HiveQL, and then try doing that with HiveContext.

In fact, there are more problems than that. The sparkSQL will conserve (15+5=20) columns in the final table, if I remember well. Therefore, when you are doing join on two tables which have the same columns will cause doublecolumn error.

這里提及到兩點：（1）使用HiveContext；（2）也就是導(dǎo)致這個錯誤的原因。

好吧，說到使用HiveContext，那咱就用HiveContext（尼瑪，這里折騰了半天）：

首先呢，看使用HiveContext都需要哪些要求，這里參考了這篇文章：http://www.cnblogs.com/byrhuangqiang/p/4012087.html

文章中有這么三個要求：

1、檢查$SPARK_HOME/lib目錄下是否有datanucleus-api-jdo-3.2.1.jar、datanucleus-rdbms-3.2.1.jar 、datanucleus-core-3.2.2.jar 這幾個jar包。

2、檢查$SPARK_HOME/conf目錄下是否有從$HIVE_HOME/conf目錄下拷貝過來的hive-site.xml。

3、提交程序的時候?qū)?shù)據(jù)庫驅(qū)動程序的jar包指定到DriverClassPath，如bin/spark-submit --driver-class-path *.jar?；蛘咴趕park-env.sh中設(shè)置SPARK_CLASSPATH。

那咱就按照要求配置，可是，配置完成之后報錯（交互模式）：

Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

初步判斷，是hive連接源數(shù)據(jù)庫這塊的問題，于是在hive-site.xml文件中添加連接源數(shù)據(jù)庫的參數(shù)：

          hive.metastore.uris
          thrift://111.121.21.23:9083

指定好參數(shù)之后，滿懷期待的執(zhí)行了個查詢，尼瑪又報錯（這個錯誤糾結(jié)了好久）：

ERROR ObjectStore: Version information not found in metastore.

這個錯誤說的是，在使用HiveContext時，需要訪問Hive的數(shù)據(jù)源，獲取數(shù)據(jù)源的版本信息，如果獲取不到，此時就會拋出該異常。關(guān)于解決方案網(wǎng)上倒是挺多，需要添加參數(shù)到hive-site.xml文件：

          hive.metastore.schema.verification
          false

添加完參數(shù)，重啟了Hive服務(wù)，執(zhí)行Spark 的HiveContext，依舊報改錯。使用IDE將程序編譯打包后，放在服務(wù)器上執(zhí)行：

#!/bin/bash

cd /opt/huawei/Bigdata/DataSight_FM_BasePlatform_V100R001C00_Spark/spark/

./bin/spark-submit \

--class HiveContextTest \

--master local \

--files /opt/huawei/Bigdata/hive-0.13.1/hive-0.13.1/conf/hive-site.xml \

/home/wlb/spark.jar \

--archives datanucleus-api-jdo-3.2.6.jar,datanucleus-core-3.2.10.jar,datanucleus-rdbms-3.2.9.jar \

--classpath /opt/huawei/Bigdata/hive-0.13.1/hive-0.13.1/lib/*.jar

無奈，又報另一個錯（真是崩潰?。簀ava.net.UnknownHostException: hacluster

這是hadoop的dfs.nameservices

嗯，不能解析主機名hacluster拋出的異常，那么繼續(xù)，網(wǎng)上給的結(jié)果是：

需要把配置hdfs-site.xml復(fù)制到spark的conf目錄下，果然，復(fù)制完成后，程序打成的jar包終于能在服務(wù)器上成功運行了。

但是回想起來，那么這個錯誤：ERROR ObjectStore: Version information not found in metastore.

到底是由于什么原因?qū)е碌模繄?zhí)行jar包和shell模式有什么區(qū)別呢？

繼續(xù)，使用shell模式執(zhí)行基于HiveContext的SQL，還是報這個錯，那么，打開spark的debug看看有什么有價值的信息，找個許久，沒有發(fā)現(xiàn)任何有價值的日志。繼續(xù)在網(wǎng)上搜索，網(wǎng)上的這個問題，都是WARN級別的，而我的是ERROR級別的。

到這里，實在是沒有什么思路了。哎，既然我的jar包能夠執(zhí)行成功，那么就看看使用jar包執(zhí)行和該模式有什么區(qū)別？

首先想到的是，為什么hive-site.xml的參數(shù)：hive.metastore.schema.verification 沒有生效？我重啟服務(wù)了呀，是不是沒有引用到該參數(shù)？！

哎，那我就添加HIVE_HOME環(huán)境變量，執(zhí)行了一下，還是沒生效，也就是說沒有引用到該參數(shù)。。。已經(jīng)瀕臨崩潰，過了許久，突然想到，我執(zhí)行的spark-shell命令來源于哪？那么看一下：which spark-shell

好像發(fā)現(xiàn)了什么，該spark-shell是來自spark客戶端程序的bin目錄（之前為了使用命令方便，設(shè)置和了環(huán)境變量---華為的產(chǎn)品），也就是說，我默認的環(huán)境變量是指向spark客戶端程序目錄的！??！

終于找到了問題的根本，于是，將hive-site.xml、hdfs-site.xml復(fù)制到客戶端程序的conf目錄下，重啟hive服務(wù)，一切OK！

過了一會，還有點不放心，到底是不是這個問題導(dǎo)致的呢？好吧，那么就在其他節(jié)點上測試了一下，首先客戶端程序目錄中沒有該參數(shù)，執(zhí)行失敗，添加后，hive.metastore.schema.verification是生效的！

大功告成！整個過程，spark的debug功能一直是打開的，但是在日志中沒有發(fā)現(xiàn)有價值的信息。

對了，要想使用IDE調(diào)試Spark的HiveContext程序，需要在main目錄下添加resource目錄（類型為Resources），并且將hive-site.xml、hdfs-site.xml添加到該目錄中。

并且將三個驅(qū)動包引入：

datanucleus-api-jdo-3.2.6.jar,datanucleus-core-3.2.10.jar,datanucleus-rdbms-3.2.9.jar

差點忘了，我是為了解決上節(jié)中的result3問題，哈哈，這個問題其實是由于SparkSQL對SQL語法支持的問題?？梢钥紤]使用其他方式（不在IN里面嵌套子查詢），比如設(shè)置多個RDD或者左右連接等（有待測試）。

下節(jié)，大概說下Scala IDE如何配置（這個問題在清明假期折騰了兩天，總結(jié)了兩種方式）

新聞名稱：SparkSQL初步應(yīng)用（HiveContext使用）
地址分享：http://weahome.cn/article/jcpeih.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

SparkSQL初步應(yīng)用（HiveContext使用）

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管