各节点共享SQLContext问题。

brockpeng 2017-09-08 11:52:18



object Test {

  def main(array: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("测试测试")

      //.setMaster("spark://192.168.2.232:7077")

     // .setJars(Array[String]("file://D:/ideaWorkspace/GDBigDAtaSpark_2/out/artifacts/GDBigDAtaSpark_2_jar/GDBigDAtaSpark_1.jar"))

    val sc = new SparkContext(conf)

    val sparkSQL = new SQLContext(sc)

    val schema = StructType(

      StructField("id", StringType, false) ::

        StructField("name", StringType, false) :: Nil

    )

    val rdd = sc.textFile("hdfs://192.168.2.232:8020/user/hive/warehouse/t_test").map(x => x.split("\u0001")).map(r => Row(r(0), r(1)))

    sparkSQL.createDataFrame(rdd, schema).registerTempTable("t_test")

    val df = sparkSQL.sql("select * from t_test")

    //val df = sparkSQL.value.sql("select * from t_test")

    df.foreach(row => {

      println(s"主键=${row(0).toString}")

      import sparkSQL.implicits._

      sparkSQL.sql(s"select * from t_test where id=${row(0).toString}")

    })

  }

}

各位spark大神帮看看，我在DataFrame遍历时想读取另一个表的数据，但SQLContext会报空指针，请问这该如何解决。
sparkSQL.sql(s"select * from t_test where id=${row(0).toString}")
这一行会报空指异常。

...全文

329 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_25729999 2017-09-11

打赏
举报

回复

RDD里不能引用RDD，如果另一个表不大，用广播变量，否则用join来实现

LinkSe7en 2017-09-08

打赏
举报

回复

不能在算子里引用SparkContext（包括SQLContext）。换个思路，你这需求可以简单的用SQL join来实现

qq_36722219 2017-09-08

打赏
举报

回复

ssssss

brockpeng 2017-09-08

打赏
举报

回复

有大神指点一下吗，还是我编程方式和思维不对。

一、什么是累加器累加器（Accumulators）与广播变量（Broadcast Variables）共同作为Spark提供的两大共享变量，主要用于跨集群的数据节点之间的数据共享，突破数据在集群各个executor不能共享问题。而累加器主要定义在driver节点，在executor节点进行操作，最后在driver节点聚合结果做进一步的处理。二、常见的累加器 Spark提供了三种常见的累加器，分别是LongAccumulator(参数支持Integer、Long)、DoubleAccumulat

1. 什么是RDD？ Resilient Distributed Dataset弹性分布式数据集，能够横跨集群所有节点进行并行计算的分区元素的集合。 2. Spark中两种类型的共享变量一是广播变量（broadcast variables），用来在所有节点内存中缓存一个值；另外一种是累加器（accumulators），其只能执行添加操作（add）。 3. s...

（1）有关sbt的理解参见： https://www.scala-sbt.org/0.13/docs/zh-cn/Getting-Started.html （2）基于Intellij IDEA的Scala环境搭建和学习教程，参考易百教程： https://www.yiibai.com/scala/ （3）Scala API文档（查看可用类型和方法）： https://www.scala-l

博文推荐：http://blog.csdn.net/anzhsoft/article/details/39268963，由大神张安站写的Spark架构原理，使用Spark版本为1.2，本文以Spark 1.5.0为蓝本，介绍Spark应用程序的执行流程。本文及后面的源码分析都以下列代码为样板import org.apache.spark.{SparkConf, SparkContext}obje

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章