Insert title here

专项练习

结束做题

 Worker节点中的work⽬录占⽤许多磁盘空间

解析:

 ⽬录地址：/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work
 
这些是Driver上传到worker的⽂件，需要定时做⼿⼯清理，否则会占⽤许多磁盘空间

 spark-shell提交Spark Application如何解决依赖库

解析:

 spark-shell的话，利⽤–driver-class-path选项来指定所依赖的jar⽂件，注意的是–driver-class-path后如果需要跟着多个jar⽂件的话，jar⽂件之间使⽤冒号(:)来分割。

 Spark在发布应⽤的时候，出现连接不上master问题，如下

解析:

 15/11/19 11:35:50 INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077…
 
15/11/19 11:35:50 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason:
[Disassociated]
 
解决⽅式
 
检查所有机器时间是否⼀致、hosts是否都配置了映射、客⼾端和服务器端的Scala版本是否⼀致、Scala版本是否和Spark兼容
 
检查是否兼容问题请参考官⽅⽹站介绍：

 开发spark应⽤程序（和Flume-NG结合时）发布应⽤时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /156:18800

解析:

 15/11/27 10:33:44 ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800 
 
15/11/27 10:33:44 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70) 
 
org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
 
at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)
 
Caused by: java.net.BindException: Cannot assign requested address
 
www.aboutyun.com/thread-24246-1-1.html 42/57
2019/4/24 spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发
由于spark通过Master发布的时候，会⾃动选取发送到某⼀台的worker节点上，所以这⾥绑定端⼝的时候，需要选择相应的worker服务器，但是由于我们⽆法事先了解到，spark发布到哪⼀
台服务器的，所以这⾥启动报错，是因为在 192.168.10.156:18800的机器上⾯没有启动Driver程序，⽽是发布到了其他服务器去启动了，所以⽆法监听到该机器出现问题，所以我们需要设
置spark分发包时，发布到所有worker节点机器，或者发布后，我们去寻找发布到了哪⼀台机器，重新修改绑定IP，重新发布，有⼀定⼏率发布成功。详情可⻅《印象笔记-战5渣系列——
Spark Streaming启动问题 - 推酷》

 ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

解析:

 在使⽤Hive on Spark模式操作hive⾥⾯的数据时，报以上错误，原因是因为HIVE采⽤了derby这个内嵌数据库作为数据库，它不⽀持多⽤⼾同时访问,解决办法就是把derby数据库换成mysql
数据库即可
 
变更⽅式