解析:
⽬录地址:/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work
这些是Driver上传到worker的⽂件,需要定时做⼿⼯清理,否则会占⽤许多磁盘空间
spark-shell提交Spark Application如何解决依赖库
解析:
spark-shell的话,利⽤–driver-class-path选项来指定所依赖的jar⽂件,注意的是–driver-class-path后如果需要跟着多个jar⽂件的话,jar⽂件之间使⽤冒号(:)来分割。
Spark在发布应⽤的时候,出现连接不上master问题,如下
解析:
15/11/19 11:35:50 INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077…
15/11/19 11:35:50 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason:
[Disassociated]
解决⽅式
检查所有机器时间是否⼀致、hosts是否都配置了映射、客⼾端和服务器端的Scala版本是否⼀致、Scala版本是否和Spark兼容
检查是否兼容问题请参考官⽅⽹站介绍:
开发spark应⽤程序(和Flume-NG结合时)发布应⽤时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /156:18800
解析:
15/11/27 10:33:44 ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
15/11/27 10:33:44 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70)
org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)
Caused by: java.net.BindException: Cannot assign requested address
www.aboutyun.com/thread-24246-1-1.html 42/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
由于spark通过Master发布的时候,会⾃动选取发送到某⼀台的worker节点上,所以这⾥绑定端⼝的时候,需要选择相应的worker服务器,但是由于我们⽆法事先了解到,spark发布到哪⼀
台服务器的,所以这⾥启动报错,是因为在 192.168.10.156:18800的机器上⾯没有启动Driver程序,⽽是发布到了其他服务器去启动了,所以⽆法监听到该机器出现问题,所以我们需要设
置spark分发包时,发布到所有worker节点机器,或者发布后,我们去寻找发布到了哪⼀台机器,重新修改绑定IP,重新发布,有⼀定⼏率发布成功。详情可⻅《印象笔记-战5渣系列——
Spark Streaming启动问题 - 推酷》
ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.
解析:
在使⽤Hive on Spark模式操作hive⾥⾯的数据时,报以上错误,原因是因为HIVE采⽤了derby这个内嵌数据库作为数据库,它不⽀持多⽤⼾同时访问,解决办法就是把derby数据库换成mysql
数据库即可
变更⽅式