Class Not Found: Classpath Issues
解析:
问题1、缺少jar,不在classpath⾥。3
问题2、jar包冲突,同⼀个jar不同版本。
解决1:
将所有依赖jar都打⼊到⼀个fatJar包⾥,然后⼿动设置依赖到指定每台机器的DIR。
val conf = new SparkConf().setAppName(appName).setJars(Seq(System.getProperty("user.dir") + "/target/scala-2.10/sparktest.jar"))
解决2:
把所需要的依赖jar包都放到default classpath⾥,分发到各个worker node上。
如何为⼀个hadoop任务设置mappers的数量
解析:
使⽤job.setNumMapTask(intn)⼿动分割,这是不靠谱的
官⽅⽂档:“Note:Thisisonlyahinttotheframework”说明这个⽅法只是提⽰作⽤,不起决定性作⽤
实际上要⽤公式计算:
Max(min.split,min(max.split,block))就设置分⽚的最⼤最下值computeSplitSize()设置
可以参考这篇⽂章:http://blog.csdn.net/strongerbit/article/details/7440111
有可能使hadoop任务输出到多个⽬录中么?如果可以,怎么做?
解析:
答案:在1.X版本后使⽤MultipleOutputs.java类实现
如何为⼀个hadoop任务设置要创建的reducer的数量
解析:
配置job.setNumReduceTask(intn)
或者调整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默认参数值
Spark Streaming和Storm有何区别?
解析:
⼀个实时毫秒⼀个准实时亚秒,不过storm的吞吐率⽐较低。