Insert title here

专项练习

结束做题

 Class Not Found: Classpath Issues

解析:

 问题1、缺少jar，不在classpath⾥。3
 
问题2、jar包冲突，同⼀个jar不同版本。
 
解决1：
 
将所有依赖jar都打⼊到⼀个fatJar包⾥，然后⼿动设置依赖到指定每台机器的DIR。
 
val conf = new SparkConf().setAppName(appName).setJars(Seq(System.getProperty("user.dir") + "/target/scala-2.10/sparktest.jar"))
 
解决2：
 
把所需要的依赖jar包都放到default classpath⾥，分发到各个worker node上。

 如何为⼀个hadoop任务设置mappers的数量

解析:

 使⽤job.setNumMapTask(intn)⼿动分割，这是不靠谱的
 
官⽅⽂档：“Note:Thisisonlyahinttotheframework”说明这个⽅法只是提⽰作⽤，不起决定性作⽤
 
实际上要⽤公式计算：
 
Max(min.split，min(max.split，block))就设置分⽚的最⼤最下值computeSplitSize()设置
 
可以参考这篇⽂章：http://blog.csdn.net/strongerbit/article/details/7440111

 有可能使hadoop任务输出到多个⽬录中么?如果可以，怎么做?

解析:

 答案：在1.X版本后使⽤MultipleOutputs.java类实现

 如何为⼀个hadoop任务设置要创建的reducer的数量

解析:

 配置job.setNumReduceTask(intn)
 
或者调整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默认参数值

 Spark Streaming和Storm有何区别？

解析:

 ⼀个实时毫秒⼀个准实时亚秒，不过storm的吞吐率⽐较低。