专项练习
结束做题
 Master挂掉,standby重启也失效,如Master默认使⽤512M内存,当集群中运⾏的任务特别多时,就会挂掉,原因是master会读取每个task的event log⽇志去⽣成spark ui,内存不⾜⾃然
 worker挂掉或假死有时候我们还会在web ui中看到worker节点消失或处于dead状态,在该节点运⾏的任务则会报各种 lost worker 的错误,引发原因和上述⼤体相同,worker内存中保存
 报错:ERROR storage.DiskBlockObjectWriter: Uncaught exception while reverting partial writes to file /hadoop/application_1415632483774_448143/spark-local-20141127115224-
 给定a、b两个⽂件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b⽂件共同的url?
 有⼀个1G⼤⼩的⼀个⽂件,⾥⾯每⼀⾏是⼀个词,词的⼤⼩不超过16字节,内存限制⼤⼩是1M,要求返回频数最⾼的100个词。
知识点: 大数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39