解析:
答:对于图像、视频、URL、地理位置等类型多样的数据,难以⽤传统的结构化⽅式描述,因此需要使⽤由多维表组成的⾯向列存储的数据管理系统来组织和管理数据。也就是说,将数据
按⾏排序,按列存储,将相同字段的数据作为⼀个列族来聚合存储。不同的列族对应数据的不同属性,这些属性可以根据需求动态增加,通过这样的分布式实时列式数据库对数据统⼀进⾏
结构化存储和管理,避免了传统数据存储⽅式下的关联查询。
www.aboutyun.com/thread-24246-1-1.html 52/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
解析:
答:⼤数据是指⽆法在容许的时间内⽤常规软件⼯具对其内容进⾏抓取、管理和处理的数据。
海量⽇志数据,提取出某⽇访问百度次数最多的那个IP。
解析:
⾸先是这⼀天,并且是访问百度的⽇志中的IP取出来,逐个写⼊到⼀个⼤⽂件中。注意到IP是32位的,最多有个2^32个IP。同样可以采⽤映射的⽅法,⽐如模1000,把整个⼤⽂件映射为
1000个⼩⽂件,再找出每个⼩⽂中出现频率最⼤的IP(可以采⽤hash_map进⾏频率统计,然后再找出频率最⼤的⼏个)及相应的频率。然后再在这1000个最⼤的IP中,找出那个频率最⼤的
IP,即为所求。
或者如下阐述(雪域之鹰):
算法思想:分⽽治之+Hash
1)IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2)可以考虑采⽤“分⽽治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP⽇志分别存储到1024个⼩⽂件中。这样,每个⼩⽂件最多包含4MB个IP地址;
3)对于每⼀个⼩⽂件,可以构建⼀个IP为key,出现次数为value的Hashmap,同时记录当前出现次数最多的那个IP地址;
4)可以得到1024个⼩⽂件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;
搜索引擎会通过⽇志⽂件把⽤⼾每次检索使⽤的所有检索串都记录下来,每个查询串的⻓度为1-255字节。
解析:
假设⽬前有⼀千万个记录(这些查询串的重复度⽐较⾼,虽然总数是1千万,但如果除去重复后,不超过3百万个。⼀个查询串的重复度越⾼,说明查询它的⽤⼾越多,也就是越热⻔。),请
你统计最热⻔的10个查询串,要求使⽤的内存不能超过1G。
典型的TopK算法,还是在这篇⽂章⾥头有所阐述,详情请参⻅:⼗⼀、从头到尾彻底解析Hash表算法。
⽂中,给出的最终算法是:
第⼀步、先对这批海量数据预处理,在O(N)的时间内⽤Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27);
第⼆步、借助堆这个数据结构,找出TopK,时间复杂度为N‘logK。
即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护⼀个K(该题⽬中是10)⼤⼩的⼩根堆,然后遍历300万的Query,分别和根元素进⾏对⽐所以,我们最终的时间复
杂度是:O(N)+N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原⽂。
或者:采⽤trie树,关键字域存该查询串出现的次数,没有出现为0。最后⽤10个元素的最⼩推来对出现频率进⾏排序。
有⼀个1G⼤⼩的⼀个⽂件,⾥⾯每⼀⾏是⼀个词,词的⼤⼩不超过16字节,内存限制⼤⼩是1M。返回频数最⾼的100个词。
解析:
⽅案:顺序读⽂件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个⼩⽂件(记为x0,x1,…x4999)中。这样每个⽂件⼤概是200k左右。
如果其中的有的⽂件超过了1M⼤⼩,还可以按照类似的⽅法继续往下分,直到分解得到的⼩⽂件的⼤⼩都不超过1M。
对每个⼩⽂件,统计每个⽂件中出现的词以及相应的频率(可以采⽤trie树/hash_map等),并取出出现频率最⼤的100个词(可以⽤含100个结点的最⼩堆),并把100个词及相应的频率存⼊⽂
件,这样⼜得到了5000个⽂件。下⼀步就是把这5000个⽂件进⾏归并(类似与归并排序)的过程了。