现有海量⽇志数据保存在⼀个超级⼤的⽂件中,该⽂件⽆法直接读⼊内存,要求从中提取某天出访问百度次数最多的那个IP。
解析:
Step1:从这⼀天的⽇志数据中把访问百度的IP取出来,逐个写⼊到⼀个⼤⽂件中;
Step2:注意到IP是32位的,最多有2^32个IP。同样可以采⽤映射的⽅法,⽐如模1000,把整个⼤⽂件映射为1000个⼩⽂件;
Step3:找出每个⼩⽂中出现频率最⼤的IP(可以采⽤hash_map进⾏频率统计,然后再找出频率最⼤的⼏个)及相应的频率;
Step4:在这1000个最⼤的IP中,找出那个频率最⼤的IP,即为所求。
草图如下:
解析:
说实话,Sqoop在导⼊数据的速度上确实⼗分感⼈,通过进⼀步了解,发现Sqoop1和Sqoop2在架构上还是有明显不同的,⽆论是从数据类型上还是从安全权限,密码暴露⽅⾯,Sqoop2都
www.aboutyun.com/thread-24246-1-1.html 51/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
有了明显的改进,同时同⼀些其他的异构数据同步⼯具⽐较,如淘宝的DataX或者Kettle相⽐,Sqoop⽆论是从导⼊数据的效率上还是从⽀持插件的丰富程度上,Sqoop还是相当不错滴!!
解析:
这个题⽬是就着最近的⼀次项⽬问的,当时实现的与hbase交互的三个⽅法分别为insert、delete、update。由于那个项⽬是对接的⼀个项⽬,对接的⼩伙伴和我协商了下,不将update合并
为insert,如果合并的话,按那个项⽬本⾝,其实通过insert执⾏overwrite相当于间接地Update,本质上,或者说在展现上是没什么区别的包括所调⽤的put。但那仅仅是就着那个项⽬的程序
⽽⾔,如果基于HBase shell层⾯。将同⼀rowkey的数据插⼊HBase,其实虽然展现⼀条,但是相应的timestamp是不⼀样的,⽽且最⼤的版本数可以通过配置⽂件进⾏相应地设置。
解析:
1)报表形式
基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和⾃定义格式的报表等,使⽤⽅便、设计灵活。
2)图形化展现
提供曲线、饼图、堆积图、仪表盘、⻥⻣分析图等图形形式宏观展现模型数据的分布情况,从⽽便于进⾏决策。
3)KPI展现
提供表格式绩效⼀览表并可⾃定义绩效查看⽅式,如数据表格或⾛势图,企业管理者可根据可度量的⽬标快速评估进度。
4)查询展现
按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进⾏上钻、下钻、旋转等操作。
解析:
i.QQ,微博等社交软件产⽣的数据
ii.天猫,京东等电⼦商务产⽣的数据
iii.互联⽹上的各种数据