Insert title here

专项练习

结束做题

 现有海量⽇志数据保存在⼀个超级⼤的⽂件中，该⽂件⽆法直接读⼊内存，要求从中提取某天出访问百度次数最多的那个IP。

解析:

 Step1：从这⼀天的⽇志数据中把访问百度的IP取出来，逐个写⼊到⼀个⼤⽂件中;
 
Step2：注意到IP是32位的，最多有2^32个IP。同样可以采⽤映射的⽅法，⽐如模1000，把整个⼤⽂件映射为1000个⼩⽂件;
 
Step3：找出每个⼩⽂中出现频率最⼤的IP(可以采⽤hash_map进⾏频率统计，然后再找出频率最⼤的⼏个)及相应的频率;
 
Step4：在这1000个最⼤的IP中，找出那个频率最⼤的IP，即为所求。
 
草图如下：

 Sqoop⽤起来感觉怎样?

解析:

 说实话，Sqoop在导⼊数据的速度上确实⼗分感⼈，通过进⼀步了解，发现Sqoop1和Sqoop2在架构上还是有明显不同的，⽆论是从数据类型上还是从安全权限，密码暴露⽅⾯，Sqoop2都
www.aboutyun.com/thread-24246-1-1.html 51/57
2019/4/24 spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发
有了明显的改进，同时同⼀些其他的异构数据同步⼯具⽐较,如淘宝的DataX或者Kettle相⽐，Sqoop⽆论是从导⼊数据的效率上还是从⽀持插件的丰富程度上，Sqoop还是相当不错滴!!

 HBase的Insert与Update的区别?

解析:

 这个题⽬是就着最近的⼀次项⽬问的，当时实现的与hbase交互的三个⽅法分别为insert、delete、update。由于那个项⽬是对接的⼀个项⽬，对接的⼩伙伴和我协商了下，不将update合并
为insert，如果合并的话，按那个项⽬本⾝，其实通过insert执⾏overwrite相当于间接地Update，本质上，或者说在展现上是没什么区别的包括所调⽤的put。但那仅仅是就着那个项⽬的程序
⽽⾔，如果基于HBase shell层⾯。将同⼀rowkey的数据插⼊HBase，其实虽然展现⼀条，但是相应的timestamp是不⼀样的，⽽且最⼤的版本数可以通过配置⽂件进⾏相应地设置。

 请简述⼤数据的结果展现⽅式。

解析:

 1)报表形式
 
基于数据挖掘得出的数据报表，包括数据表格、矩阵、图形和⾃定义格式的报表等，使⽤⽅便、设计灵活。
 
2)图形化展现
 
提供曲线、饼图、堆积图、仪表盘、⻥⻣分析图等图形形式宏观展现模型数据的分布情况，从⽽便于进⾏决策。
 
3)KPI展现
 
提供表格式绩效⼀览表并可⾃定义绩效查看⽅式，如数据表格或⾛势图，企业管理者可根据可度量的⽬标快速评估进度。
 
4)查询展现
 
按数据查询条件和查询内容，以数据表格来汇总查询结果，提供明细查询功能，并可在查询的数据表格基础上进⾏上钻、下钻、旋转等操作。

 例举⾝边的⼤数据。

解析:

 i.QQ，微博等社交软件产⽣的数据
 
ii.天猫，京东等电⼦商务产⽣的数据
 
iii.互联⽹上的各种数据