解析:
没有关系,hive是数据仓库,不能和数据库⼀样进⾏实时的CURD操作。
是⼀次写⼊多次读取的操作,可以看成是ETL⼯具。
解析:
核⼼概念是agent,⾥⾯包括source、chanel和sink三个组件。
source运⾏在⽇志收集节点进⾏⽇志采集,之后临时存储在chanel中,sink负责将chanel中的数据发送到⽬的地。
只有成功发送之后chanel中的数据才会被删除。
⾸先书写flume配置⽂件,定义agent、source、chanel和sink然后将其组装,执⾏flume-ng命令。
解析:
hadoop⽣态圈上的数据传输⼯具。
可以将关系型数据库的数据导⼊⾮结构化的hdfs、hive或者bbase中,也可以将hdfs中的数据导出到关系型数据库或者⽂本⽂件中。
使⽤的是mr程序来执⾏任务,使⽤jdbc和关系型数据库进⾏交互。
import原理:通过指定的分隔符进⾏数据切分,将分⽚传⼊各个map中,在map任务中在每⾏数据进⾏写⼊处理没有reduce。
export原理:根据要操作的表名⽣成⼀个java类,并读取其元数据信息和分隔符对⾮结构化的数据进⾏匹配,多个map作业同时执⾏写⼊关系型数据库
Hbase⾏健列族的概念,物理模型,表的设计原则?
解析:
⾏健:是hbase表⾃带的,每个⾏健对应⼀条数据。
列族:是创建表时指定的,为列的集合,每个列族作为⼀个⽂件单独存储,存储的数据都是字节数组,其中的数据可以有很多,通过时间戳来区分。
www.aboutyun.com/thread-24246-1-1.html 35/57
2019/4/24 spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发
物理模型:整个hbase表会拆分为多个region,每个region记录着⾏健的起始点保存在不同的节点上,查询时就是对各个节点的并⾏查询,当region很⼤时使⽤.META表存储各个region的起
始点,-ROOT⼜可以存储.META的起始点。
rowkey的设计原则:各个列簇数据平衡,⻓度原则、相邻原则,创建表的时候设置表放⼊regionserver缓存中,避免⾃动增⻓和时间,使⽤字节数组代替string,最⼤⻓度64kb,最好16字节
以内,按天分表,两个字节散列,四个字节存储时分毫秒。
列族的设计原则:尽可能少(按照列族进⾏存储,按照region进⾏读取,不必要的io操作),经常和不经常使⽤的两类数据放⼊不同列族中,列族名字尽可能短。
Spark Streaming和Storm有何区别?
解析:
⼀个实时毫秒⼀个准实时亚秒,不过storm的吞吐率⽐较低。