则有关该表的所有信息

Q3. 什么是 Hive Metastore?Metastore 的默认数据库是什么?

Metastore 是 Hive 表和分区元数据的中央存储库。元数据存储在关系数据库中。

Apache Hive 为单用户存储提 数据库 供的默认数据库是嵌入式 Derby 数据库实例,该实例应由本地磁盘支持。

MySQL 用于存储来自多个用户的元数据或存储共享元数据。

Q4. 为什么说Metastore是关系数据库,而不是HDFS的一部分呢? 

回答:  HDFS 中的读写操作需要时间。您可以通过将元数据存储在提供更快读写速度的关系数据库中来加快查询速度。

这个Hive 面试问题 是为了检查您是否真正理解了 Hive 的基础知识。

Q5.Hive 中的分区是什么?为什么要使用它们? 

回答:  Hive 将表排列成分区。分区键用于确定数据在表中的存储方式。

分区根据这些键将表划分为不同的部分。当表包含多个分区键时,这非常有用。

Q6. 默认允许的最大动态分区数是多少?可以更改吗? 

答: 默认允许的最大动态分区数为 100。是的,您可以更改它。您需要使用此命令:

设置 hive.exec.max.dynamic.partitions.pernode = <值>

Q7. 解释一下 Bucketing。 

答案: 表被组织成分区。这些分区 中国电话号码 可以进一步细分为存储桶。划分是根据表列的哈希函数进行的。

Q8. 分区和存储桶有什么区别? 

答案: 分区就像目录,而存储桶就像文件。存储桶将分区内的数据组织成多个文件。它有助于连接不同的列。

当表具有多个分区键时,分区是 自动化将成为网络安全计划成功的关键 默认 过程。默认情况下不进行分桶。由于分区是默认过程,因此可能会创建多个小分区。您可以限制分桶的数量。

虽然大多数人都知道分区和存储桶的定义,但只有训练有素的面试官才能回答Hive 上有关它们在实践中的区别的面试问题。

Q9.Hive 中有哪些不同类型的表?

回答:  Hive 中的表可分为两类 – 托管表和外部表。托管表的数据和架构由 Hive 控制。

只有外部表的架构受 Hive 控制。如果您删除或丢弃托管表,(包括架构和数据)都将被删除。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部