数据库的物理设计,数据库索引的相关笔记。
数据库中最普遍的使用方法。底层硬盘的存储也有使用b+树。
b+树属于多路平衡搜索树,理论复杂度和平衡二叉树相同操作都是log(n)。因为多路的特性,i/o操作上更有优势,并且也让树的深度降低。所以,设计b+树时,是尽可能让树的深度降低的。
只所以使用b+树而不是b-数,是因为b+树的关键字全在叶子节点。这样一来,硬盘一个簇可以存更多节点。可减少io次数。
使用hash算法计算出散列值,通过散列值快速定位查找的数据。
hash索引可能是访问数据库中数据的最快方法,因为hash算法几乎可以认为是o(1)的。
但是 hash 索引本身由于其特殊性也带来了很多限制和弊端。
(1)hash可能出现碰撞,通常有链表法和开放寻址法来解决。如果碰撞多了,无疑降低了hash索引的速度。
(2)hash计算出散列后,因为碰撞的原因,还需要进行实际数据对比。
(3)hash算法只能定位单个,无法进行范围查询。自然,如果是组合索引,也无法用部分索引键查询。
可以类比成有序数组,相关属性按序排列。
一个关系只能在一个聚簇中,其次不适用于经常更新的关系。
所以聚簇存储通常适用于:
(1)经常一起进行连接操作的关系。
(2)关系的一组属性经常出现在相等的比较条件中。
(3)关系的属性上的值重复率很高。