天天看点

HashMap源码剖析

 无论是在平时的练习还是项目当中,hashmap用的是非常的广,真可谓无处不在。平时用的时候只知道hashmap是用来存储键值对的,却不知道它的底层是如何实现的。

一、hashmap概述

  hashmap基于哈希表的 map 接口的实现。此实现提供所有可选的映射操作,并允许使用 null 值和 null 键。(除了不同步和允许使用 null 之外,hashmap 类与 hashtable 大致相同。)此类不保证映射的顺序,特别是它不保证该顺序恒久不变。

  值得注意的是hashmap不是线程安全的,如果想要线程安全的hashmap,可以通过collections类的静态方法synchronizedmap获得线程安全的hashmap。

二、hashmap的数据结构

  hashmap的底层

主要是基于数组和链表来实现的,它之所以有相当快的查询速度主要是因为它是通过计算散列码来决定存储的位置,能够很快的计算出对象所存储的位置。

hashmap中主要是通过key的hashcode来计算hash值的,只要hashcode相同,计算出来的hash值就一样。如果存储的对象对多

了,就有可能不同的对象所算出来的hash值是相同的,这就出现了所谓的hash冲突。学过数据结构的同学都知道,解决hash冲突的方法有很

HashMap源码剖析

从上图中可以看出,hashmap底层就是一个数组结构,数组中存放的是一个entry对象,如果产生的hash冲突,也就是说要存储的那个位置上面已经存储了对象了,这时候该位置存储的就是一个链表了。我们看看hashmap中entry类的代码:

  hashmap其实就是一个entry数组,entry对象中包含了键和值,其中next也是一个entry对象,它就是用来处理hash冲突的,形成一个链表。

三、hashmap源码分析

  先看看hashmap类中的一些关键属性:

  其中加载因子是表示hsah表中元素的填满的程度.若:加载因子越大,填满的元素越多,好处是,空间利用率高了,但:冲突的机会加大了.反之,加载因子越小,填满的元素越少,

处是:冲突的机会减小了,但:空间浪费多了.冲突的机会越大,则查找的成本越高.反之,查找的成本越小.因而,查找时间就越小.因此,必须在

“冲突的机会”与”空间利用率”之间寻找一种平衡与折衷. 这种平衡与折衷本质上是数据结构中有名的”时-空”矛盾的平衡与折衷.

  如果机器内存足够,并且想要提高查询速度的话可以将加载因子设置小一点;相反如果机器内存紧张,并且对查询速度没有什么要求的话可以将加载因子设置大一点。不过一般我们都不用去设置它,让它取默认值0.75就好了。

  下面看看hashmap的几个构造方法:

 我们可以看到在构造hashmap的时候如果我们指定了加载因子和初始容量的话就调用第一个构造方法,否则的话就是用默认的。默认初始容量为

16,默认加载因子为0.75。我们可以看到上面代码中13-15行,这段代码的作用是确保容量为2的n次幂,使capacity为大于

initialcapacity的最小的2的n次幂,至于为什么要把容量设置为2的n次幂,我们等下再看。

  下面看看hashmap存储数据的过程是怎样的,首先看看hashmap的put方法:

  我们慢慢的来分析这个函数,第2和3行的作用就是处理key值为null的情况,我们看看putfornullkey(value)方法:

 注意:如果key为null的话,hash值为0,对象存储在数组中索引为0的位置。

  我们再回去看看put方法中第4行,它是通过key的hashcode值计算hash码,下面是计算hash码的函数:

  得到hash码之后就会通过hash码去计算出应该存储在数组中的索引,计算索引的函数如下:

  这个方法非常巧妙,它通过 h & (table.length -1) 来得到该对象的保存位,而hashmap底层数组的长度总是 2 的n 次方,这是hashmap在速度上的优化。

当length总是 2 的n次方时,h& (length-1)运算等价于对length取模,也就是h%length,但是&比%具有更高的效率。

  这看上去很简单,其实比较有玄机的,我们举个例子来说明:

  假设数组长度分别为15和16,优化后的hash码分别为8和9,那么&运算后的结果如下:

       h & (table.length-1)                     hash                             table.length-1

       8 & (15-1):                                 0100                   &              1110                   =                0100

       9 & (15-1):                                 0101                   &              1110                   =                0100

       ———————————————————————————————————————–

       8 & (16-1):                                 0100                   &              1111                   =                0100

       9 & (16-1):                                 0101                   &              1111                   =                0101

  从上面的例子中可以看出:当它们和15-1(1110)“与”的时候,产生了相同的结果,也就是说它们会定位到数组中的同一个位置上去,这就产生了碰撞,8和9会被放到数组中的同一个位置上形成链表,那么查询的时候就需要遍历这个链 表,得到8或者9,这样就降低了查询的效率。同时,我们也可以发现,当数组长度为15的时候,hash值会与15-1(1110)进行“与”,那么 最后一位永远是0,而0001,0011,0101,1001,1011,0111,1101这几个位置永远都不能存放元素了,空间浪费相当大,更糟的是这种情况中,数组可以使用的位置比数组长度小了很多,这意味着进一步增加了碰撞的几率,减慢了查询的效率!而当数组长度为16时,即为2的n次方时,2n-1得到的二进制数的每个位上的值都为1,这使得在低位上&时,得到的和原hash的低位相同,加之hash(int h)方法对key的hashcode的进一步优化,加入了高位计算,就使得只有相同的hash值的两个值才会被放到数组中的同一个位置上形成链表。

   所以说,当数组长度为2的n次幂的时候,不同的key算得得index相同的几率较小,那么数据在数组上分布就比较均匀,也就是说碰撞的几率小,相对的,查询的时候就不用遍历某个位置上的链表,这样查询效率也就较高了。

  

  上面说明了前面所说的hashmap容量

总是取2的指数次幂的原因。下面我们继续回到put方法里面,前面已经计算出索引的值了,看到第6到14行,如果数组中该索引的位置的链表已经存在key

相同的对象,则将其覆盖掉并返回原先的值。如果没有与key相同的键,则调用addentry方法创建一个entry对象,addentry方法如下:

  参数bucketindex就是indexfor函数计算出来的索引值,第2行代码是取得数组中索引为bucketindex的entry对

象,第3行就是用hash、key、value构建一个新的entry对象放到索引为bucketindex的位置,并且将该位置原先的对象设置为新对象

的next构成链表。

  第4行和第5行就是判断put后size是否达到了临界值threshold,如果达到了临界值就要进行扩容,hashmap扩容是扩为原来的两倍。resize()方法如下:

  扩容是需要进行数组复制的,上面代码中第10行为复制数组,复制数组是非常消耗性能的操作,所以如果我们已经预知hashmap中元素的个数,那么预设元素的个数能够有效的提高hashmap的性能。

  总结:以前对hashmap和hashtable的区别总是要死记,而且容易忘记。分析完源码之后他们之前的区别都知道了,连细微的区别都能够清楚,而且是记忆深刻。所以研究一下源码,学习一下别人的设计思路可以学到很多东西的。

继续阅读