前面我們已經分析了arraylist和linkedlist這兩個集合,我們知道arraylist是基于數組實現的,linkedlist是基于鏈表實現的。它們各自有自己的優劣勢,例如arraylist在定位查找元素時會優于linkedlist,而linkedlist在添加刪除元素時會優于arraylist。而本篇介紹的hashmap綜合了二者的優勢,它的底層是基于哈希表實現的,如果不考慮哈希沖突的話,hashmap在增刪改查操作上的時間復雜度都能夠達到驚人的o(1)。我們先看看它所基于的哈希表的結構。
從上圖中可以看到,哈希表是由數組和鏈表共同構成的一種結構,當然上圖是一個不好的示例,一個好的哈希函數應該要盡量平均元素在數組中的分布,減少哈希沖突從而減小鏈表的長度。鏈表的長度越長,意味著在查找時需要遍歷的結點越多,哈希表的性能也就越差。接下來我們來看下hashmap的部分成員變量。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
//默認初始容量 static final int default_initial_capacity = 1 << 4 ; //默認最大容量 static final int maximum_capacity = 1 << 30 ; //默認加載因子, 指哈希表可以達到多滿的尺度 static final float default_load_factor = 0 .75f; //空的哈希表 static final entry<?,?>[] empty_table = {}; //實際使用的哈希表 transient entry<k,v>[] table = (entry<k,v>[]) empty_table; //hashmap大小, 即hashmap存儲的鍵值對數量 transient int size; //鍵值對的閾值, 用于判斷是否需要擴增哈希表容量 int threshold; //加載因子 final float loadfactor; //修改次數, 用于fail-fast機制 transient int modcount; //使用替代哈希的默認閥值 static final int alternative_hashing_threshold_default = integer.max_value; //隨機的哈希種子, 有助于減少哈希碰撞的次數 transient int hashseed = 0 ; |
由成員變量中看到,hashmap默認的初始容量為16,默認的加載因子是0.75。而threshold是集合能夠存儲的鍵值對的閥值,默認是初始容量*加載因子,也就是16*0.75=12,當鍵值對要超過閥值時,意味著這時候的哈希表已處于飽和狀態,再繼續添加元素就會增加哈希沖突,從而使hashmap的性能下降。這時會觸發自動擴容機制,以保證hashmap的性能。我們還可以看到哈希表其實就是一個entry數組,數組存放的每個entry都是單向鏈表的頭結點。這個entry是hashmap的靜態內部類,來看看entry的成員變量。
1
2
3
4
5
6
7
8
|
static class entry<k,v> implements map.entry<k,v> { final k key; //鍵 v value; //值 entry<k,v> next; //下一個entry的引用 int hash; //哈希碼 ... //省略下面代碼 } |
一個entry實例就是一個鍵值對,里面包含了key和value,同時每個entry實例還有一個指向下一個entry實例的引用。為了避免重復計算,每個entry實例還存放了對應的hash碼。可以說entry數組就是hashmap的核心,所有的操作都是針對這個數組來完成的。由于hashmap源碼比較長,不可能面面俱到的介紹它的所有方法,因此我們只抓住重點來進行介紹。接下來我們將以問題為導向,針對下面幾個問題深入探究hashmap的內部機制。
1. hashmap在構造時做了哪些操作?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
//構造器, 傳入初始化容量和加載因子 public hashmap( int initialcapacity, float loadfactor) { if (initialcapacity < 0 ) { throw new illegalargumentexception( "illegal initial capacity: " + initialcapacity); } //如果初始化容量大于最大容量, 就把它設為最大容量 if (initialcapacity > maximum_capacity) { initialcapacity = maximum_capacity; } //如果加載因子小于0或者加載因子不是浮點數, 則拋出異常 if (loadfactor <= 0 || float .isnan(loadfactor)) { throw new illegalargumentexception( "illegal load factor: " + loadfactor); } //設置加載因子 this .loadfactor = loadfactor; //閾值為初始化容量 threshold = initialcapacity; init(); } void init() {} |
所有的構造器都會調用到這個構造器,在這個構造器中我們看到除了對參數做一些校驗之外,它就做了兩件事,設置加載因子為傳入的加載因子,設置閥值為傳入的初始化大小。而init方法是空的,啥也沒做。注意,這時候并沒有根據傳入的初始化大小去新建一個entry數組哦。那在什么時候再去新建數組呢?繼續往下看。
2. hashmap添加鍵值對時會進行什么操作?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
|
//放置key-value鍵值對到hashmap中 public v put(k key, v value) { //如果哈希表沒有初始化就進行初始化 if (table == empty_table) { //初始化哈希表 inflatetable(threshold); } if (key == null ) { return putfornullkey(value); } //計算key的hash碼 int hash = hash(key); //根據hash碼定位在哈希表的位置 int i = indexfor(hash, table.length); for (entry<k,v> e = table[i]; e != null ; e = e.next) { object k; //如果對應的key已經存在, 就替換它的value值, 并返回原先的value值 if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { v oldvalue = e.value; e.value = value; e.recordaccess( this ); return oldvalue; } } modcount++; //如果沒有對應的key就添加entry到hashmap中 addentry(hash, key, value, i); //添加成功返回null return null ; } |
看到,在添加鍵值對時會先檢查哈希表是否是個空表,如果是空表就進行初始化。之后再進行后續操作,調用哈希函數計算傳入的key的hash碼。根據hash碼定位到entry數組的指定槽位,然后對該槽位的單向鏈表進行遍歷,如果傳入的已經存在了就進行替換操作,否則就新建一個entry添加到哈希表中。
3. 哈希表是怎樣初始化的?
1
2
3
4
5
6
7
8
9
10
11
|
//初始化哈希表, 會對哈希表容量進行膨脹, 因為有可能傳入的容量不是2的冪 private void inflatetable( int tosize) { //哈希表容量必須是2的次冪 int capacity = rounduptopowerof2(tosize); //設置閥值, 這里一般是取capacity*loadfactor threshold = ( int ) math.min(capacity * loadfactor, maximum_capacity + 1 ); //新建指定容量的哈希表 table = new entry[capacity]; //初始化哈希種子 inithashseedasneeded(capacity); } |
上面我們知道,在構造hashmap時不會新建entry數組,而是在put操作時檢查當前哈希表是否是個空表,如果是空表就調用inflatetable方法進行初始化。上面貼出了這個方法的代碼,可以看到方法內部會重新計算entry數組的容量,因為在構造hashmap時傳入的初始化大小可能不是2的冪,因此要將這個數轉換成2的冪再去根據新的容量新建entry數組。初始化哈希表時再次重新設置閥值,閥值一般是capacity*loadfactor。此外,在初始化哈希表時還會去初始化哈希種子(hashseed),這個hashseed用于優化哈希函數,默認為0是不使用替代哈希算法,但是也可以自己去設置hashseed的值,以達到優化效果。具體下面會講到。
4. hashmap在什么時候判斷是否要擴容,以及它是怎樣擴容的?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
|
//添加entry方法, 先判斷是否要擴容 void addentry( int hash, k key, v value, int bucketindex) { //如果hashmap的大小大于閥值并且哈希表對應槽位的值不為空 if ((size >= threshold) && ( null != table[bucketindex])) { //因為hashmap的大小大于閥值, 表明即將發生哈希沖突, 所以進行擴容 resize( 2 * table.length); hash = ( null != key) ? hash(key) : 0 ; bucketindex = indexfor(hash, table.length); } //在這里表明hashmap的大小沒有超過閥值, 所以不需要擴容 createentry(hash, key, value, bucketindex); } //對哈希表進行擴容 void resize( int newcapacity) { entry[] oldtable = table; int oldcapacity = oldtable.length; //如果當前已經是最大容量就只能增大閥值了 if (oldcapacity == maximum_capacity) { threshold = integer.max_value; return ; } //否則就進行擴容 entry[] newtable = new entry[newcapacity]; //遷移哈希表的方法 transfer(newtable, inithashseedasneeded(newcapacity)); //將當前哈希表設置為新的哈希表 table = newtable; //更新哈希表閾值 threshold = ( int )math.min(newcapacity * loadfactor, maximum_capacity + 1 ); } |
在調用put方法添加一個鍵值對時,如果集合中沒有存在的key就去調用addentry方法新建一個entry。看到上面貼出的addentry代碼,在新建一個entry之前會先判斷當前集合元素的大小是否超過了閥值,如果超過了閥值就調用resize進行擴容。傳入的新的容量是原來哈希表的兩倍,在resize方法內部會新建一個容量為原先的2倍的entry數組。然后將舊的哈希表里面的元素全部遷移到新的哈希表,其中可能會進行再哈希,根據inithashseedasneeded方法計算的值來確定是否進行再哈希。完成哈希表的遷移之后,將當前哈希表替換為新的,最后再根據新的哈希表容量來重新計算hashmap的閥值。
5. 為什么entry數組的大小必須為2的冪?
1
2
3
4
|
//返回哈希碼對應的數組下標 static int indexfor( int h, int length) { return h & (length- 1 ); } |
indexfor方法是根據hash碼來計算出在數組中對應的下標。我們可以看到在這個方法內部使用了與(&)操作符。與操作是對兩個操作數進行位運算,如果對應的兩個位都為1,結果才為1,否則為0。與操作經常會用于去除操作數的高位值,例如:01011010 & 00001111 = 00001010。我們繼續回到代碼中,看看h&(length-1)做了些什么。
已知傳入的length是entry數組的長度,我們知道數組下標是從0開始計算的,所以數組的最大下標為length-1。如果length為2的冪,那么length-1的二進制位后面都為1。這時h&(length-1)的作用就是去掉了h的高位值,只留下h的低位值來作為數組的下標。由此可以看到entry數組的大小規定為2的冪就是為了能夠使用這個算法來確定數組的下標。
6. 哈希函數是怎樣計算hash碼的?
1
2
3
4
5
6
7
8
9
10
11
12
|
//生成hash碼的函數 final int hash(object k) { int h = hashseed; //key是string類型的就使用另外的哈希算法 if ( 0 != h && k instanceof string) { return sun.misc.hashing.stringhash32((string) k); } h ^= k.hashcode(); //擾動函數 h ^= (h >>> 20 ) ^ (h >>> 12 ); return h ^ (h >>> 7 ) ^ (h >>> 4 ); } |
hash方法的最后兩行是真正計算hash值的算法,計算hash碼的算法被稱為擾動函數,所謂的擾動函數就是把所有東西雜糅到一起,可以看到這里使用了四個向右移位運算。目的就是將h的高位值與低位值混合一下,以此增加低位值的隨機性。在上面我們知道定位數組的下標是根據hash碼的低位值來確定的。key的hash碼是通過hashcode方法來生成的,而一個糟糕的hashcode方法生成的hash碼的低位值可能會有很大的重復。為了使得hash碼在數組上映射的比較均勻,擾動函數就派上用場了,把高位值的特性糅合進低位值,增加低位值的隨機性,從而使散列分布的更加松散,以此提高性能。下圖舉了個例子幫助理解。
7. 替代哈希是怎么回事?
我們看到hash方法中首先會將hashseed賦值給h。這個hashseed就是哈希種子,它是一個隨機的值,作用就是幫助優化哈希函數。hashseed默認是0,也就是默認不使用替代哈希算法。那么什么時候使用hashseed呢?首先需要設置開啟替代哈希,在系統屬性中設置jdk.map.althashing.threshold的值,在系統屬性中這個值默認是-1,當它是-1的時候使用替代哈希的閥值為integer.max_value。這也意味著可能你永遠也不會使用替代哈希了。當然你可以把這個閥值設小一點,這樣當集合元素達到閥值后就會生成一個隨機的hashseed。以此增加hash函數的隨機性。為什么要使用替代哈希呢?當集合元素達到你設定的閥值之后,意味著哈希表已經比較飽和了,出現哈希沖突的可能性就會大大增加,這時對再添加進來的元素使用更加隨機的散列函數能夠使后面添加進來的元素更加隨機的分布在散列表中。
注:以上分析全部基于jdk1.7,不同版本之間會有較大的改動,讀者需要注意。
原文鏈接:http://www.cnblogs.com/liuyun1995/p/8301898.html