为什么 HashMap 是线程不安全的?

三方面原因:多线程下扩容会死循环、多线程下 put 会导致元素丢失、put 和 get 并发时会导致 get 到 null,我们来一一分析。

01、多线程下扩容会死循环

众所周知,HashMap 是通过拉链法来解决哈希冲突的,也就是当哈希冲突时,会将相同哈希值的键值对通过链表的形式存放起来。

JDK 7 时,采用的是头部插入的方式来存放链表的,也就是下一个冲突的键值对会放在上一个键值对的前面(同一位置上的新元素被放在链表的头部)。扩容的时候就有可能导致出现环形链表,造成死循环。

resize 方法的源码:

  1. // newCapacity为新的容量
  2. void resize(int newCapacity) {
  3. // 小数组,临时过度下
  4. Entry[] oldTable = table;
  5. // 扩容前的容量
  6. int oldCapacity = oldTable.length;
  7. // MAXIMUM_CAPACITY 为最大容量,2 的 30 次方 = 1<<30
  8. if (oldCapacity == MAXIMUM_CAPACITY) {
  9. // 容量调整为 Integer 的最大值 0x7fffffff(十六进制)=2 的 31 次方-1
  10. threshold = Integer.MAX_VALUE;
  11. return;
  12. }
  13. // 初始化一个新的数组(大容量)
  14. Entry[] newTable = new Entry[newCapacity];
  15. // 把小数组的元素转移到大数组中
  16. transfer(newTable, initHashSeedAsNeeded(newCapacity));
  17. // 引用新的大数组
  18. table = newTable;
  19. // 重新计算阈值
  20. threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
  21. }

transfer 方法用来转移,将小数组的元素拷贝到新的数组中。

  1. void transfer(Entry[] newTable, boolean rehash) {
  2. // 新的容量
  3. int newCapacity = newTable.length;
  4. // 遍历小数组
  5. for (Entry<K,V> e : table) {
  6. while(null != e) {
  7. // 拉链法,相同 key 上的不同值
  8. Entry<K,V> next = e.next;
  9. // 是否需要重新计算 hash
  10. if (rehash) {
  11. e.hash = null == e.key ? 0 : hash(e.key);
  12. }
  13. // 根据大数组的容量,和键的 hash 计算元素在数组中的下标
  14. int i = indexFor(e.hash, newCapacity);
  15. // 同一位置上的新元素被放在链表的头部
  16. e.next = newTable[i];
  17. // 放在新的数组上
  18. newTable[i] = e;
  19. // 链表上的下一个元素
  20. e = next;
  21. }
  22. }
  23. }

注意 e.next = newTable[i]newTable[i] = e 这两行代码,就会将同一位置上的新元素被放在链表的头部。

扩容前的样子假如是下面这样子。

为什么 HashMap 是线程不安全的? - 图1

那么正常扩容后就是下面这样子。

为什么 HashMap 是线程不安全的? - 图2

假设现在有两个线程同时进行扩容,线程 A 在执行到 newTable[i] = e; 被挂起,此时线程 A 中:e=3、next=7、e.next=null

为什么 HashMap 是线程不安全的? - 图3

线程 B 开始执行,并且完成了数据转移。

为什么 HashMap 是线程不安全的? - 图4

此时,7 的 next 为 3,3 的 next 为 null。

随后线程A获得CPU时间片继续执行 newTable[i] = e,将3放入新数组对应的位置,执行完此轮循环后线程A的情况如下:

为什么 HashMap 是线程不安全的? - 图5

执行下一轮循环,此时 e=7,原本线程 A 中 7 的 next 为 5,但由于 table 是线程 A 和线程 B 共享的,而线程 B 顺利执行完后,7 的 next 变成了 3,那么此时线程 A 中,7 的 next 也为 3 了。

采用头部插入的方式,变成了下面这样子:

为什么 HashMap 是线程不安全的? - 图6

好像也没什么问题,此时 next = 3,e = 3。

进行下一轮循环,但此时,由于线程 B 将 3 的 next 变为了 null,所以此轮循环应该是最后一轮了。

接下来当执行完 e.next=newTable[i] 即 3.next=7 后,3 和 7 之间就相互链接了,执行完 newTable[i]=e 后,3 被头插法重新插入到链表中,执行结果如下图所示:

为什么 HashMap 是线程不安全的? - 图7

套娃开始,元素 5 也就成了弃婴,惨~~~

不过,JDK 8 时已经修复了这个问题,扩容时会保持链表原来的顺序,参照HashMap 扩容机制的这一篇。

02、多线程下 put 会导致元素丢失

正常情况下,当发生哈希冲突时,HashMap 是这样的:

为什么 HashMap 是线程不安全的? - 图8

但多线程同时执行 put 操作时,如果计算出来的索引位置是相同的,那会造成前一个 key 被后一个 key 覆盖,从而导致元素的丢失。

put 的源码:

  1. final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
  2. boolean evict) {
  3. Node<K,V>[] tab; Node<K,V> p; int n, i;
  4. // 步骤①:tab为空则创建
  5. if ((tab = table) == null || (n = tab.length) == 0)
  6. n = (tab = resize()).length;
  7. // 步骤②:计算index,并对null做处理
  8. if ((p = tab[i = (n - 1) & hash]) == null)
  9. tab[i] = newNode(hash, key, value, null);
  10. else {
  11. Node<K,V> e; K k;
  12. // 步骤③:节点key存在,直接覆盖value
  13. if (p.hash == hash &&
  14. ((k = p.key) == key || (key != null && key.equals(k))))
  15. e = p;
  16. // 步骤④:判断该链为红黑树
  17. else if (p instanceof TreeNode)
  18. e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
  19. // 步骤⑤:该链为链表
  20. else {
  21. for (int binCount = 0; ; ++binCount) {
  22. if ((e = p.next) == null) {
  23. p.next = newNode(hash, key, value, null);
  24. //链表长度大于8转换为红黑树进行处理
  25. if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
  26. treeifyBin(tab, hash);
  27. break;
  28. }
  29. // key已经存在直接覆盖value
  30. if (e.hash == hash &&
  31. ((k = e.key) == key || (key != null && key.equals(k))))
  32. break;
  33. p = e;
  34. }
  35. }
  36. // 步骤⑥、直接覆盖
  37. if (e != null) { // existing mapping for key
  38. V oldValue = e.value;
  39. if (!onlyIfAbsent || oldValue == null)
  40. e.value = value;
  41. afterNodeAccess(e);
  42. return oldValue;
  43. }
  44. }
  45. ++modCount;
  46. // 步骤⑦:超过最大容量 就扩容
  47. if (++size > threshold)
  48. resize();
  49. afterNodeInsertion(evict);
  50. return null;
  51. }

问题发生在步骤 ② 这里:

  1. if ((p = tab[i = (n - 1) & hash]) == null)
  2. tab[i] = newNode(hash, key, value, null);

两个线程都执行了 if 语句,假设线程 A 先执行了 tab[i] = newNode(hash, key, value, null),那 table 是这样的:

为什么 HashMap 是线程不安全的? - 图9

接着,线程 B 执行了 tab[i] = newNode(hash, key, value, null),那 table 是这样的:

为什么 HashMap 是线程不安全的? - 图10

3 被干掉了。

03、put 和 get 并发时会导致 get 到 null

线程 A 执行put时,因为元素个数超出阈值而出现扩容,线程B 此时执行get,有可能导致这个问题。

注意来看 resize 源码:

  1. final Node<K,V>[] resize() {
  2. Node<K,V>[] oldTab = table;
  3. int oldCap = (oldTab == null) ? 0 : oldTab.length;
  4. int oldThr = threshold;
  5. int newCap, newThr = 0;
  6. if (oldCap > 0) {
  7. // 超过最大值就不再扩充了,就只好随你碰撞去吧
  8. if (oldCap >= MAXIMUM_CAPACITY) {
  9. threshold = Integer.MAX_VALUE;
  10. return oldTab;
  11. }
  12. // 没超过最大值,就扩充为原来的2倍
  13. else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
  14. oldCap >= DEFAULT_INITIAL_CAPACITY)
  15. newThr = oldThr << 1; // double threshold
  16. }
  17. else if (oldThr > 0) // initial capacity was placed in threshold
  18. newCap = oldThr;
  19. else { // zero initial threshold signifies using defaults
  20. newCap = DEFAULT_INITIAL_CAPACITY;
  21. newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
  22. }
  23. // 计算新的resize上限
  24. if (newThr == 0) {
  25. float ft = (float)newCap * loadFactor;
  26. newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
  27. (int)ft : Integer.MAX_VALUE);
  28. }
  29. threshold = newThr;
  30. @SuppressWarnings({"rawtypes","unchecked"})
  31. Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
  32. table = newTab;
  33. }

线程 A 执行完 table = newTab 之后,线程 B 中的 table 此时也发生了变化,此时去 get 的时候当然会 get 到 null 了,因为元素还没有转移。