资讯专栏INFORMATION COLUMN

集合小记

alaege / 3471人阅读

摘要:解決沖突开放定址法拉链法表解決沖突开放定址法再哈希法链地址法建立公共溢出区并发包中的线程安全的集合容器线程安全的,不允许为,默认个的数组,每个中实现就是了,通过定位。基于数组,线程安全的集合类,容量可以限制。

List

  List 元素是有序的、可重复,实现List接口的集合主要有:ArrayList、LinkedList、Vector、Stack。

  ArrayList:动态数组;默认容量为10,每次增加元素时会进行容量检查,当容量到达size-1时进行扩容(add(E e)中先调用了ensureCapacity(size+1)方法,之后将元素的索引赋给elementData[size],而后size自增),扩容0.5倍+1,如 ArrayList的容量为10,一次扩容后是容量为16;非同步,查询速度快,擅长于随机访问( size、isEmpty、get、set、iterator 和 listIterator );线程安全的arraylist:Collections.synchronizedList(List l)函数返回一个线程安全的ArrayList类(synchronized代码块),也可以使用concurrent并发包下的CopyOnWriteArrayList类(add、remove方法:final ReentrantLock lock = this.lock;lock.lock();)。

  LinkedList双向链表;非同步,通过较低的代价在List中进行插入和删除操作(get,remove,insert)(prev,next)。

  Vector:数组;默认容量为10,加载因子为1:即当元素个数超过容量长度时,进行扩容扩容增量:原容量的1倍,如 Vector的容量为10,一次扩容后是容量为20;同步(源代码中Vector的成员方法都加了synchronized)。

  Stack:Stack继承自Vector(基本的push和pop 方法,还有peek方法得到栈顶的元素,empty方法测试堆栈是否为空,search方法检测一个元素在堆栈中的位置)。

Set

  Set是一种不包括重复元素的Collection,实现了Set接口的集合有:EnumSet、HashSet、TreeSet。

  EnumSet:是枚举的专用Set。所有的元素都是枚举类型。

  HashSet: 堪称查询速度最快的集合,底层实现是一个HashMap(保存数据)(HashSet所有的构造都是构造出一个新的HashMap),实现Set接口,内部以HashCode来实现的。它内部元素的顺序是由哈希码来决定的,所以它不保证set 的迭代顺序;特别是它不保证该顺序恒久不变;默认初始容量为16,加载因子为0.75,扩容增量:原容量的1倍;线程不安全,存取速度快

  TreeSet:  基于TreeMap,内部以TreeMap来实现。它是使用元素的自然顺序对元素进行排序,或者根据创建Set 时提供的Comparator 进行排序,具体取决于使用的构造方法。

Map

  Map是一个双列集合,没有继承Collection,实现map的有:HashMap、TreeMap、HashTable、Properties、EnumMap。

  HashMap:以哈希表数据结构实现,查找对象时通过哈希函数计算其位置,它是为快速查询而设计的,其内部定义了一个hash表数组(Entry[] table),元素会通过哈希转换函数将元素的哈希地址转换成数组中存放的索引,如果有冲突,则使用散列链表的形式(JDK8 中哈希冲突过多,链表会转红黑树)将所有相同哈希地址的元素串起来(冲突的节点放在链表的最下面),通过查看HashMap.Entry的源码它是一个单链表结构(数组(散列桶)与链表的组合体);默认初始容量为16,加载因子为0.75,扩容增量:原容量的1倍;线程不安全,Collections类中存在一个静态方法:synchronizedMap(),该方法创建了一个线程安全的Map对象;基于AbstractMap;允许存在一个为null的key和任意个为null的value( 当HashMap遇到为null的key时,它会调用putForNullKey方法来进行处理。对于value没有进行任何处理,只要是对象都可以)。

  TreeMap:键以某种排序规则排序,内部以red-black(红-黑)树数据结构实现,实现了SortedMap接口。

  HashTable:也是以哈希表数据结构实现的,解决冲突时与HashMap也一样也是采用了散列链表的形式;线程安全(synchronized方法);基于Dictionary类;key和value都不允许为null

Queue

  队列,它主要分为两大类,一类是阻塞式队列,队列满了以后再插入元素则会抛出异常,主要包括ArrayBlockQueue、PriorityBlockingQueue、LinkedBlockingQueue。另一种队列则是双端队列,支持在头、尾两端插入和移除元素,主要包括:ArrayDeque、LinkedBlockingDeque、LinkedList。

小结:

对List的选择:

对于随机查询与迭代遍历操作,数组比所有的容器都要快。所以在随机访问中一般使用ArrayList

LinkedList使用双向链表对元素的增加和删除提供了非常好的支持,而ArrayList执行增加和删除元素需要进行元素位移

对于Vector而已,我们一般都是避免使用

将ArrayList当做首选,毕竟对于集合元素而已我们都是进行遍历,只有当程序的性能因为List的频繁插入和删除而降低时,再考虑LinkedList

对Set的选择:

HashSet由于使用HashCode实现,所以在某种程度上来说它的性能永远比TreeSet要好,尤其是进行增加和查找操作

虽然TreeSet没有HashSet性能好,但是由于它可以维持元素的排序,所以它还是存在用武之地的

对Map的选择:

HashMap与HashSet同样,支持快速查询。虽然HashTable速度的速度也不慢,但是在HashMap面前还是稍微慢了些,所以HashMap在查询方面可以取代HashTable

由于TreeMap需要维持内部元素的顺序,所以它通常要比HashMap和HashTable慢

解決hash沖突
  开放定址法、拉链法

hash表解決沖突
  开放定址法、再哈希法、链地址法、建立公共溢出区

并发包中的线程安全的集合容器:

   ConcurrentMap(线程安全的hashMap,key、value不允许为null),默认16个segment的数组,每个segment中实现就是hashMap了,通过hash定位segment。put操作是在segment层上加锁的,这样可以减少并发的冲突;读操作大多数情况下无锁操作(仅仅找到的hashentry对应的对象为null时,有锁操作)

  CopyOnWriteArrayList,线程安全,读操作时无锁的ArrayList;在写时,copy一个ArrayList,写完成后,指针指向新的对象

  CopyOnWriteArraySet,基于CopyOnWriteArrayList实现。
  ArrayBlockQueue,基于数组,FIFO,线程安全的集合类,容量可以限制。

ConcurrentHashMap

  jdk1.7中采用 Segment + HashEntry 的方式进行实现, Segment大小默认为16
  场景: 线程 A和线程B同时执行相同 Segment 对象的
  put 方法
  1. 线程A执行 tryLock() 方法成功获取锁,则把 HashEntry 对象插入到相应的位置;
  2. 线程B获取锁失败,则执行 scanAndLockForPut() 方法,在 scanAndLockForPut 方法中,会通过重复执行 `tryLock() 方法尝试获取锁,在多 处理器 环境下,重复次数为64,单处理器重复次数为1,当执行 tryLock() 方法的次数超过上限时,则执行 lock() 方法挂起线程B;
  3. 当线程A执行完插入操作时,会通过 unlock() 方法释放锁,接着唤醒线程B继续执行;

  size计算:先采用不加锁的方式,连续计算元素的个数,最多计算3次:
  1. 如果前后两次计算结果相同,则说明计算出来的元素个数是准确的;
  2. 如果前后两次计算结果都不同,则给每个 Segment 进行加锁,再计算一次元素的个数;

  1.8中放弃了 Segment 臃肿的设计,取而代之的是采用Node+CAS+ Synchronized 来保证并发安全进行实现,只有在执行第一次put方法时才会调用 initTable() 初始化Node数组
  当执行 put 方法插入数据时,根据key的hash值,在 Node 数组中找到相应的位置,实现如下:
  1. 如果相应位置的 Node 还未初始化,则通过CAS插入相应的数据;
  2. 如果相应位置的 Node 不为空,且当前该节点不处于移动状态,则对该节点加 synchronized 锁,如果该节点的 hash 不小于0,则 遍历 链表更新节点或插入新节点;
  3. 如果该节点是 TreeBin 类型的节点,说明是红黑树结构,则通过 putTreeVal 方法往红黑树中插入节点;
  4. 如果 binCount 不为0,说明 put 操作对数据产生了影响,如果当前链表的个数达到8个,则通过 treeifyBin 方法转化为红黑树,如果 oldVal 不为空,说明是一次更新操作,没有对元素个数产生影响,则直接返回旧值;
  5. 如果插入的是一个新节点,则执行 addCount() 方法尝试更新元素个数 baseCount ;

  size实现
  1.8中使用一个 volatile 类型的变量 baseCount 记录元素的个数,当插入新数据或则删除数据时,会通过 addCount() 方法更新 baseCount ,实现如下:
  1. 初始化时 counterCells 为空,在并发量很高时,如果存在两个线程同时执行 CAS 修改 baseCount 值,则失败的线程会继续执行方法体中的逻辑,使用 CounterCell 记录元素个数的变化;
  2. 如果 CounterCell 数组 counterCells 为空,调用 fullAddCount() 方法进行初始化,并插入对应的记录数,通过 CAS 设置cellsBusy字段,只有设置成功的线程才能初始化 CounterCell 数组,实现如下:
  3. 如果通过 CAS 设置cellsBusy字段失败的话,则继续尝试通过 CAS 修改 baseCount 字段,如果修改 baseCount 字段成功的话,就退出循环,否则继续循环插入 CounterCell 对象;
  所以在1.8中的 size 实现比1.7简单多,因为元素个数保存 baseCount 中,部分元素的变化个数保存在 CounterCell 数组中,实现如下:
通过累加 baseCount 和 CounterCell 数组中的数量,即可得到元素的总个数;

CAS

  要实现无锁(lock-free)的非阻塞算法有多种实现方法,其中 CAS(比较与交换,Compare and swap) 是一种有名的无锁算法。
  CAS有3个操作数,内存值V,旧的预期值A,要修改的新值B。当且仅当预期值A和内存值V相同时,将内存值V修改为B,否则什么都不做
 
 
 
 
 
 
 
 
 
 
 
 
 
 

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/70068.html

相关文章

  • 小记--获取url键值

    摘要:以后会不定期把项目中用到的也是我们平时开发常用的一些方法贴出来,也是一个自我总结的过程获取键值是我们在项目会经常遇到的需求。 以后会不定期把项目中用到的也是我们平时开发常用的一些方法贴出来,也是一个自我总结的过程 获取url键值是我们在项目会经常遇到的需求。下面是我在项目中封装的方法,详细的说明在代码都有注释。 /** * 获取url键值 * url => [href] | [pa...

    galaxy_robot 评论0 收藏0
  • JS编译之 LHS RHS(你不知道的JavaScript 小记一)

    摘要:关于两个专业术语的讨论起自对你不知道的一书的阅读学习。遇到,编译器会询问作用域是否已经有一个该名称的变量存在于同一个作用域的集合中。摘录来自你不知道的。 JS 编译之 LHS RHS 一、前言 最近和朋友聊技术的时候,聊到 LHS RHS,我竟然没听说过 没听说过。。。 于是成功引起了我的好奇心。 关于两个专业术语的讨论起自对《你不知道的JavaScript》一书的阅读学习。 二、编译...

    Cristic 评论0 收藏0
  • JDK1.8 ArrayList部分源码分析小记

    摘要:部分源码分析小记底层数据结构底层的数据结构就是数组,数组元素类型为类型,即可以存放所有类型数据。初始容量大于初始化元素数组新建一个数组初始容量为为空对象数组初始容量小于,抛出异常无参构造函数。 JDK1.8 ArrayList部分源码分析小记 底层数据结构 底层的数据结构就是数组,数组元素类型为Object类型,即可以存放所有类型数据。我们对ArrayList类的实例的所有的操作底层都...

    王军 评论0 收藏0
  • Java8学习小记

    摘要:但有一个限制它们不能修改定义的方法的局部变量的内容。如前所述,这种限制存在的原因在于局部变量保存在栈上,并且隐式表示它们仅限于其所在线程。 2014年,Oracle发布了Java8新版本。对于Java来说,这显然是一个具有里程碑意义的版本。尤其是那函数式编程的功能,避开了Java那烦琐的语法所带来的麻烦。 这可以算是一篇Java8的学习笔记。将Java8一些常见的一些特性作了一个概要的...

    CHENGKANG 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<