资讯专栏INFORMATION COLUMN

Java ArrayList.add 的实现

raledong / 3427人阅读

摘要:是平时相当常用的实现其中的实现比较直接有时候也使用把元素插入到指定的上在中的实现是略有差别需要保证当前数组容量够用然后把从处一直到尾部的数组元素都向后挪一位最后把要插入的元素赋给数组的处一直以来我都认为这个方法它的实现是调用底层的直接方便

ArrayList是平时相当常用的List实现, 其中boolean add(E e) 的实现比较直接:

/**
 * Appends the specified element to the end of this list.
 *
 * @param e element to be appended to this list
 * @return true (as specified by {@link Collection#add})
 */
public boolean add(E e) {
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    elementData[size++] = e;
    return true;
}

有时候也使用 void add(int index, E element) 把元素插入到指定的index上. 在JDK中的实现是:

/**
 * Inserts the specified element at the specified position in this
 * list. Shifts the element currently at that position (if any) and
 * any subsequent elements to the right (adds one to their indices).
 *
 * @param index index at which the specified element is to be inserted
 * @param element element to be inserted
 * @throws IndexOutOfBoundsException {@inheritDoc}
 */
public void add(int index, E element) {
    rangeCheckForAdd(index);

    ensureCapacityInternal(size + 1);  // Increments modCount!!
    System.arraycopy(elementData, index, elementData, index + 1,
                     size - index);
    elementData[index] = element;
    size++;
}

略有差别, 需要保证当前elementData 数组容量够用, 然后把从index处一直到尾部的数组元素都向后挪一位. 最后把要插入的元素赋给数组的index处.

一直以来, 我都认为 System.arraycopy 这个native方法, 它的c++实现是调用底层的memcpy, 直接方便, 效率也没问题.

但今天看了openJDK的源码发现并非如此.

以openJDK8u60 为例, 在 objArrayKlass.cpp 中:

void ObjArrayKlass::copy_array(arrayOop s, int src_pos, arrayOop d,
                               int dst_pos, int length, TRAPS) {
  assert(s->is_objArray(), "must be obj array");

  if (!d->is_objArray()) {
    THROW(vmSymbols::java_lang_ArrayStoreException());
  }

  // Check is all offsets and lengths are non negative
  if (src_pos < 0 || dst_pos < 0 || length < 0) {
    THROW(vmSymbols::java_lang_ArrayIndexOutOfBoundsException());
  }
  // Check if the ranges are valid
  if  ( (((unsigned int) length + (unsigned int) src_pos) > (unsigned int) s->length())
     || (((unsigned int) length + (unsigned int) dst_pos) > (unsigned int) d->length()) ) {
    THROW(vmSymbols::java_lang_ArrayIndexOutOfBoundsException());
  }

  // Special case. Boundary cases must be checked first
  // This allows the following call: copy_array(s, s.length(), d.length(), 0).
  // This is correct, since the position is supposed to be an "in between point", i.e., s.length(),
  // points to the right of the last element.
  if (length==0) {
    return;
  }
  if (UseCompressedOops) {
    narrowOop* const src = objArrayOop(s)->obj_at_addr(src_pos);
    narrowOop* const dst = objArrayOop(d)->obj_at_addr(dst_pos);
    do_copy(s, src, d, dst, length, CHECK);
  } else {
    oop* const src = objArrayOop(s)->obj_at_addr(src_pos);
    oop* const dst = objArrayOop(d)->obj_at_addr(dst_pos);
    do_copy (s, src, d, dst, length, CHECK);
  }
}

可以看到copy_array在做了各种检查之后, 最终copy的部分在do_copy方法中, 而这个方法实现如下:

// Either oop or narrowOop depending on UseCompressedOops.
template  void ObjArrayKlass::do_copy(arrayOop s, T* src,
                               arrayOop d, T* dst, int length, TRAPS) {

  BarrierSet* bs = Universe::heap()->barrier_set();
  // For performance reasons, we assume we are that the write barrier we
  // are using has optimized modes for arrays of references.  At least one
  // of the asserts below will fail if this is not the case.
  assert(bs->has_write_ref_array_opt(), "Barrier set must have ref array opt");
  assert(bs->has_write_ref_array_pre_opt(), "For pre-barrier as well.");

  if (s == d) {
    // since source and destination are equal we do not need conversion checks.
    assert(length > 0, "sanity check");
    bs->write_ref_array_pre(dst, length);
    Copy::conjoint_oops_atomic(src, dst, length);
  } else {
    // We have to make sure all elements conform to the destination array
    Klass* bound = ObjArrayKlass::cast(d->klass())->element_klass();
    Klass* stype = ObjArrayKlass::cast(s->klass())->element_klass();
    if (stype == bound || stype->is_subtype_of(bound)) {
      // elements are guaranteed to be subtypes, so no check necessary
      bs->write_ref_array_pre(dst, length);
      Copy::conjoint_oops_atomic(src, dst, length);
    } else {
      // slow case: need individual subtype checks
      // note: don"t use obj_at_put below because it includes a redundant store check
      T* from = src;
      T* end = from + length;
      for (T* p = dst; from < end; from++, p++) {
        // XXX this is going to be slow.
        T element = *from;
        // even slower now
        bool element_is_null = oopDesc::is_null(element);
        oop new_val = element_is_null ? oop(NULL)
                                      : oopDesc::decode_heap_oop_not_null(element);
        if (element_is_null ||
            (new_val->klass())->is_subtype_of(bound)) {
          bs->write_ref_field_pre(p, new_val);
          *p = element;
        } else {
          // We must do a barrier to cover the partial copy.
          const size_t pd = pointer_delta(p, dst, (size_t)heapOopSize);
          // pointer delta is scaled to number of elements (length field in
          // objArrayOop) which we assume is 32 bit.
          assert(pd == (size_t)(int)pd, "length field overflow");
          bs->write_ref_array((HeapWord*)dst, pd);
          THROW(vmSymbols::java_lang_ArrayStoreException());
          return;
        }
      }
    }
  }
  bs->write_ref_array((HeapWord*)dst, length);
}

可以看到, 在设定了heap barrier之后, 元素是在for循环中被一个个挪动的. 做的工作比我想象的要多.

如果有m个元素, 按照给定位置, 使用ArrayList.add(int,E)逐个插入到一个长度为n的ArrayList中, 复杂度应当是O(m*n), 或者O(m*(m+n)), 所以, 如果m和n都不小的话, 效率确实是不高的.

效率高一些的方法是, 建立m+n长度的数组或ArrayList, 在给定位置赋值该m个要插入的元素, 其他位置依次赋值原n长度List的元素. 这样时间复杂度应当是O(m+n).

还有, 在前面的实现中, 我们可以看到有对ensureCapacityInternal(int) 的调用. 这个保证数组容量的实现主要在:

/**
 * Increases the capacity to ensure that it can hold at least the
 * number of elements specified by the minimum capacity argument.
 *
 * @param minCapacity the desired minimum capacity
 */
private void grow(int minCapacity) {
    // overflow-conscious code
    int oldCapacity = elementData.length;
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    if (newCapacity - minCapacity < 0)
        newCapacity = minCapacity;
    if (newCapacity - MAX_ARRAY_SIZE > 0)
        newCapacity = hugeCapacity(minCapacity);
    // minCapacity is usually close to size, so this is a win:
    elementData = Arrays.copyOf(elementData, newCapacity);
}

大家知道由于效率原因, ArrayList容量增长不是正好按照要求的容量minCapacity来设计的, 新容量计算的主要逻辑是: 如果要求容量比当前容量的1.5倍大, 就按照要求容量重新分配空间; 否则按当前容量1.5倍增加. 当然不能超出Integer.MAX_VALUE了. oldCapacity + (oldCapacity >> 1) 实际就是当前容量1.5倍, 等同于(int) (oldCapacity * 1.5), 但因这段不涉及浮点运算只是移位, 显然效率高不少.

所以如果ArrayList一个一个add元素的话, 容量是在不够的时候1.5倍增长的. 关于1.5这个数字, 或许是觉得2倍增长太快了吧. 也或许有实验数据的验证支撑.

关于这段代码中出现的Arrays.copyOf这个方法, 实现的是重新分配一段数组, 把elementData赋值给新分配的空间, 如果新分配的空间大, 则后面赋值null, 如果分配空间比当前数组小则截断. 底层还是调用的System.arraycopy.

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/72033.html

相关文章

  • JAVA 集合框架

    摘要:接口下面包含等。但是接口并没有继承接口,因此无法迭代。分离出接口是迭代器模式。但是接口又提供了接口以后将转换成集合来迭代。的增强循环也只适用于那些继承了接口的。 Iterator接口是Collection接口的父接口。Collection接口下面包含List,Set,Queue等。 Map接口与Collection接口同级。但是Map接口并没有继承Iterator接口,因此无法迭代。 ...

    galaxy_robot 评论0 收藏0
  • 深入了解Java集合中ArrayList

    摘要:实现了接口,所以包含的基本方法新增,删除,插入等都实现了。线程安全问题在多线程情况下有线程进行修改时,是线程不安全的。线程安全性问题,取决于如何应用。反映的是当前数组中存了多少数据,而则反映的是内部数组的容量。 什么是ArrayList ArrayList 是一个可扩容数组Resizable-array,它实现了List接口的所有方法。 从对ArrayList的简单描述中我们可以得出...

    zeyu 评论0 收藏0
  • Java 中初始化 List 集合 6 种方式!

    摘要:是开发中经常会使用的集合,你们知道有哪些方式可以初始化一个吗这其中不缺乏一些坑,今天栈长我给大家一一普及一下。好了,今天栈长就给大家介绍到这里了,这种,你知道几种另外,也有类似的初始化的方法,大家有兴趣的可以试一下。 List 是 Java 开发中经常会使用的集合,你们知道有哪些方式可以初始化一个 List 吗?这其中不缺乏一些坑,今天栈长我给大家一一普及一下。 1、常规方式 List...

    Binguner 评论0 收藏0
  • java集合

    摘要:主要用于遍历集合中的元素,对象也被称为迭代器。使用迭代过程中,不可修改集合元素迭代器采用快速失败机制。一旦迭代过程中检测到该集合已经被修改,程序立即出发异常,而不是显示修改后的结果,避免了共享资源而引发的潜在问题。 集合类和数组不一样,数组元素既可以是基本类型的值,也可以是对象(实际上保存的是对象的引用变量);而集合里只能保存对象(实际上只是保存对象的引用变量,但通常习惯上认为集...

    JinB 评论0 收藏0
  • java-list-map-set 学习记录

    摘要:集合类类型解释的父类集集合中的元素不按特定方式排序,并且没有重复对象。他的有些实现类能对集合中的键对象进行排序。 集合类 2017-07-10 22:24:57 blog site https://github.com/Fiz1994 类型解释: Collection : Set,List 的父类 Set(集):集合中的元素不按特定方式排序,并且没有重复对象。他的有些实现类能对集合中的...

    stackvoid 评论0 收藏0

发表评论

0条评论

raledong

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<