Java器皿学习笔记（二） Set接口及其实现类的相关知识总结

2012-10-15

Java容器学习笔记（二） Set接口及其实现类的相关知识总结在Java容器学习笔记（一）中概述了Collection的基本

Java容器学习笔记（二） Set接口及其实现类的相关知识总结
在Java容器学习笔记（一）中概述了Collection的基本概念及接口实现，并且总结了它的一个重要子接口List及其子类的实现和用法。

本篇主要总结Set接口及其实现类的用法，包括HashSet（无序不重复），LinkedHashSet（按放入顺序有序不重复），TreeSet（按红黑树方式有序不重复），EnumSet，ConcurrentSkipListSet（来自于java.util.concurrent包），CopyOnWriteArraySet（来自于java.util.concurrent包）等。

2. Set接口及其实现类
Set接口中方法清单：

Set集合和List集合都存放的是单个元素的序列，但是Set集合不允许集合中有重复元素（主要依赖于equals方法）。

Set接口的父接口为Collection和Iterable，直接实现该接口的子接口有SortedSet和NavigableSet。

实现Set接口的重要类有HashSet（无序不重复），LinkedHashSet（按放入顺序有序不重复），TreeSet（按红黑树方式有序不重复），EnumSet，ConcurrentSkipListSet（来自于java.util.concurrent包），CopyOnWriteArraySet（来自于java.util.concurrent包）。

在Set接口中没有新增任何方法，所有方法均来自其父接口。它无法提供像List中按位存取的方法。在数学上一个集合有三个性质：确定性，互异性，无序性。

? HashSet的特点、实现机制及使用方法

a) HashSet的特点：

HashSet中存放的元素是无序的，底层是用HashMap实现的，其中key是要放入的元素，value是一个Object类型的名为PRESENT的常量，由于用到了散列函数，因此其存取速度是非常快的，在地址空间很大的情况下它的存取速度可以达到O(1)级。如果首先了解了HashMap的实现方法，那么HashSet的实现是非常简单的。

b）HashSet的实现机制：
首先需要了解一下散列或者哈希的用法。我们知道，当数据量很大时hash函数计算的结果将会重复，按照下图所示的形式进行存贮。

在HashSet中有个loadFactor（负载因子），对于上图所示总共有11个位置，目前有4个位置已经存放，即40%的空间已被使用。

在HashSet的默认实现中，初始容量为16，负载因子为0.75，也就是说当有75%的空间已被使用，将会进行一次再散列（再哈希），之前的散列表（数组）将被删除，新增加的散列表是之前散列表长度的2倍，最大值为Integer.MAX_VALUE。

负载因子越高，内存使用率越大，元素的寻找时间越长。

负载因子越低，内存使用率越小，元素的寻找时间越短。

从上图可以看出，当哈希值相同时，将存放在同一个位置，使用链表方式依次链接下去。

（面试官问到这个问题，当时我的回答是再哈希，其实我并不知道HashSet真正是怎么实现的，我只知道在学习数据结构时学习过再哈希，就是这个哈希表很满时需要重新建立哈希表，以便于存取，因为大量的值放在一个位置上就变成了链表的查询了，几乎是O(n/2)级别的，但是我没有说出来再哈希的过程，以及哈希值相同时到底如何存放，所以……~~o(>_<)o ~~）。

为了说明HashSet在Java中确实如上实现，下面附上JDK中两个重要方法的源码：（下面源码来自于HashMap，原因是HashSet是基于HashMap实现的）

简单说明一下上面的例子：

上面已经提到HashSet里面放的元素是不允许重复的，那么什么样的元素是重复呢，重复的定义是什么？

上面例子中实现了一个简单的类Name类，并且重写了equals方法与hashCode方法，那么重复指的是equals方法吗？equals相同就算是重复吗？当然不是这样的。如果我们改写一下hashCode方法，将返回值改为

       return prime*result + first.hashCode() + last.hashCode()

那么HashSet中的size会变为4，但是Name(“Wang”, “wu”)和Name(“Wang”, “san”)其实用equals方法来比较的话其实是相同的。

       Name n1 = new Name("W", "x");

    Name n2 = new Name("W", "y");

    System.out.println(n1.equals(n2));

也就是说上面代码会输出true。

这样我们是不是可以这样认为：如果hashCode相同的话再判断equals的返回值是否为true，如果为true则相同，即上面说的重复。如果hashCode不同那么一定是不重复的？

由此看来equals相同，hashCode不一定相同，equals和hashCode的返回值不是绝对关联的？当然我们实现equals方法时是要根据hashCode方法实现的，必须建立关联关系，也就是说正常情况下equals相同，则hashCode的返回值应该是相同的。

? LinkedHashSet的特点、实现机制及使用方法

a)      LinkedHashSet的特点：

LinkedHashSet保证了按照插入顺序有序，继承自HashSet，没有实现新的可以使用的方法。

b)      LinkedHashSet实现机制：

LinkedHashSet继承自HashSet，构造时使用了在HashSet中被忽略的构造方法：

    /**          * Constructs a new, empty tree set, sorted according to the          * natural ordering of its elements.  All elements inserted into          * the set must implement the {@link Comparable} interface.          * Furthermore, all such elements must be <i>mutually          * comparable</i>: {@code e1.compareTo(e2)} must not throw a          * {@code ClassCastException} for any elements {@code e1} and          * {@code e2} in the set.  If the user attempts to add an element          * to the set that violates this constraint (for example, the user          * attempts to add a string element to a set whose elements are          * integers), the {@code add} call will throw a          * {@code ClassCastException}.      */

从注释中可以看出保证不重复的关键因素不是hashCode和equals方法，而是compareTo。也就是说要加入的元素要实现Comparable接口。

c) TreeSet的使用方法：

在总结HashSet的使用方法时，我们用到了一个例子，那么在使用TreeSet时同样是一个选择的问题，我们是否要保证插入的元素有序（不是按插入顺序有序，而是根据compareTo的返回值排序）是我们选择使用那种类型的Set的一个标准。（我不是专家，我只是菜鸟，欢迎拍砖）

? ConcurrentSkipListSet的特点、实现机制及使用方法

a） ConcurrentSkipListSet的特点：

首先必须说的是这个类的名字很是让我奇怪，就像我当时奇怪CopyOnWriteArrayList一样，觉得这是一个比较长的名字，但是当我查了Copy-on-Write的意思时我就不再奇怪了，甚至让我猜到了它的实现机制。

那么Concurrent-Skip是什么意思呢？并行跳过？

与大多数其他并发 collection 实现一样，此类不允许使用 null 元素，因为无法可靠地将 null 参数及返回值与不存在的元素区分开来。

b） ConcurrentSkipListSet的实现机制：

ConcurrentSkipListSet底层是使用ConcurrentSkipListMap实现的。那么并行跳过到底是什么意思，本人暂时不能做出总结。⊙﹏⊙b汗

c） ConcurrentSkipListSet的使用方法：

⊙﹏⊙b汗

热点排行

编程

Java器皿学习笔记（二） Set接口及其实现类的相关知识总结