首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

Java器皿学习笔记(二) Set接口及其实现类的相关知识总结

2012-10-15 
Java容器学习笔记(二) Set接口及其实现类的相关知识总结在Java容器学习笔记(一)中概述了Collection的基本

Java容器学习笔记(二) Set接口及其实现类的相关知识总结
在Java容器学习笔记(一)中概述了Collection的基本概念及接口实现,并且总结了它的一个重要子接口List及其子类的实现和用法。

本篇主要总结Set接口及其实现类的用法,包括HashSet(无序不重复),LinkedHashSet(按放入顺序有序不重复),TreeSet(按红黑树方式有序不重复),EnumSet,ConcurrentSkipListSet(来自于java.util.concurrent包),CopyOnWriteArraySet(来自于java.util.concurrent包)等。



2.     Set接口及其实现类
Set接口中方法清单:

Set集合和List集合都存放的是单个元素的序列,但是Set集合不允许集合中有重复元素(主要依赖于equals方法)。

Set接口的父接口为Collection和Iterable,直接实现该接口的子接口有SortedSet和NavigableSet。

实现Set接口的重要类有HashSet(无序不重复),LinkedHashSet(按放入顺序有序不重复),TreeSet(按红黑树方式有序不重复),EnumSet,ConcurrentSkipListSet(来自于java.util.concurrent包),CopyOnWriteArraySet(来自于java.util.concurrent包)。

在Set接口中没有新增任何方法,所有方法均来自其父接口。它无法提供像List中按位存取的方法。在数学上一个集合有三个性质:确定性,互异性,无序性。

?  HashSet的特点、实现机制及使用方法

a)      HashSet的特点:

HashSet中存放的元素是无序的,底层是用HashMap实现的,其中key是要放入的元素,value是一个Object类型的名为PRESENT的常量,由于用到了散列函数,因此其存取速度是非常快的,在地址空间很大的情况下它的存取速度可以达到O(1)级。如果首先了解了HashMap的实现方法,那么HashSet的实现是非常简单的。

b)HashSet的实现机制:
首先需要了解一下散列或者哈希的用法。我们知道,当数据量很大时hash函数计算的结果将会重复,按照下图所示的形式进行存贮。

在HashSet中有个loadFactor(负载因子),对于上图所示总共有11个位置,目前有4个位置已经存放,即40%的空间已被使用。

在HashSet的默认实现中,初始容量为16,负载因子为0.75,也就是说当有75%的空间已被使用,将会进行一次再散列(再哈希),之前的散列表(数组)将被删除,新增加的散列表是之前散列表长度的2倍,最大值为Integer.MAX_VALUE。

负载因子越高,内存使用率越大,元素的寻找时间越长。

负载因子越低,内存使用率越小,元素的寻找时间越短。

从上图可以看出,当哈希值相同时,将存放在同一个位置,使用链表方式依次链接下去。

(面试官问到这个问题,当时我的回答是再哈希,其实我并不知道HashSet真正是怎么实现的,我只知道在学习数据结构时学习过再哈希,就是这个哈希表很满时需要重新建立哈希表,以便于存取,因为大量的值放在一个位置上就变成了链表的查询了,几乎是O(n/2)级别的,但是我没有说出来再哈希的过程,以及哈希值相同时到底如何存放,所以……~~o(>_<)o ~~)。

为了说明HashSet在Java中确实如上实现,下面附上JDK中两个重要方法的源码:(下面源码来自于HashMap,原因是HashSet是基于HashMap实现的)


简单说明一下上面的例子:

上面已经提到HashSet里面放的元素是不允许重复的,那么什么样的元素是重复呢,重复的定义是什么?

上面例子中实现了一个简单的类Name类,并且重写了equals方法与hashCode方法,那么重复指的是equals方法吗?equals相同就算是重复吗?当然不是这样的。如果我们改写一下hashCode方法,将返回值改为

       return prime*result + first.hashCode() + last.hashCode()

那么HashSet中的size会变为4,但是Name(“Wang”, “wu”)和Name(“Wang”, “san”)其实用equals方法来比较的话其实是相同的。

       Name n1 = new Name("W", "x");

    Name n2 = new Name("W", "y");

    System.out.println(n1.equals(n2));

也就是说上面代码会输出true。

这样我们是不是可以这样认为:如果hashCode相同的话再判断equals的返回值是否为true,如果为true则相同,即上面说的重复。如果hashCode不同那么一定是不重复的?

由此看来equals相同,hashCode不一定相同,equals和hashCode的返回值不是绝对关联的?当然我们实现equals方法时是要根据hashCode方法实现的,必须建立关联关系,也就是说正常情况下equals相同,则hashCode的返回值应该是相同的。

?  LinkedHashSet的特点、实现机制及使用方法

a)      LinkedHashSet的特点:

LinkedHashSet保证了按照插入顺序有序,继承自HashSet,没有实现新的可以使用的方法。

b)      LinkedHashSet实现机制:

LinkedHashSet继承自HashSet,构造时使用了在HashSet中被忽略的构造方法:
    /**          * Constructs a new, empty tree set, sorted according to the          * natural ordering of its elements.  All elements inserted into          * the set must implement the {@link Comparable} interface.          * Furthermore, all such elements must be <i>mutually          * comparable</i>: {@code e1.compareTo(e2)} must not throw a          * {@code ClassCastException} for any elements {@code e1} and          * {@code e2} in the set.  If the user attempts to add an element          * to the set that violates this constraint (for example, the user          * attempts to add a string element to a set whose elements are          * integers), the {@code add} call will throw a          * {@code ClassCastException}.      */  

从注释中可以看出保证不重复的关键因素不是hashCode和equals方法,而是compareTo。也就是说要加入的元素要实现Comparable接口。

c)      TreeSet的使用方法:

在总结HashSet的使用方法时,我们用到了一个例子,那么在使用TreeSet时同样是一个选择的问题,我们是否要保证插入的元素有序(不是按插入顺序有序,而是根据compareTo的返回值排序)是我们选择使用那种类型的Set的一个标准。(我不是专家,我只是菜鸟,欢迎拍砖)

?  ConcurrentSkipListSet的特点、实现机制及使用方法

a) ConcurrentSkipListSet的特点:

首先必须说的是这个类的名字很是让我奇怪,就像我当时奇怪CopyOnWriteArrayList一样,觉得这是一个比较长的名字,但是当我查了Copy-on-Write的意思时我就不再奇怪了,甚至让我猜到了它的实现机制。

那么Concurrent-Skip是什么意思呢?并行跳过?

与大多数其他并发 collection 实现一样,此类不允许使用 null 元素,因为无法可靠地将 null 参数及返回值与不存在的元素区分开来。

b) ConcurrentSkipListSet的实现机制:

ConcurrentSkipListSet底层是使用ConcurrentSkipListMap实现的。那么并行跳过到底是什么意思,本人暂时不能做出总结。⊙﹏⊙b汗

c) ConcurrentSkipListSet的使用方法:

⊙﹏⊙b汗

热点排行