4.3Mengen (Sets)
Eine Menge ist eine (erst einmal) ungeordnete Sammlung von Elementen. Jedes Element darf nur einmal vorkommen. Für Mengen sieht die Java-Bibliothek die Schnittstelle java.util.Set vor. Beliebte implementierende Klassen sind:
HashSet: schnelle Mengenimplementierung durch Hashing-Verfahren (dahinter steckt die HashMap)
TreeSet: Mengen werden durch balancierte Binärbäume realisiert, die eine Sortierung ermöglichen.
LinkedHashSet: schnelle Mengenimplementierung unter Beibehaltung der Einfügereihenfolge
EnumSet: eine spezielle Menge ausschließlich für Aufzählungen
CopyOnWriteArraySet: schnelle Datenstruktur für viele lesende Operationen
4.3.1Ein erstes Mengen-Beispiel
Das folgende Programm analysiert einen Text und erkennt Städte, die vorher in eine Datenstruktur eingetragen wurden. Alle Städte, die im Text vorkommen, werden gesammelt und später ausgegeben.
Listing 4.7com/tutego/insel/util/set/WhereHaveYouBeen.java
import java.text.BreakIterator;
import java.util.*;
public class WhereHaveYouBeen {
// Besser String.join(…) in Java 8
public static String join( Iterable<?> iterable ) {
StringBuilder result = new StringBuilder();
for ( Object o : iterable ) {
if ( result.length() != 0 )
result.append( ", " );
result.append( o.toString() );
}
return result.toString();
}
public static void main( String[] args )
{
// Menge mit Städten aufbauen
Set<String> allCities = new HashSet<>();
allCities.add( "Sonsbeck" );
allCities.add( "Düsseldorf" );
allCities.add( "Manila" );
allCities.add( "Seol" );
allCities.add( "Siquijor" );
// Menge für besuchte Städte aufbauen
Set<String> visitedCities = new TreeSet<>();
// Satz parsen und in Wörter zerlegen. Alle gefundenen Städte
// in neue Datenstruktur aufnehmen
String sentence = "Von Sonsbeck fahre ich nach Düsseldorf und fliege nach Manila.";
BreakIterator iter = BreakIterator.getWordInstance();
iter.setText( sentence );
for ( int first = iter.first(), last = iter.next();
last != BreakIterator.DONE;
first = last, last = iter.next() ) {
String word = sentence.substring( first, last );
if ( allCities.contains( word ) )
visitedCities.add( word );
}
// Kleine Statistik
System.out.println( "Anzahl besuchter Städte: " + visitedCities.size() );
System.out.println( "Anzahl nicht besuchter Städte: " +
(allCities.size() – visitedCities.size()) );
System.out.println( "Besuchte Städte: " + join( visitedCities ) );
Set<String> unvisitedCities = new TreeSet<>( allCities );
unvisitedCities.removeAll( visitedCities );
System.out.println( "Unbesuchte Städte: " + join( unvisitedCities ) );
}
}
Insgesamt kommen drei Mengen im Programm vor:
allCities speichert alle möglichen Städte. Die Wahl fällt auf den Typ HashSet, da die Menge nicht sortiert sein muss, Nebenläufigkeit kein Thema ist und HashSet eine gute Zugriffszeit bietet.
Ein TreeSet visitedCities merkt sich die besuchten Städte. Auch dieses Set ist schnell, hat aber den Vorteil, dass es die Elemente sortiert hält. Das ist später hübsch in der Ausgabe.
Um alle nicht besuchten Städte herauszufinden, berechnet das Programm die Differenzmenge zwischen allen Städte und besuchten Städten. Es gibt in der Schnittstelle Set keine Methode, die das direkt macht, genau genommen gibt es keine Operation in Set, die den Rückgabetyp Set oder Collection hat. Also können wir nur mit einer Methode wie removeAll(…) arbeiten, die aus der Menge aller Städte die besuchten entfernt, um zu denen zu kommen, die noch nicht besucht wurden. Das »Problem« der removeAll(…)-Methode ist aber ihre zerstörerische Art – die Elemente werden genau aus der Menge gelöscht. Da die Originalmenge jedoch nicht verändert werden soll, kopieren wir alle Städte in einen Zwischenspeicher (unvisitedCities) und löschen aus diesem Zwischenspeicher, was die Originalmenge unangetastet lässt.
4.3.2Methoden der Schnittstelle Set
Eine Mengenklasse deklariert neben Operationen für die Anfrage und das Einfügen von Elementen auch Methoden für Schnitt und Vereinigung von Mengen.
extends Collection<E>
boolean add(E o)
Setzt o in die Menge, falls es dort noch nicht vorliegt. Liefert true bei erfolgreichem Einfügen.boolean addAll(Collection<? extends E> c)
Fügt alle Elemente von c in das Set ein und liefert true bei erfolgreichem Einfügen. Ist c ein anderes Set, so steht addAll(…) für die Mengenvereinigung.void clear()
Löscht das Set.boolean contains(Object o)
Ist das Element o in der Menge?boolean containsAll(Collection<?> c)
Ist c eine Teilmenge von Set?boolean isEmpty()
Ist das Set leer?Iterator<E> iterator()
Gibt einen Iterator für das Set zurück.boolean remove(Object o)
Löscht o aus dem Set, liefert true bei erfolgreichem Löschen.boolean removeAll(Collection<?> c)
Löscht alle Elemente der Collection aus dem Set und liefert true bei erfolgreichem Löschen.boolean retainAll(Collection<?> c)
Bildet die Schnittmenge mit c.int size()
Gibt die Anzahl der Elemente in der Menge zurück.Object[] toArray()
Erzeugt zunächst ein neues Feld, in dem alle Elemente der Menge Platz finden, und kopiert anschließend die Elemente in das Feld.<T> T[] toArray(T[] a)
Ist das übergebene Feld groß genug, dann werden alle Elemente der Menge in das Feld kopiert. Ist das Feld zu klein, wird ein neues Feld vom Typ T angelegt, und alle Elemente werden vom Set in das Array kopiert und zurückgegeben.
In der Schnittstelle Set werden die aus Object stammenden Methoden equals(…) und hashCode() mit ihrer Funktionalität bei Mengen in der API-Dokumentation präzisiert.
[»]Hinweis
In einem Set gespeicherte Elemente müssen immutable bleiben. Einerseits sind sie nach einer Änderung vielleicht nicht wiederzufinden, und andererseits können Elemente auf diese Weise doppelt in der Menge vorkommen, was der Philosophie der Schnittstelle widerspricht.
Ein Element erneut hinzunehmen
Ist ein Element in der Menge noch nicht vorhanden, fügt add(…) es ein und liefert als Rückgabe true. Ist es schon vorhanden, macht add(…) nichts und liefert false (das ist bei einer Map anders, denn dort überschreibt put(…) den Schlüssel). Ob ein hinzuzufügendes Element mit einem existierenden in der Menge übereinstimmt, bestimmt die equals(…)-Methode, also die Gleichheit und nicht die Identität:
Listing 4.8com/tutego/insel/util/set/HashSetDoubleAdd.java, main()
Point p1 = new Point(), p2 = new Point();
System.out.println( set.add(p1) ); // true
System.out.println( set.add(p1) ); // false
System.out.println( set.add(p2) ); // false
System.out.println( set.contains(p1) ); // true
System.out.println( set.contains(p2) ); // true
4.3.3HashSet
Ein java.util.HashSet verwaltet die Elemente in einer schnellen hashbasierten Datenstruktur. Dadurch sind die Elemente schnell einsortiert und schnell zu finden. Falls eine Sortierung vom HashSet nötig ist, müssen die Elemente nachträglich umkopiert und dann sortiert werden.
extends AbstractSet<E>
implements Set<E>, Cloneable, Serializable
HashSet()
Erzeugt ein leeres HashSet-Objekt.HashSet(Collection<? extends E> c)
Erzeugt aus der Sammlung c ein neues unsortiertes HashSet.HashSet(int initialCapacity)
HashSet(int initialCapacity, float loadFactor)
Die beiden Konstruktoren sind zur Optimierung gedacht und werden bei der HashMap im Abschnitt »Die Arbeitsweise einer Hash-Tabelle *« in Abschnitt 4.6.9 genauer erklärt – HashSet basiert intern auf der HashMap.
4.3.4TreeSet – die sortierte Menge
Die Klasse java.util.TreeSet implementiert ebenfalls wie HashSet die Set-Schnittstelle, verfolgt aber eine andere Implementierungsstrategie. Ein TreeSet verwaltet die Elemente immer sortiert (intern werden die Elemente in einem balancierten Binärbaum gehalten). Speichert TreeSet ein neues Element, so fügt TreeSet das Element automatisch sortiert in die Datenstruktur ein. Das kostet zwar etwas mehr Zeit als ein HashSet, doch ist diese Sortierung dauerhaft. Daher ist es auch nicht zeitaufwändig, alle Elemente geordnet auszugeben. Die Suche nach einem einzigen Element ist aber etwas langsamer als im HashSet. Der Begriff »langsamer« muss jedoch relativiert werden: Die Suche ist logarithmisch und daher nicht wirklich »langsam«. Beim Einfügen und Löschen muss bei bestimmten Konstellationen eine Reorganisation des Baums in Kauf genommen werden, was die Einfüge-/Löschzeit verschlechtert. Doch auch beim Re-Hashing gibt es diese Kosten, die sich dort jedoch durch die passende Startgröße vermeiden lassen.
extends AbstractSet<E>
implements NavigableSet<E>, Cloneable, Serializable
TreeSet()
Erzeugt ein neues, leeres TreeSet.TreeSet(Collection<? extends E> c)
Erzeugt ein neues TreeSet aus der gegebenen Collection.TreeSet(Comparator<? super E> c)
Erzeugt ein leeres TreeSet mit einem gegebenen Comparator, der für die Sortierung der internen Datenstruktur die Vergleiche übernimmt.TreeSet(SortedSet<E> s)
Erzeugt ein neues TreeSet, und übernimmt alle Elemente von s und auch die Sortierung von s. (Einen Konstruktor mit NavigableSet gibt es nicht.)
[zB]Beispiel
Teste, ob eine Liste von Datumswerten aufsteigend sortiert ist:
boolean isSorted = new ArrayList<>( new TreeSet<>( dates ) ).equals( dates );
Nimmt der Konstruktor von TreeSet eine andere Sammlung entgegen, so entsteht eine sortierte Sammlung aller Elemente. Diese Sammlung kann wiederum in einen anderen Konstruktor gegeben werden, der Collection-Objekte annimmt, wie zum Beispiel eine ArrayList. Unser Beispiel vergleicht zwei List-Exemplare mit equals(…), wobei Listen eine Ordnung haben. Stimmt die Ordnung nach dem Sortieren mit der vor der Sortierung überein, war die Liste schon sortiert.
Bedeutung der Sortierung
Durch die interne sortierte Speicherung gibt es zwei ganz wichtige Bedingungen:
Die Elemente müssen sich vergleichen lassen. Kommen zum Beispiel Player-Objekte in das TreeSet, aber implementiert Player nicht die Schnittstelle Comparable, löst TreeSet eine Ausnahme aus, da TreeSet nicht weiß, in welcher Reihenfolge die Spieler stehen.
Die Elemente müssen vom gleichen Typ sein. Wie sollte sich ein Kirchen-Objekt mit einem Staubsauger-Objekt vergleichen lassen?
[zB]Beispiel
Sortiere Strings in eine Menge ein, wobei die Groß-/Kleinschreibung und vorangestellter bzw. nachfolgender Weißraum keine Rolle spielen. Anders gesagt: Wörter sollen auch dann als gleich angesehen werden, wenn sie sich in der Groß-/Kleinschreibweise unterscheiden oder etwa Weißraum am Anfang und Ende besitzen:
@Override public int compare( String s1, String s2 ) {
return String.CASE_INSENSITIVE_ORDER.compare( s1.trim(), s2.trim() );
}
} );
Collections.addAll( set, "xxx ", " XXX", "tang", " xXx", " QUEEF " );
System.out.println( set ); // [ QUEEF , tang, xxx ]
Die Methode equals(…) und die Vergleichsmethoden
Die Methode equals(…) spielt für Datenstrukturen eine große Rolle. Beim TreeSet ist das anders, denn es nutzt zur Einordnung einen externen Comparator bzw. die compareTo(…)-Eigenschaft, wenn die Elemente Comparable sind. Gibt die Vergleichsmethode 0 zurück, so sind die Elemente gleich, und gleiche Elemente sind in der Menge nicht erlaubt – equals(…) wird dabei nicht gefragt!
Nehmen wir als Beispiel den Comparator aus dem vorangegangenen Beispiel für String-Objekte, der unabhängig von der Groß-/Kleinschreibung und Weißraum vergleicht. Dann sind laut equals(…) die Strings "xxx " und " XXX" sicherlich nicht gleich, der Comparator würde aber Gleichheit anzeigen. Dies führt dazu, dass tatsächlich nur eines der beiden Objekte in das TreeSet kommt, und eine Anfrage nach einem Comparator-gleichen Objekt daher das Element liefert:
Collections.addAll( set, "xxx ", " XXX", "tang", " xXx", " QUEEF " );
System.out.println( set.contains( " XXX " ) ); // true
4.3.5Die Schnittstellen NavigableSet und SortedSet
TreeSet implementiert die Schnittstelle NavigableSet und bietet darüber Methoden, um insbesondere zu einem gegebenen Element das nächsthöhere/-kleinere zu liefern. Somit sind auf Mengen nicht nur die üblichen Abfragen über Mengenzugehörigkeit denkbar, sondern auch Abfragen wie »Gib mir das Element, das größer oder gleich einem gegebenen Element ist«.
Folgendes Beispiel reiht in ein TreeSet drei Calendar-Objekte ein – die Klasse Calendar implementiert Comparable<Calendar>. Die Methoden lower(…), ceiling(…), floor(…) und higher(…) wählen aus der Menge das angefragte Objekt aus:
Listing 4.9com/tutego/insel/util/set/SortedSetDemo.java
set.add( new GregorianCalendar(2007, Calendar.MARCH, 10) );
set.add( new GregorianCalendar(2007, Calendar.MARCH, 12) );
set.add( new GregorianCalendar(2007, Calendar.APRIL, 12) );
Calendar cal1 = set.lower( new GregorianCalendar(2007, Calendar.MARCH, 12) );
System.out.printf( "%tF%n", cal1 ); // 2007-03-10
Calendar cal2 = set.ceiling( new GregorianCalendar(2007, Calendar.MARCH, 12) );
System.out.printf( "%tF%n", cal2 ); // 2007-03-12
Calendar cal3 = set.floor( new GregorianCalendar(2007, Calendar.MARCH, 12) );
System.out.printf( "%tF%n", cal3 ); // 2007-03-12
Calendar cal4 = set.higher( new GregorianCalendar(2007, Calendar.MARCH, 12) );
System.out.printf( "%tF%n", cal4 ); // 2007-04-12
Eine Methode wie tailSet(…) ist insbesondere bei Datumsobjekten sehr praktisch, da sie alle Zeitpunkte liefern kann, die nach einem Startdatum liegen.
TreeSet implementiert die Schnittstelle NavigableSet, die ihrerseits SortedSet erweitert. Insgesamt bietet NavigableSet 15 Operationen, wobei sie aus SortedSet die Methoden headSet(…), tailSet(…) und subSet(…) um die überladene Version der Methoden ergänzt, die die Grenzen exklusiv oder inklusiv erlauben.
extends SortedSet<E>
NavigableSet<E> headSet(E toElement)
NavigableSet<E> tailSet(E fromElement)
Liefert eine Teilmenge von Elementen, die echt kleiner/größer als toElement/fromElement sind.NavigableSet<E> headSet(E toElement, boolean inclusive)
NavigableSet<E> tailSet(E fromElement, boolean inclusive)
Bestimmt gegenüber den oberen Methoden zusätzlich, ob das Ausgangselement zur Ergebnismenge gehören darf.NavigableSet<E> subSet(E fromElement, E toElement)
Liefert eine Teilmenge im gewünschten Bereich.E pollFirst()
E pollLast()
Holt und entfernt das erste/letzte Element. Die Rückgabe ist null, wenn das Set leer ist.E higher(E e)
E lower(E e)
Liefert das folgende/vorangehende Element im Set, das echt größer/kleiner als E ist, oder null, falls ein solches Element nicht existiert.E ceiling(E e)
E floor(E e)
Liefert das folgende/vorangehende Element im Set, das größer/kleiner oder gleich E ist, oder null, falls ein solches Element nicht existiert.Iterator<E> descendingIterator()
Liefert die Elemente in umgekehrter Reihenfolge.
Aus der Schnittstelle SortedSet erbt NavigableSet im Grunde nur drei Operationen, denn subSet(…), headSet(…) und tailSet(…) werden mit kovariantem Rückgabetyp in NavigableSet redefiniert.
extends Set<E>
E first()
Liefert das erste Element in der Liste.E last()
Liefert das größte Element.Comparator<? super E> comparator()
Liefert den mit der Menge verbundenen Comparator. Die Rückgabe kann null sein, wenn sich die Objekte mit Comparable selbst vergleichen können.SortedSet<E> subSet(E fromElement, E toElement)
SortedSet<E> headSet(E toElement)
SortedSet<E> tailSet(E fromElement)
Anders als HashSet liefert der Iterator beim TreeSet die Elemente aufsteigend sortiert. Davon profitieren auch die beiden toArray(…)-Methoden – implementiert in AbstractCollection –, da sie den Iterator nutzen, um ein sortiertes Feld zurückzugeben.
[zB]Beispiel
Eine Variable contacts ist vom Typ Map<Long,String> und assoziiert IDs vom Typ long mit Strings. Ein neuer Kontakt soll eine ID bekommen, die um 1 höher ist als die höchste ID des Assoziativspeichers:
4.3.6LinkedHashSet
Ein LinkedHashSet vereint die Reihenfolgentreue einer Liste und die hohe Performance für Mengenoperationen vom HashSet. Dabei bietet die Klasse keine Listen-Methoden wie first() oder get(int index), sondern ist eine Implementierung ausschließlich der Set-Schnittstelle, in der der Iterator die Elemente in der Einfügereihenfolge liefert:
Listing 4.10com/tutego/insel/util/set/LinkedHashSetDemo.java, main()
Arrays.asList( 9, 8, 7, 6, 9, 8 )
);
for ( Integer i : set )
System.out.print( i + " " ); // 9 8 7 6
System.out.printf( "%n%s", set ); // [9, 8, 7, 6]
Da ein Set nur jedes Element einmal beinhalten kann, bekommen wir als Ergebnis jedes Element nur einmal, aber gleichzeitig geht die Reihenfolge des Einfügens nicht verloren. Der Iterator liefert die Elemente genau in der Einfügereihenfolge.
[zB]Beispiel
Dass ein LinkedHashSet eine Menge ist, die Elemente nur einmal enthält, sich aber beim Einfügen wie eine Liste verhält, ist nützlich, um doppelte Elemente aus einer Liste zu löschen:
return new ArrayList<>( new LinkedHashSet<>( list ) );
}
Das Ergebnis ist eine neue Liste, und list selbst wird nicht modifiziert. Es ergibt zum Beispiel removeDuplicate( Arrays.asList( 1,2,1,3,1,2,4 ) ) die Liste [1, 2, 3, 4].
LinkedHashSet und Iterator
Mit einem Iterator lässt sich jedes Element von LinkedHashSet nach der Reihenfolge des Einfügens auflisten. Der Iterator von LinkedHashSet unterstützt auch die remove()-Methode. Sie kann eingesetzt werden, um die ältesten Einträge zu löschen und nur noch die neuesten zwei Elemente beizubehalten:
set.addAll( Arrays.asList( 3, 2, 1, 6, 5, 4 ) );
System.out.println( set ); // [3, 2, 1, 6, 5, 4]
for ( Iterator<Integer> iter = set.iterator(); iter.hasNext(); ) {
iter.next();
if ( set.size() > 2 )
iter.remove();
}
System.out.println( set ); // [5, 4]