13.3Die Klasse URLConnection *
Ein Exemplar des Typs URLConnection kann über die gegebene URL eine Verbindung zum Server aufbauen. Die Klasse ist abstrakt, und die Unterklassen implementieren konkrete Protokolle (wie HTTP), mit denen die Verbindung zum Inhalt aufgebaut wird. Die Unterklassen bedienen sich dabei der Objekte der Klasse URLStreamHandler, mit denen der eigentliche Inhalt ausgelesen wird.
13.3.1Methoden und Anwendung von URLConnection
Die Klasse URLConnection ist ein wenig HTTP-lastig, denn viele Methoden haben nur für URLs auf Webseiten eine Bedeutung. So stellt die Klasse Methoden bereit, um die HTTP-Header zu lesen. Das ist etwas untypisch für andere Protokolle, die vielleicht keine Header setzen. Da eine Datei, die vom Webserver kommt, den Inhalt (engl. content) immer ankündigt, kann die Klasse URLConnection mit einem Content-Handler den Inhalt erkennen.
Abbildung 13.1Klassendiagramm für URLConnection
Zum Datum
Um zu erfahren, wann die Datei auf dem Server gelandet ist, kann getDate() bzw. getLastModified() verwendet werden:
Listing 13.3com/tutego/insel/net/UrlConnectionHeader.java, main()
URLConnection con = url.openConnection();
System.out.println( con );
System.out.println( "Date : " + new Date(con.getDate()) );
System.out.println( "Last Modified : " + new Date(con.getLastModified()) );
System.out.println( "Content encoding: " + con.getContentEncoding() );
System.out.println( "Content type : " + con.getContentType() );
System.out.println( "Content length : " + con.getContentLength() );
Die Programmzeilen würden etwa folgende Ausgabe erzeugen:
Date : Tue Aug 27 11:10:04 CEST 2013
Last Modified : Tue Jul 09 11:29:54 CEST 2013
Content encoding: null
Content type : text/html
Content length : 20670
HTTP-Header
Die meisten Header-Attribute verarbeitet getHeaderField(String). Die Methode getHeaderFieldInt(String name, int Default)[ 115 ](Ja, die großgeschriebene Parametervariable steht tatsächlich da.) ist eine Fassade und ruft Integer.parseInt(getHeaderField(name)) auf. Ebenso wandelt getHeaderFieldDate(String name, long Default) mittels getHeaderField(name) den String zuerst in ein long um und konvertiert ihn anschließend in ein Date-Objekt. Sehen wir uns zwei weitere Methoden an:
Listing 13.4java/net/URLConnection.java, Ausschnitt
return getHeaderField("content-type");
}
public long getLastModified() {
return getHeaderFieldDate("last-modified", 0);
}
Wie nun getHeaderField(String) wirklich implementiert ist, können wir nicht sehen, da es sich dabei um eine Methode handelt, die von einer Sun-Unterklasse überschrieben wird. Prinzipiell ist die URLConnection-Klasse zwar für alle Protokolle gleichwertig, doch an anderer Stelle wurde schon erwähnt, dass sie eher zu Gunsten von HTTP entscheidet. Deshalb muss ein Rückgabewert von getLastModified() von einer FTP-Verbindung mit Vorsicht genossen werden.
Verbindung nur mit Lesen oder Schreiben
Über eine URLConnection lassen sich Daten lesen und auch schreiben. Standardmäßig ist die Verbindung zur Eingabe bereit, aber zur Ausgabe nicht. Die Zustände ändern die Methoden setDoInput(boolean) und setDoOutput(boolean). Insbesondere wenn der initiierende Client Daten zurücksenden möchte, muss er mit setDoOutput(true) die URLConnection initialisieren.
13.3.2Protokoll- und Content-Handler
Falls ein passender Content-Handler eingetragen ist, bietet getContent() Zugriff auf den Inhalt eines URL-Objekts. Mit einer kleinen Zeile können wir erfragen, welches Handler-Objekt eine URL-Klasse für den Datenstrom einsetzt:
System.out.println( "Schnapp: Ich habe einen " + o.getClass().getName() );
getContent() erkennt nun am Content-Type oder an den ersten Bytes den Dateitypus. Dann konvertiert ein Content-Handler die Bytes seines Datenstroms in ein Java-Objekt. Der Protokoll-Handler überwacht die Verbindung zum Server und stellt dann die Verbindung zu einem konkreten Content-Handler her, der die Konvertierung in ein Objekt übernimmt.
Zusammenfassend lassen sich Content- und Protokoll-Handler wie folgt definieren:
Content-Handler: Durch einen Content-Handler wird die Funktionalität der URL-Klasse erweitert. Es können Quellen verschiedener MIME-Typen durch die Methode getContent() als Objekte zurückgegeben werden. Leider beschreibt die Java-Spezifikation nicht, welche Content-Handler bereitgestellt werden müssen. Für GIFs und JPEGs gibt es Handler, die gleich ImageProducer anlegen.
Protokoll-Handler: Auch ein Protokoll-Handler erweitert die Möglichkeiten der URL-Klassen. Das Protokoll ist der erste Teil einer URL und gibt bei Übertragungen wie »http« die Kommunikationsmethode an.[ 116 ](Wer sich mit der Implementierung von Protokoll-Handlern näher auseinandersetzen möchte, der findet in dem Buch »Java Network Programming« von Elliotte Rusty Harold die Beispiele für einen Finger-Protokoll-Handler online unter http://www.ibiblio.org/java/books/jnp3/examples/16/.)
Object getContent() throws IOException, UnknownServiceException
Liefert den Inhalt, auf den die URL verweist. UnknownServiceException ist eine Unterklasse von IOException, es reicht also ein catch auf IOException aus.
implements Serializable
final Object getContent() throws IOException
Liefert den Inhalt, auf den die URL verweist. Die Methode ist eine Abkürzung für openConnection().getContent(). Wegen der Umleitung auf das URLConnection-Objekt kann auch hier eine UnknownServiceException auftauchen.
13.3.3Im Detail: Von der URL zur URLConnection
Im Konstruktor des URL-Objekts wird festgelegt, um welches Protokoll es sich handelt, etwa um HTTP. Dann wird die interne Methode getURLStreamHandler(Protokoll) aufgerufen. Sie ist die eigentliche Arbeitsstelle und findet eine entsprechende Klasse, die das Protokoll behandelt. Das funktioniert so: An das Präfix sun.net.www.protocol. wird der Name des Handlers (zum Beispiel ftp, http) und anschließend ein .Handler angehängt. Nun wird über Class.forName(clsName) nachgesehen, ob die Klasse schon im System geladen wurde. Wenn nicht, versucht der Klassenlader, über loadClass(clsName) an die Klasse zu kommen. Falls die Klasse geladen werden konnte, wird sie mit newInstance() initialisiert und als URLStreamHandler zurückgegeben. Der Konstruktor von URL merkt sich diesen Handler in einer internen Variablen handler. Die Methode würde null zurückliefern, falls sie mit dem Protokoll nichts anzufangen weiß – dies bekämen wir zu spüren, denn eine null heißt MalformedURLException().
openConnection() von URL macht nichts weiter, als vom jeweiligen Handler wiederum openConnection(URL) aufzurufen. Die Handler wissen für ihr Protokoll, wie die Verbindung aufzubauen ist. Denn für Webseiten mit dem HTTP-Protokoll sieht dies anders aus als bei einer Dateiübertragung mit dem FTP-Protokoll:
return handler.openConnection( this );
}
Der Handler übernimmt selbst das Öffnen. Zurückgegeben wird ein Objekt vom Typ URLConnection, und wir können damit auf die Referenz lesend (wir holen uns also Informationen beispielsweise von der Webseite) und schreibend (zum Beispiel für eine CGI-Abfrage) reagieren. Die Klasse URLConnection ist selbst abstrakt, und die Unterklassen implementieren ihr eigenes Protokoll.
Es muss betont werden, dass bei der Erzeugung eines URLConnection-Objekts noch keine Verbindung aufgebaut wird. Dies erfolgt mit den Methoden getOutputStream() oder getInputStream(). Der Handler von URLConnection ist vom Typ URLStreamHandler, eine abstrakte Superklasse, die von allen Stream-Protokoll-Handlern implementiert wird. Leider können wir diese Implementierung nicht im Quelltext sehen.
URLConnection openConnection() throws IOException
Liefert ein URLConnection-Objekt, das die Verbindung zum entfernten Objekt vertritt. openConnection() wird vom Protokoll-Handler immer dann aufgerufen, wenn eine neue Verbindung geöffnet wird.
13.3.4Der Protokoll-Handler für JAR-Dateien
Wir haben gesehen, dass url.openConnection() den Datenstrom öffnet und einen passenden Protokoll-Behandler sucht. Um die typischen Behandler-Eigenschaften zu nutzen, passen wir den Typ der Rückgabe an, sodass wir zum Beispiel eine URLConnection zu einer HttpURLConnection aufwerten, wenn wir wissen, dass der zu erwartende Behandler eine HTTP-Verbindung übernimmt.
So wie HttpURLConnection das Protokoll HTTP übernimmt, kümmert sich die JarURLConnection um das Protokoll »jar«, das sich auf Java-Archive bezieht. Das Format für die URL beginnt mit dem Namen des Protokolls, dem hinter dem Doppelpunkt die URL folgt. Den Abschluss bildet zwingend die Zeichenfolge »!/«. Des Weiteren lässt sich im Archiv eine bestimmte Datei auswählen. Die Angabe folgt dann hinter dem Trenner »!/«. Somit ist der allgemeine Aufbau:
Nach dem Aufbau des URL-Objekts liefert url.openConnection() das URLConnection-Objekt, das wir aber explizit an JarURLConnection typanpassen. Das bietet die Möglichkeit, mit getJarFile() auf das Java-Archiv zuzugreifen. Das JarFile repräsentiert das JAR-Archiv mit den Dateien, die vom Typ JarEntry sind. Mit der Methode getEntry(String) lässt sich eine bestimmte Datei auswählen. Eine Liste der eingebundenen Dateien liefert entries() über eine Enumeration:
[zB]Beispiel
Gib alle Klassendateien mit ihrer Länge von rt.jar aus:
Listing 13.5com/tutego/insel/net/JarUrl.java
URL url = new URL( "jar:" + path.toUri() + "!/" );
JarURLConnection conn = (JarURLConnection) url.openConnection();
try ( JarFile jarFile = conn.getJarFile() ) {
for ( Enumeration<JarEntry> it = jarFile.entries(); it.hasMoreElements(); ) {
JarEntry entry = it.nextElement();
if ( ! entry.isDirectory() )
System.out.println( entry + ", " + entry.getSize() );
}
}
Während getJarFile() das gesamte Archiv repräsentiert, kann ja in der URL gleich eine ganz konkrete Datei ausgewählt sein. Dann ist JarFile gar nicht nötig, denn das Interesse liegt nun auf einer konkreten Datei. Die liefert getJarEntry() auf dem JarURLConnection-Objekt wieder als JarEntry-Objekt.
So viele Methoden bietet JarURLConnection nicht an, doch kann getManifest() (liefert ein Manifest-Objekt) nützlich sein, um an die Beschreibung des Archivs zu gelangen. Um den Inhalt zu beziehen, vermuten wir bei JarEntry eine Methode, die einen Strom liefert. Dem ist aber nicht so. Stattdessen gibt es eine Methode getInputStream(JarEntry) bei JarFile:
ZipEntry entry = jarFile.getEntry( "a/a.class" );
InputStream in = new BufferedInputStream( jarFile.getInputStream(entry) );
13.3.5Basic Authentication und Proxy-Authentifizierung
URL-Verbindungen können durch die Basic Authentication, also durch ein Passwort, geschützt sein. Anwender bemerken dies, wenn sich ein Eingabedialog öffnet, der die Eingabe eines Namens und eines Passwortes erzwingt. Beispiel: Eine fiktive Webseite http://www.bla.net/login/ zeigt einen Eingabedialog. Erst die Identifizierung mit dem Benutzernamen »user« und dem Passwort »abc« gibt den Inhalt der Webseite preis.
Abbildung 13.2Windows-Dialog zur Authentifizierung einer Webseite
Ohne das Login kommt auch ein Java-Programm nicht an die Seite. Daher muss der Java-Client der Authentifizierungsbitte nachkommen und Benutzernamen sowie Passwort schicken. Glücklicherweise geht das in Java mit der Klasse java.net.Authenticator ganz einfach:
Listing 13.6com/tutego/insel/net/BasicAuth.java, main()
@Override protected PasswordAuthentication getPasswordAuthentication() {
System.out.printf( "url=%s, host=%s, ip=%s, port=%s%n",
getRequestingURL(), getRequestingHost(),
getRequestingSite(), getRequestingPort() );
return new PasswordAuthentication( "user", "abc".toCharArray() );
}
} );
URL url = new URL( "http://www.bla.net/login/" );
try ( Scanner scanner = new Scanner( url.openStream() ) ) {
System.out.println( scanner.useDelimiter( "\\Z" ).next() );
}
Die Anweisung Authenticator.setDefault(Authenticator) setzt einen neuen Authenticator, den die URL-Klasse immer dann nutzt, wenn eine Verbindung aufgebaut wird. Dann ruft die Java-Bibliothek unsere überschriebene Methode getPasswordAuthentication() auf, in der wir ein PasswordAuthentication-Objekt liefern, das den Benutzernamen und das Passwort kodiert. Da getPasswordAuthentication() eine überschriebene Methode ist, kann sie über diverse getXXX()-Methoden auf Zustände zurückgreifen – die Verbindungsdaten wie Host usw. Diese Daten sind nicht unwichtig, da wir ja beabsichtigen, für unterschiedliche Webseiten unterschiedliche Benutzer und Passwörter verwenden zu können.
Proxy-Authorization
Um nicht nur eine Benutzer-Authentifizierung, sondern auch eine Authentifizierung für den Proxy zu realisieren, gibt es zwei Möglichkeiten:
System.setProperty( "http.proxyPassword", proxyPass );
Eine andere Variante ist, die Header-Variable »Proxy-Authorization« zu setzen:
String base64 = "Basic " +
new sun.misc.BASE64Encoder().encode(
(proxyUser + ":" + proxyPass).getBytes() );
conn.setRequestProperty( "Proxy-Authorization", base64 );
conn.connect();
InputStream in = conn.getInputStream();