13Netzwerkprogrammierung
»In einer Fünftelsekunde kannst du eine Botschaft rund um die Welt senden. Aber es kann Jahre dauern, bis sie von der Außenseite eines Menschenschädels nach innen dringt.«
– Charles F. Kettering (1876–1958)
Verbindungen von Rechnern unter Java aufzubauen ist ein Kinderspiel und in der Regel mit einigen wenigen Zeilen erledigt. Für Sun Microsystems (heute Oracle Corporation) waren Netzwerke das zentrale Computerthema, deshalb hat die Firma den Slogan »The Network is the Computer« damals als Warenzeichen eingetragen. Die Netzwerk-API ist mehrheitlich im Paket java.net zu finden, wobei es auch zwei Klassen in javax.net gibt.
13.1Grundlegende Begriffe
Wenn ein Anwenderprogramm Daten in einem Netzwerk wie dem Internet erfragt, sind eine ganze Reihe von Technologien und Standards involviert. Die folgenden Abschnitte erklären die zentralen Begriffe kurz, sodass Internet kein Neuland mehr ist.
Ein am Netzwerk angeschlossener Rechner heißt Host. Jeder Host bekommt eine eigene IP-Adresse, sodass er eindeutig im Netz identifiziert ist. Als IP-Adressen sieht die Version IP4v eine 32-Bit-Zahl vor und das neuere IPv6 eine 128-Bit-Zahl. Da IP-Adressen wie 195.190.9.30 (IPv4) oder 2001:252:0:1::2008:6 (IPv6) nicht leicht zu merken sind, werden Hostnamen statt der IP-Nummern verwendet. So steht zum Beispiel tutego.com für die IP-Adresse 195.190.9.30. Symbolische Namen haben noch einen weiteren Vorteil: Die IP-Adresse kann sich ändern, etwa wenn ein Server von einem Standort zum anderen zieht, ohne dass der Benutzer davon etwas mitbekommt. Die Zuordnung zwischen Name und IP-Adresse übernimmt ein Dienst namens DNS (Domain Name Service). Online lässt sich dieser Dienst etwa bei Heise auf der Webseite http://www. heise.de/netze/tools/dns/ nutzen.
Kommunizieren zwei Applikationen via Internet miteinander, tauschen sie Datenpakete aus. Der Datenstrom einer Anwendung wird vom Netzwerk-Stack in viele kleine Pakete zerlegt. Jedes Paket macht sich dann, unabhängig von den anderen, im Netzwerk auf die Reise zum Empfänger. Der wichtigste Standard für die Vermittlung eines Pakets ist das Internet Protocol (IP). Ein IP-Paket ist ein Byte-Feld, das aus einem Körper (engl. body) und Zusatzinformationen (engl. header) besteht. Die Weiterleitung der Pakete von einem Rechner zum nächsten wird von einem Router übernommen. Dieser spezielle Rechner gibt Pakete zwischen verschiedenen Netzwerken weiter und erzeugt somit eine Route von einem Rechner zum anderen. Es existieren verschiedene Routing-Protokolle, die es Routern erlauben, untereinander Informationen auszutauschen, damit immer der optimale Weg für den Datenstrom im Netzwerk gewählt werden kann. Ein Paket soll sich ja nicht im Kreis bewegen oder über zu viele Router laufen, wenn es kürzere Pfade gibt. Welchen Pfad ein Paket vom eigenen Rechner zum Server nimmt, zeigen Tools wie traceroute (http://de.wikipedia.org/wiki/Traceroute). Für IP-Pakete vom Server www.heise.de zu einem gewünschten Rechner listet die Webseite unter http://www.heise.de/netze/tools/traceroute/ die Route sowie Zeitinformationen auf.
IP ist ein verbindungsloses Protokoll. Das bedeutet, dass Pakete verloren gehen, beschädigt, doppelt oder in der falschen Reihenfolge ankommen können. Und so nutzen Applikationen wie Webbrowser oder E-Mail-Clients nicht direkt das Internet Protocol, sondern ein komfortableres Transportprotokoll, das eine Schicht über den IP-Protokollen (IPv4 oder IPv6) liegt: das Transmission Control Protocol (TCP). Es kümmert sich um die korrekte Reihenfolge der Pakete und fordert sie bei Verlust erneut an. Weil TCP und IP häufig gemeinsam Anwendung finden, entstand die Bezeichnung TCP/IP. TCP ist aber nicht das einzige Protokoll, das über der IP-Vermittlungsschicht sitzt. Zwei weitere Protokolle sind das User Datagram Protocol (UDP) und das Stream Control Transmission Protocol (SCTP).
Wenn wir mit der Netzwerk-API von Java programmieren, bekommen wir von der Transport- und Vermittlungsschicht nichts mit. Unser Programmiermodell basiert auf Sockets, die eine API zur TCP-Ebene darstellen. Und da IP unter TCP liegt, befinden sich Einstellungen auf der Vermittlungs- und Router-Ebene außerhalb unseres Einflussbereichs.
Internetstandards und RFC
Ein RFC (Request For Comment) ist ein Standardisierungsvorschlag, der nicht so förmlich wie traditionelle Normen (DIN, ISO oder IEEE) ist, aber im offenen Internet dennoch eine wichtige Rolle einnimmt und quasi ein De-facto-Standard ist. Jeder RFC wird durch eine eigene Nummer referenziert; so ist das Internet Protocol (das IP in TCP/IP) in RFC 791 und das Protokoll, mit dem E‐Mails befördert werden, in RFC 2821 (früher RFC 821) beschrieben. Der Diskussionsprozess selbst ist in RFC 1310 dokumentiert. Der Titel ist »The Internet Standards Process«. Wer selbst Ideen für einen Standard (Proposed Standard) hat, übergibt diese der Internet Engineering Task Force (IETF). Die Vorschläge werden diskutiert und können dann, sofern sie stabil, sinnvoll und verständlich sind, zu einem RFC werden. Falls zwei unterschiedliche Implementierungen existieren, kann dieser Vorschlag spätestens nach einem Jahr offiziell werden. RFCs lassen sich über http://www.rfc-editor.org/ suchen. Die Seite http://tools.ietf.org/rfc/ bietet die RFCs im HTML-Format mit Verlinkungen.