download von webseiten mit „wget“

Dieses kurze Tutorial zeigt dir wie du mit dem kleinen und ca. 20 Jahre alten Progrämmchen wget komplette Webseiten, inklusive Bilder und funktionierenden Links, runterladen kannst.

  1. Öffne ein Terminal und erstelle mit dem mkdir-Befehl ein Verzeichnis in das die Webseite hinein gespeichert werden soll. (Ist das Verzeichnis schon vorhanden überspringe den 1. Punkt)
    bob@rechnername ~: $ mkdir /home/BENUTZERNAME/Downloads/Webseite
  2. Wechsel nun im selben Terminal mit dem cd-Befehl, in das Verzeichnis in das der die Webseite runtergeladen werden soll.
    bob@rechnername ~: $ cd /home/BENUTZERNAME/Downloads/Webseite
  3. Lade nun die Webseite runter, gebe dazu folgendenden wget-Befehl mit den OPTIONEN -r -k -E -l 8 in die Kommandokonsole ein. Das Programm wget funktioniert nach folgenden Schema: BEFEHL [OPTION] URL.
    bob@rechnername ~/Downloads/Webseite: $ wget -r -k -E -l 8 http://example.com

Die Option

  • -r sorgt dafür, dass rekursiv bis zu einer Tiefe von Acht Ebenen (-l 8) gesucht wird.
  • -k konvertiert die Links, so dass sie lokal funktionieren
  • -E erzwingt die Endung .html für alle Dateien (ist nützlich, wenn .php- oder .asp-Seiten geladen werden)

Beispiel

bob@rechnername ~: $ mkdir /home/BENUTZERNAME/Downloads/Webseite
bob@rechnername ~: $ cd /home/BENUTZERNAME/Downloads/Webseite
bob@rechnername ~/Downloads/Webseite: $ wget -r -k -E -l 8 http://example.com
--2015-02-16 20:45:29-- http://example.com/
Auflösen des Hostnamen »example.com (example.com)«... 80.35.27.147, 2a00:1158:0:300:9d82::1
Verbindungsaufbau zu example.com (example.com)|80.35.27.147|:80... verbunden.
HTTP-Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 2101 (2,1K) [text/html]
In »»example.com/index.html«« speichern.

100%[===========================================================>] 2.101 --.-K/s in 0,01s

2015-02-16 20:45:30 (169 KB/s) - »»example.com/index.html«« gespeichert [2101/2101]

Lade »robots.txt«; bitte Fehler ignorieren.
--2015-02-16 20:45:30-- http://example.com/robots.txt
Verbindungsaufbau zu example.com (example.com)|80.35.27.147|:80... verbunden.
HTTP-Anforderung gesendet, warte auf Antwort... 404 Not Found
2015-02-16 20:45:30 FEHLER 404: Not Found.

--2015-02-16 20:45:30-- http://example.com/style.css
Verbindungsaufbau zu example.com (example.com)|80.35.27.147|:80... verbunden.
HTTP-Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 792 [text/css]
In »»example.com/style.css«« speichern.

100%[===========================================================>] 792 --.-K/s in 0s

[…]

BEENDET --2015-02-16 20:45:30--
Verstrichene Zeit: 1,1s
Geholt: 7 Dateien, 24K in 0,01s (1,85 MB/s)
Umwandlung von »example.com/index.html« … 3-0
Umwandlung von »example.com/style.css« … 1-0
2 Dateien in 0,001 Sekunden konvertiert.
bob@rechnername ~/Downloads/Webseite: $ ^C

Ps. Du hast Anmerkungen zu dem Tutorial, schreib ein Kommentar.