Descargar una página web completa en Linux

A veces necesitamos descargar una página web entera para revisarla off-line o modificarla. Para dichos casos, disponemos de una herramienta muy buena en Linux: GNU Wget.

Con Wget podemos descargar un sitio web (o FTP) entero, o un archivo en particular, pausar y resumir la descarga, utilizar “comodines” para descargar ciertos archivos, etc.

Uso
Hasta donde se, GNU Wget viene en todas las distribuciones por lo que no tenemos que instalarlo. Su uso es muy sencillo, si queremos descargar un archivo en particular, abrimos consola e ingresamos:

wget http://www.paginaweb.com/directorio/cualquiera/archivo.ext

Obviamente, usando la dirección correcta en donde se encuentra el archivo deseado.

Si deseamos descargar una página web entera, ejecutamos:

wget -r http://www.paginaweb.com/

La opción -r es para realizar una descarga “recursiva”, es decir ingresará a los subdirectorios del sitio web (ojo que si los enlaces a las demás páginas del sitio están hechos en flash no podrá descargarlos).

Si deseamos descargar todas las imágenes jpg y png de una página:

wget -r -A=.jpg,.png http://www.paginaweb.com

Con -A=.jpg,.png sólo bajara los archivos con dichas extensiones y -r es para que busque en forma recursiva.

Existe algunos programas que sirven como interfaz gráfica (GUI) a GNU Wget, uno de ellos es Kget.

23 Comentarios

  1. wayl
    Comentado abril 11, 2007 a las 5:37 pm | Permalink

    Si me bajo una web con wget, en donde se guarda esta web, gracias

  2. Comentado abril 11, 2007 a las 10:14 pm | Permalink

    Se descarga en el directorio en el que estés cuando lanzas el comando.

  3. vicdejor
    Comentado mayo 30, 2007 a las 3:48 am | Permalink

    Esto no esta bién => wget -r -A=.jpg,.png http://www.paginaweb.com
    No me ha funcionado, en cambio así sí => wget -r -A .jpg,.png http://www.paginaweb.com

  4. jjarandato
    Comentado agosto 2, 2007 a las 2:54 pm | Permalink

    Excelente funciona a la perfección, pero ¿Cómo se detiene la descarga de un website después de iniciada? Gracias

  5. Comentado agosto 2, 2007 a las 3:18 pm | Permalink

    Puedes terminar wget con : CONTROL + C

  6. jjarandato
    Comentado agosto 2, 2007 a las 5:05 pm | Permalink

    Muy bien, pero y si ya había cerrado la consola de linux, existe algún comando para detenerel wget? Saludos y gracias.

  7. Comentado agosto 2, 2007 a las 5:20 pm | Permalink

    Puedes abrir la consola, lanzar el comando

    ps -aux

    fíjate qué id de proceso es el que tiene el wget y luego ejecutas:

    kill -9 id_proceso

    para matarlo.

    Hay una gráfica para hacer esto en forma gráfica, pero no recuerdo su nombre.

  8. jjarandato
    Comentado agosto 3, 2007 a las 4:13 pm | Permalink

    OK funcionó perfecto, gracias.

  9. maria isabel
    Comentado agosto 7, 2007 a las 2:05 pm | Permalink

    morzilla es el programa mas completo y lo quiero

  10. DnL
    Comentado septiembre 19, 2007 a las 8:31 am | Permalink

    Quiero saber como hacer para descargar solo los archivos pdf de un sitio web o poder saber la estructura de la web

  11. Comentado septiembre 19, 2007 a las 9:02 am | Permalink

    DnL, prueba con

    wget -r -A .pdf http://www.paginaweb.com

  12. Oscar
    Comentado septiembre 22, 2007 a las 3:43 pm | Permalink

    Muy bueno el tutorial, me funciono perfectamente

  13. Comentado diciembre 26, 2007 a las 10:58 pm | Permalink

    HOYGAN KOMO ME VAJO EL MOSILLA FAIREFUX ?????? PARA NABEGRAE EN LA ÇENTERNET EXPLORUR ES LEEEEEEEEEEEEEEEEEEEEEEEEEEEENTO

  14. Donovan
    Comentado enero 9, 2008 a las 11:40 am | Permalink

    bueno me estoy iniciando en linux debian y quiero descargalo paginas completas con el determinado comando q’ esta arriba no me baja apsolutamente nada de nada un ejemplo la pag. http://www.aulaclic.es/word2007/index.htm

    wget -r -A=.jpg,.png http://www.aulaclic.es/word2007/index.htm

    no me baja nada de nada alguna segerencia? esto es lo q’ me sale

    wget -r -A .jpg,.png http://www.aulaclic.es/word2007/index.htm
    –08:43:40– http://www.aulaclic.es/word2007/index.htm
    => `www.aulaclic.es/word2007/index.htm’
    Resolviendo http://www.aulaclic.es... falló: Nombre o servicio desconocido.
    Eliminando http://www.aulaclic.es/word2007/index.htm puesto que debería ser rechazado.
    unlink: No existe el fichero o el directorio

    ACABADO –08:43:40–
    Descargados: 0 bytes en 0 ficheros

  15. Comentado enero 9, 2008 a las 11:51 am | Permalink

    Donovan, el página que mencionas tarda bastante en cargar (desde el navegador). Supongo que ese es el problema (si te das cuenta, wget te dice: Nombre o servicio desconocido).

    Prueba con otra página (que no tarde tanto) y luego revisa el < a href="http://www.cs.huji.ac.il/~bioskill/MAN/wget.html">manual de wget para setear el máximo de intentos a infinito o aumentar el timeout (por defecto a 15 minutos).

    Si usas KDE, puedes probar Kget, una interfaz gráfica para wget.

  16. Xbai
    Comentado marzo 8, 2008 a las 7:11 am | Permalink

    Muchas gracias por la ayuda :-)

  17. Comentado mayo 11, 2008 a las 10:22 am | Permalink

    Muy buena info..me sirvio..!!!

  18. Enrique
    Comentado julio 16, 2008 a las 7:41 pm | Permalink

    Muchas gracias por la informaciòn.
    MUY COMPLETA, MUY PRECISA.

    Eres el mejor!!

  19. Atomsk
    Comentado agosto 30, 2008 a las 11:22 am | Permalink

    Cuando hago wget -r a cierta pagina (con otras funciona perfectamente) termina resolviendo la ip de una pagina distinta y solo me baja un archivo O.o es algun tipo de proteccion de la pagina? hay alguna forma de saltarsela?

  20. Juanc
    Comentado marzo 2, 2009 a las 11:26 am | Permalink

    Buen día, cuando bajo una web me salen este tipo de archivos:

    index.html?date=1235980800&order=event&direction=asc

    alguien sabe porque o a que se debe? es q son demasiados y si hay alguna manera de filtrarlos con wget alguien podria ponerla. Mil GRaciasssssssss.

  21. Comentado marzo 2, 2009 a las 11:39 am | Permalink

    Juanc, wget tiene varias opciones. No se exactamente si alguna se ajusta a lo que deseas

    http://linuxreviews.org/man/wget/

    o también podrías usar algún front end como Kget

  22. guillermo v
    Comentado agosto 4, 2009 a las 9:27 am | Permalink

    Estoy bajando un archivo iso de 4 gigas y mi conexion es de 100 k/s por lo que necesito pausarlo de un dia para otro como hago esto? gracias

  23. juank
    Comentado marzo 31, 2011 a las 8:22 pm | Permalink

    quiero hacer un script en perl y utilizo wget para lo mas importante,

    print “HOLA. DIGITA EL ID DE USER:\n”;

    $ID = ;
    $EXT = “/F1.JPG”;

    system “wget -A=.JPG http://server.dominio.org/directorio/user/pix.php/$ID$EXT“;

    la url para un archivo seria http://server.dominio.org/directorio/user/pix.php/678543/f1.jpg

    como lo puedo modificar??

    utilizo win xp

3 Trackbacks

  1. [...] quereis descargarlo y  poder consultarlo de manera offline, podeis usar wget para bajar todas paginas con el [...]

  2. [...] Via: http://www.elmodem.com/archivo/2007/03/29/descargar-una-pagina-web-completa-en-linux/ [...]

  3. [...] dacostabalboa, albertux, elmodem, [...]

CC 2009 El Módem. Some rights reserved.