Descargar una página web completa en Linux

A veces necesitamos descargar una página web entera para revisarla off-line o modificarla. Para dichos casos, disponemos de una herramienta muy buena en Linux: GNU Wget.

Con Wget podemos descargar un sitio web (o FTP) entero, o un archivo en particular, pausar y resumir la descarga, utilizar “comodines” para descargar ciertos archivos, etc.

Uso
Hasta donde se, GNU Wget viene en todas las distribuciones por lo que no tenemos que instalarlo. Su uso es muy sencillo, si queremos descargar un archivo en particular, abrimos consola e ingresamos:

wget http://www.paginaweb.com/directorio/cualquiera/archivo.ext

Obviamente, usando la dirección correcta en donde se encuentra el archivo deseado.

Si deseamos descargar una página web entera, ejecutamos:

wget -r http://www.paginaweb.com/

La opción -r es para realizar una descarga “recursiva”, es decir ingresará a los subdirectorios del sitio web (ojo que si los enlaces a las demás páginas del sitio están hechos en flash no podrá descargarlos).

Si deseamos descargar todas las imágenes jpg y png de una página:

wget -r -A=.jpg,.png http://www.paginaweb.com

Con -A=.jpg,.png sólo bajara los archivos con dichas extensiones y -r es para que busque en forma recursiva.

Existe algunos programas que sirven como interfaz gráfica (GUI) a GNU Wget, uno de ellos es Kget.

Entradas Relacionadas:
  • Grabar página web como imagen
  • Instalador web de Debian - Web de la semana
  • Curso de Administración de Sistemas en GNU / Linux
  • 18 Respuestas a “Descargar una página web completa en Linux”


    1. 1 wayl

      Si me bajo una web con wget, en donde se guarda esta web, gracias

    2. 2 Koki

      Se descarga en el directorio en el que estés cuando lanzas el comando.

    3. 3 vicdejor

      Esto no esta bién => wget -r -A=.jpg,.png http://www.paginaweb.com
      No me ha funcionado, en cambio así sí => wget -r -A .jpg,.png http://www.paginaweb.com

    4. 4 jjarandato

      Excelente funciona a la perfección, pero ¿Cómo se detiene la descarga de un website después de iniciada? Gracias

    5. 5 Koki

      Puedes terminar wget con : CONTROL + C

    6. 6 jjarandato

      Muy bien, pero y si ya había cerrado la consola de linux, existe algún comando para detenerel wget? Saludos y gracias.

    7. 7 Koki

      Puedes abrir la consola, lanzar el comando

      ps -aux

      fíjate qué id de proceso es el que tiene el wget y luego ejecutas:

      kill -9 id_proceso

      para matarlo.

      Hay una gráfica para hacer esto en forma gráfica, pero no recuerdo su nombre.

    8. 8 jjarandato

      OK funcionó perfecto, gracias.

    9. 9 maria isabel

      morzilla es el programa mas completo y lo quiero

    10. 10 DnL

      Quiero saber como hacer para descargar solo los archivos pdf de un sitio web o poder saber la estructura de la web

    11. 11 Koki

      DnL, prueba con

      wget -r -A .pdf http://www.paginaweb.com

    12. 12 Oscar

      Muy bueno el tutorial, me funciono perfectamente

    13. 13 HOYGAN

      HOYGAN KOMO ME VAJO EL MOSILLA FAIREFUX ?????? PARA NABEGRAE EN LA ÇENTERNET EXPLORUR ES LEEEEEEEEEEEEEEEEEEEEEEEEEEEENTO

    14. 14 Donovan

      bueno me estoy iniciando en linux debian y quiero descargalo paginas completas con el determinado comando q’ esta arriba no me baja apsolutamente nada de nada un ejemplo la pag. http://www.aulaclic.es/word2007/index.htm

      wget -r -A=.jpg,.png http://www.aulaclic.es/word2007/index.htm

      no me baja nada de nada alguna segerencia? esto es lo q’ me sale

      wget -r -A .jpg,.png http://www.aulaclic.es/word2007/index.htm
      –08:43:40– http://www.aulaclic.es/word2007/index.htm
      => `www.aulaclic.es/word2007/index.htm’
      Resolviendo http://www.aulaclic.es... falló: Nombre o servicio desconocido.
      Eliminando http://www.aulaclic.es/word2007/index.htm puesto que debería ser rechazado.
      unlink: No existe el fichero o el directorio

      ACABADO –08:43:40–
      Descargados: 0 bytes en 0 ficheros

    15. 15 Koki

      Donovan, el página que mencionas tarda bastante en cargar (desde el navegador). Supongo que ese es el problema (si te das cuenta, wget te dice: Nombre o servicio desconocido).

      Prueba con otra página (que no tarde tanto) y luego revisa el < a href="http://www.cs.huji.ac.il/~bioskill/MAN/wget.html">manual de wget para setear el máximo de intentos a infinito o aumentar el timeout (por defecto a 15 minutos).

      Si usas KDE, puedes probar Kget, una interfaz gráfica para wget.

    16. 16 Xbai

      Muchas gracias por la ayuda :-)

    17. 17 gabriela

      Muy buena info..me sirvio..!!!

    18. 18 Enrique

      Muchas gracias por la informaciòn.
      MUY COMPLETA, MUY PRECISA.

      Eres el mejor!!

    1. 1 Ubuntu Life » Blog Archive » Manual de Linux eminentemente practico
      Dirección Pingback a 16 Ene, 2008, 7:04 am

    Añade un Comentario