A veces necesitamos descargar una página web entera para revisarla off-line o modificarla. Para dichos casos, disponemos de una herramienta muy buena en Linux: GNU Wget.
Con Wget podemos descargar un sitio web (o FTP) entero, o un archivo en particular, pausar y resumir la descarga, utilizar “comodines” para descargar ciertos archivos, etc.
Uso
Hasta donde se, GNU Wget viene en todas las distribuciones por lo que no tenemos que instalarlo. Su uso es muy sencillo, si queremos descargar un archivo en particular, abrimos consola e ingresamos:
wget http://www.paginaweb.com/directorio/cualquiera/archivo.ext
Obviamente, usando la dirección correcta en donde se encuentra el archivo deseado.
Si deseamos descargar una página web entera, ejecutamos:
wget -r http://www.paginaweb.com/
La opción -r es para realizar una descarga “recursiva”, es decir ingresará a los subdirectorios del sitio web (ojo que si los enlaces a las demás páginas del sitio están hechos en flash no podrá descargarlos).
Si deseamos descargar todas las imágenes jpg y png de una página:
wget -r -A=.jpg,.png http://www.paginaweb.com
Con -A=.jpg,.png sólo bajara los archivos con dichas extensiones y -r es para que busque en forma recursiva.
Existe algunos programas que sirven como interfaz gráfica (GUI) a GNU Wget, uno de ellos es Kget.




23 Comentarios
Si me bajo una web con wget, en donde se guarda esta web, gracias
Se descarga en el directorio en el que estés cuando lanzas el comando.
Esto no esta bién => wget -r -A=.jpg,.png http://www.paginaweb.com
No me ha funcionado, en cambio asà sà => wget -r -A .jpg,.png http://www.paginaweb.com
Excelente funciona a la perfección, pero ¿Cómo se detiene la descarga de un website después de iniciada? Gracias
Puedes terminar wget con : CONTROL + C
Muy bien, pero y si ya habÃa cerrado la consola de linux, existe algún comando para detenerel wget? Saludos y gracias.
Puedes abrir la consola, lanzar el comando
ps -aux
fÃjate qué id de proceso es el que tiene el wget y luego ejecutas:
kill -9 id_proceso
para matarlo.
Hay una gráfica para hacer esto en forma gráfica, pero no recuerdo su nombre.
OK funcionó perfecto, gracias.
morzilla es el programa mas completo y lo quiero
Quiero saber como hacer para descargar solo los archivos pdf de un sitio web o poder saber la estructura de la web
DnL, prueba con
wget -r -A .pdf http://www.paginaweb.com
Muy bueno el tutorial, me funciono perfectamente
HOYGAN KOMO ME VAJO EL MOSILLA FAIREFUX ?????? PARA NABEGRAE EN LA ÇENTERNET EXPLORUR ES LEEEEEEEEEEEEEEEEEEEEEEEEEEEENTO
bueno me estoy iniciando en linux debian y quiero descargalo paginas completas con el determinado comando q’ esta arriba no me baja apsolutamente nada de nada un ejemplo la pag. http://www.aulaclic.es/word2007/index.htm
wget -r -A=.jpg,.png http://www.aulaclic.es/word2007/index.htm
no me baja nada de nada alguna segerencia? esto es lo q’ me sale
wget -r -A .jpg,.png http://www.aulaclic.es/word2007/index.htm
–08:43:40– http://www.aulaclic.es/word2007/index.htm
=> `www.aulaclic.es/word2007/index.htm’
Resolviendo http://www.aulaclic.es... falló: Nombre o servicio desconocido.
Eliminando http://www.aulaclic.es/word2007/index.htm puesto que deberÃa ser rechazado.
unlink: No existe el fichero o el directorio
ACABADO –08:43:40–
Descargados: 0 bytes en 0 ficheros
Donovan, el página que mencionas tarda bastante en cargar (desde el navegador). Supongo que ese es el problema (si te das cuenta, wget te dice: Nombre o servicio desconocido).
Prueba con otra página (que no tarde tanto) y luego revisa el < a href="http://www.cs.huji.ac.il/~bioskill/MAN/wget.html">manual de wget para setear el máximo de intentos a infinito o aumentar el timeout (por defecto a 15 minutos).
Si usas KDE, puedes probar Kget, una interfaz gráfica para wget.
Muchas gracias por la ayuda
Muy buena info..me sirvio..!!!
Muchas gracias por la informaciòn.
MUY COMPLETA, MUY PRECISA.
Eres el mejor!!
Cuando hago wget -r a cierta pagina (con otras funciona perfectamente) termina resolviendo la ip de una pagina distinta y solo me baja un archivo O.o es algun tipo de proteccion de la pagina? hay alguna forma de saltarsela?
Buen dÃa, cuando bajo una web me salen este tipo de archivos:
index.html?date=1235980800&order=event&direction=asc
alguien sabe porque o a que se debe? es q son demasiados y si hay alguna manera de filtrarlos con wget alguien podria ponerla. Mil GRaciasssssssss.
Juanc, wget tiene varias opciones. No se exactamente si alguna se ajusta a lo que deseas
http://linuxreviews.org/man/wget/
o también podrÃas usar algún front end como Kget
Estoy bajando un archivo iso de 4 gigas y mi conexion es de 100 k/s por lo que necesito pausarlo de un dia para otro como hago esto? gracias
quiero hacer un script en perl y utilizo wget para lo mas importante,
print “HOLA. DIGITA EL ID DE USER:\nâ€;
$ID = ;
$EXT = “/F1.JPGâ€;
system “wget -A=.JPG http://server.dominio.org/directorio/user/pix.php/$ID$EXT“;
la url para un archivo seria http://server.dominio.org/directorio/user/pix.php/678543/f1.jpg
como lo puedo modificar??
utilizo win xp
3 Trackbacks
[...] quereis descargarlo y poder consultarlo de manera offline, podeis usar wget para bajar todas paginas con el [...]
[...] Via: http://www.elmodem.com/archivo/2007/03/29/descargar-una-pagina-web-completa-en-linux/ [...]
[...] dacostabalboa, albertux, elmodem, [...]