[PLUTO-help] wget e le "figurine"

Sab 28 Ago 2004 09:08:24 CEST

On Fri, Aug 27, 2004 at 07:49:27PM +0200, Giancarlo P. wrote:
[...]
> In pratica, per farla breve  wget, perdonatemi le parole, chiede
> "rinforzi" al server del sito dove preleva il file per "piazzarlo" nel
> server del mio provider, per gestire meglio il proprio lavoro. A seconda
> di "come la prende" il server del mio provider, questi lo aiutera' o meno
> :-)

No. :-)

> La presenza o meno di questo "tipo" (file) influisce sul buon esito del
> lavoro di wget.

No. :-)

> Ci sta' il ragionamento? :-)

No. :-)

IL file robots.txt serve a dire ai motori di ricerca di non indicizzare una
determinata sezione del sito. La modalità ricorsiva di wget, come scritto
nella pagina di manuale, rispetta questo file.
Se tu stai scaricando in modalità ricorsiva il sito http://SITO/ ed esiste
il file http://SITO/robots.txt (non è detto che esista) con scritto questo:

User-agent:	*
Disallow:	/cgi-bin

significa che i motori di ricerca (e anche wget) dovranno fare
un'indicizzazione (scaricamento) di tutti i contenuti del sito, trascurando
però la directory http://SITO/cgi-bin.
Il file robots.txt però non esiste ovunque, perché alcuni webmaster possono
non avere esigenza di impedire ai motori di ricerca l'indicizzazione di
parti del sito. Non potendo sapere se il file esiste o no, wget lo prova a
scaricare in ogni caso. Se lo trova, lo scarica e lo analizza, altrimenti ti
restituisce quel "not found", avvisandoti di ignoraare l'errore perché non è
nulla di preoccupante. Se ha trovato il file fa un download del sito in base
alle tue richieste e in base al contenuto del file robots.txt, se non lo ha
trovato inizia a scaricare completamente, senza ignorare nulla, tutto il
sito da te specificato.

Chiaro?

- Claudio