[PLUTO-ildp] Classificazione degli howto
Marco Curreli
marcocurreli a tiscali.it
Mer 6 Mar 2013 22:56:21 CET
On 20:03 Mon 04 Mar , Silvano Sallese wrote:
> Unico appunto, ecco, lo stato delle traduzioni di ildp penso dovrebbe
> essere dedotto da un confronto delle date (o del numero di versione) dei
> documenti originali con quelle delle versioni attualmente tradotte,
> insomma un confronto di versione tra en e it. Mentre, mi pare di capire,
> tu hai preso lo stato delle traduzioni come un dato e gli hai dedicato
> un campo in howto_stato. Invece, penso sarebbe meglio ottenere quello
> che adesso è il contenuto del campo 'stato' da un confronto, come detto,
> e che dunque richiede di tenere traccia di versione o almeno della data
> degli howto/documenti mediante campi dedicati nella tabella howto_stato.
> Non so se mi sono spiegato chiaramente, perdonatemi.
>
Ci ho lavorato un po' sopra. Dopo varie tribolazioni ho trovato la
sintassi di grep giusta; in pratica il filtraggio dalla prima alla
seconda occorrenza (con .*) mi restituiva mezzo file (fino all'ultima
occorrenza nel file).
Partendo dalla paagina degli howto
(http://www.pluto.it/ildp/howto.html?chunk=all)
ho ricavato la tabella "howto|traduttore|data" mediante questo script:
##################################################
#!/bin/bash
doc=howto_ildp
echo $(cat ${doc}.html) | \
sed 's#<div class="flexinode-traduzione-index">#@#g' | \
tr @ \\n > ${doc}_1.txt
echo $(grep -oP 'HOWTO/txt/([^>]*)>|Traduttore.*?</div>|Pubblicato.*?</div>' \
${doc}_1.txt) | \
sed '{
s#Traduttore#@&#g
s#</label><br />##g
s#</div> #\|#g
s#\">#\|#g
s#/txt/#\|#g
}' | \
tr @ \\n | \
gawk -F "|" '{
print $3 " | " $4 " | "$1" | "$2 }' > ${doc}.csv
#################################################
Nei prossimi giorni la inserirò nel database.
Ho cambiato anche alcune tabelle del db:
- inglobato la tabella howto_stato nella tabella ildp_doc
- poiché vi erano oltre 100 documenti in più di una categoria, ho
creato una tabella di collegamento
documento/categoria(colleg_doc_cat), per stabilire relazioni molti a
molti
- eliminate le colonne delle categorie dalla tabella ildp_doc
Ciao a tutti,
Marco
Maggiori informazioni sulla lista
pluto-ildp