[PLUTO-ildp] Classificazione degli howto

Marco Curreli marcocurreli a tiscali.it
Mer 6 Mar 2013 22:56:21 CET


On 20:03 Mon 04 Mar     , Silvano Sallese wrote:
> Unico appunto, ecco, lo stato delle traduzioni di ildp penso dovrebbe
> essere dedotto da un confronto delle date (o del numero di versione) dei
> documenti originali con quelle delle versioni attualmente tradotte,
> insomma un confronto di versione tra en e it. Mentre, mi pare di capire,
> tu hai preso lo stato delle traduzioni come un dato e gli hai dedicato
> un campo in howto_stato. Invece, penso sarebbe meglio ottenere quello
> che adesso è il contenuto del campo 'stato' da un confronto, come detto,
> e che dunque richiede di tenere traccia di versione o almeno della data
> degli howto/documenti mediante campi dedicati nella tabella howto_stato.
> Non so se mi sono spiegato chiaramente, perdonatemi.
> 
Ci ho lavorato un po' sopra. Dopo varie tribolazioni ho trovato la
sintassi di grep giusta; in pratica il filtraggio dalla prima alla
seconda occorrenza (con .*) mi restituiva mezzo file (fino all'ultima
occorrenza nel file).

Partendo dalla paagina degli howto
(http://www.pluto.it/ildp/howto.html?chunk=all)
ho ricavato la tabella "howto|traduttore|data" mediante questo script:

##################################################
#!/bin/bash

doc=howto_ildp


echo $(cat ${doc}.html) | \
sed 's#<div class="flexinode-traduzione-index">#@#g' | \
tr @ \\n > ${doc}_1.txt

echo $(grep -oP 'HOWTO/txt/([^>]*)>|Traduttore.*?</div>|Pubblicato.*?</div>' \
${doc}_1.txt) | \

sed '{
	s#Traduttore#@&#g
	s#</label><br />##g
	s#</div> #\|#g
	s#\">#\|#g
	s#/txt/#\|#g
}'  | \

tr @ \\n | \

gawk -F "|" '{
print $3 " | " $4 " | "$1" | "$2 }' >  ${doc}.csv

#################################################

Nei prossimi giorni la inserirò nel database.

Ho cambiato anche alcune tabelle del db:

- inglobato la tabella howto_stato nella tabella ildp_doc

- poiché vi erano oltre 100 documenti in più di una categoria, ho
  creato una tabella di collegamento
  documento/categoria(colleg_doc_cat), per stabilire relazioni molti a
  molti

- eliminate le colonne delle categorie dalla tabella ildp_doc


Ciao a tutti,

  Marco 




Maggiori informazioni sulla lista pluto-ildp