8 RegEx per pulire gli ebook

Le regex possono essere utilizzate per pulire gli ebook. Fino a qualche anno fa utilizzato il comodo programma Pepito Cleaner per pulire gli ebook che avevano una formattazione fatta male. Purtroppo questo add-on è fermo nel suo aggiornamento alla versione 4.0 di Libre Office e di conseguenza non funziona sulle ultime versioni.

Alla ricerca di una soluzione per riuscire a leggere i libri compilati male, ho pensato di riprodurre in parte le funzionalità che PC proponeva usando un editor di testi che permetta il Find&Replace con l’uso delle espressioni regolari.
Quindi oggi ho iniziato a pulirli andando ad utilizzare proprio le regex prese in parte anche dal sito stesso di pepito per come loro le utilizzano e le ho eseguite tramite Visual Studio Code.

Le regex da utilizzare

AzioneRicercaSostituisci
Rimuovere le righe vuote^$\n
Rimuovere le righe in formato html<p class=”calibre1″></p>
Righe che finiscono con la virgola(,$)\n
Sostituire i doppi spazi\s\s+_
Rimuovere gli spazi vuoti a fine riga( $)
Rimuovere a capo per le righe che finiscono senza il punto([^.»>]$)\n $1_
Aggiungo il Paragrafo ad inizio riga se non è un tag^([^<])<p>$1
Aggiungo il Paragrafo ad fine riga se non è un tag([^>])$$1</p>

Per poter modificare un file epub, o si utilizza un programma come Calibre, oppure poichè gli epub son un formato compresso di file html e css con un metafile che indica come devono essere gestiti, semplicemente possono essere decompressi.

Su mac è possibile decomprimerli tramite la funzione zip/unzip e delle opzioni particolari.
Proprio per semplificare queste operazioni un utente del forum Mobileread.com, propone un programma generato da AppleScript che permette di spacchettare e impacchettare il file.
Ed usarlo è piuttosto semplice: basta aprire il programma, e trascinare il file sopra l’icona del louncher e questo verrà spacchettato in una sottocartella ove presente il file epub.

Il processo invero è praticamente identico: trascinando sull’icona la cartella, verra generato il file epub pronto da caricare sui nostri e-reader.

Lascia un commento