php-epub-cleaner

php-epub-cleaner

English readme available on GitHub

Lorsque je convertis un document Word, inDesign ou XPress en HTML en vue de fabriquer un fichier ePub, j’ai souvent de nombreuses corrections Ă  faire. PlutĂŽt que de multiplier les rechercher/remplacer dans Sigil, j’ai prĂ©fĂ©rĂ© crĂ©er un script PHP qui s’en occupe pour moi.

Les sources de ce script peuvent ĂȘtre rĂ©cupĂ©rĂ©e sur Github :
https://github.com/iwazaru/php-epub-cleaner

Ce script va :

  1. Uploader le fichier ePub vers le serveur
  2. DĂ©compresser le fichier dans un dossier temporaire
  3. Ouvrir chaque fichier .html, .htm ou .xhtml et appliquer les corrections
  4. Recompresser le dossier au format ePub
  5. Proposer le téléchargement du nouvel ePub

 Démo

Une démo se trouve ici : http://labs.nokto.net/php-epub-cleaner

Veuillez noter que tous les fichiers ePub uploadĂ©s pour nettoyage seront conservĂ©s en cache sur le serveur. Cette page ne devrait ĂȘtre utilisĂ© qu’Ă  des fins de tests. Pour une utilisation en production avec des fichiers commerciaux, merci d’installer votre propre version de l’application Ă  partir des sources sur Github.

Installation

Copier le dossier php-epub-cleaner sur votre serveur supportant PHP5.

Personnalisation

J’ai crĂ©Ă© ce script pour nettoyer les erreurs gĂ©nĂ©rĂ©s par Word2CleanHTML ne respectant pas les rĂšgles de la typographie française (ajouter les espaces insĂ©cables, retirer les espaces avant les points ou les virgules, etc.), mais vous pouvez tout Ă  fait crĂ©er vos propres rĂšgles de remplacement en modifiant le tableau php $replacements.

Historique

1.1 (26/02/2014)

  • Ajout d’un journal de correction (« Correction log ») qui compte le nombre de remplacements et de suppressions
  • Diverses corrections de bugs

1.0.1 (27/12/2013)

  • AmĂ©lioration de la prise en charge des caractĂšres accentuĂ©s majuscule (notamment ĂȘ)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *