php-epub-cleaner

php-epub-cleaner

English readme available on GitHub

Lorsque je convertis un document Word, inDesign ou XPress en HTML en vue de fabriquer un fichier ePub, j’ai souvent de nombreuses corrections Ă  faire. PlutĂŽt que de multiplier les rechercher/remplacer dans Sigil, j’ai prĂ©fĂ©rĂ© crĂ©er un script PHP qui s’en occupe pour moi.

Les sources de ce script peuvent ĂȘtre rĂ©cupĂ©rĂ©e sur Github :
https://github.com/iwazaru/php-epub-cleaner

Ce script va :

  1. Uploader le fichier ePub vers le serveur
  2. DĂ©compresser le fichier dans un dossier temporaire
  3. Ouvrir chaque fichier .html, .htm ou .xhtml et appliquer les corrections
  4. Recompresser le dossier au format ePub
  5. Proposer le téléchargement du nouvel ePub

 Démo

Une démo se trouve ici : http://labs.nokto.net/php-epub-cleaner

Veuillez noter que tous les fichiers ePub uploadĂ©s pour nettoyage seront conservĂ©s en cache sur le serveur. Cette page ne devrait ĂȘtre utilisĂ© qu’Ă  des fins de tests. Pour une utilisation en production avec des fichiers commerciaux, merci d’installer votre propre version de l’application Ă  partir des sources sur Github.

Installation

Copier le dossier php-epub-cleaner sur votre serveur supportant PHP5.

Personnalisation

J’ai crĂ©Ă© ce script pour nettoyer les erreurs gĂ©nĂ©rĂ©s par Word2CleanHTML ne respectant pas les rĂšgles de la typographie française (ajouter les espaces insĂ©cables, retirer les espaces avant les points ou les virgules, etc.), mais vous pouvez tout Ă  fait crĂ©er vos propres rĂšgles de remplacement en modifiant le tableau php $replacements.

Historique

1.1 (26/02/2014)

  • Ajout d’un journal de correction (« Correction log ») qui compte le nombre de remplacements et de suppressions
  • Diverses corrections de bugs

1.0.1 (27/12/2013)

  • AmĂ©lioration de la prise en charge des caractĂšres accentuĂ©s majuscule (notamment ĂȘ)

Pourquoi il faut faire passer l’amendement sur la TVA des livres numĂ©riques

Lecteurs contre les DRM

Un amendement au projet de Loi de finances 2014 sur le prix du livre a Ă©tĂ© dĂ©posĂ© la semaine derniĂšre par la dĂ©putĂ©e Isabelle Attard et adoptĂ© Ă  l’assemblĂ©e nationale, avant d’ĂȘtre immĂ©diatement retirĂ© Ă  la demande du gouvernement. Cet amendement stipule que le taux de TVA rĂ©duit Ă  5,5% doit ĂȘtre appliquĂ© au livre numĂ©rique (comme c’est dĂ©jĂ  le cas), sauf si « le ou les fichiers comportent des mesures techniques de protection (
) ou s’il ne sont pas dans un format de donnĂ©es ouvert (
) ». Autrement dit, que les livres commercialisĂ©s dans des formats propriĂ©taires et/ou avec des Mesures Techniques de Protection (DRM) doivent ĂȘtre considĂ©rĂ©s comme des licences d’utilisation (plutĂŽt que des livres) et doivent donc ĂȘtre taxĂ©s Ă  19,6%.

L’amendement vise clairement Ă  rĂ©server l’avantage fiscal que reprĂ©sente le taux de TVA rĂ©duit aux seuls livres numĂ©riques proposĂ©s dans un format ouvert, interopĂ©rable, et sans Mesure Technique de Protection (DRM), de maniĂšre Ă  dĂ©courager des pratiques qui Ă  long terme ne peuvent que nuire Ă  l’économie du livre et Ă  la bibliodiversitĂ©.

Voici quelques éléments pour comprendre les enjeux derriÚre cet amendement.

Qu’est-ce qu’un format propriĂ©taire et un format interopĂ©rable ?

Fut un temps oĂč chaque constructeur crĂ©ait son propre support pour vendre une Ɠuvre (VHS/Betamax, Blu-Ray/HD-DVD, etc.) : un cauchemar pour le consommateur qui devait prendre garde Ă  choisir un format compatible avec son matĂ©riel, qui pouvait se voir interdire l’accĂšs Ă  une partie des Ɠuvres disponibles sur le marchĂ© et qui risquait de perdre toute sa collection si le format disparaissait.

Pour Ă©viter les drames de ce genre avec le livre numĂ©rique, un certain nombre d’acteurs, rĂ©unis au sein de l’organisation IDPF, se sont mis d’accord pour crĂ©er un format ouvert et interopĂ©rable : l’ePub. Parce que c’est un format ouvert, il est facile pour n’importe qui de concevoir des livres numĂ©riques et des appareils ou applications de lectures sans payer de royalties Ă  qui que ce soit. Et si ce format devait un jour disparaĂźtre au profit d’un autre, il sera facile de convertir les fichiers dans un nouveau format.

MalgrĂ© cela, certains s’obstinent Ă  crĂ©er et utiliser des formats propriĂ©taires pour des raisons commerciales et politiques. Un format propriĂ©taire est un format conçu par une sociĂ©tĂ© commerciale dans le but d’enfermer ses clients dans un Ă©cosystĂšme fermĂ©. Ainsi, un livre numĂ©rique achetĂ© chez Amazon, ne pourra ĂȘtre lu que sur une liseuse ou une application Amazon. De mĂȘme, sur la liseuse Kindle d’Amazon, on ne pourra pas lire un livre numĂ©rique achetĂ© ailleurs au format ePub pourtant standard, car la liseuse est verrouillĂ©e pour ne lire que les fichiers commercialisĂ©s par Amazon.

Que sont les Mesures Techniques de Protection (DRM) ?

Les Mesures Techniques de Protection (en anglais DRM pour Digital Rights Managements), permettent Ă  un Ă©diteur ou Ă  une plateforme de contrĂŽler les fichiers aprĂšs tĂ©lĂ©chargement en empĂȘchant la copie, le prĂȘt, la diffusion, la conversion dans un autre format (non-propriĂ©taire, par exemple). Dans certains cas, ils permettent mĂȘme l’effacement Ă  distance d’un livre sur l’appareil du client.

Les fichiers numĂ©riques vendus avec DRM s’apparentent donc moins Ă  un livre papier (que l’on peut prĂȘter, revendre, donner) qu’à une licence d’utilisation avec contrainte (comme l’emprunt Ă  une bibliothĂšque), bien qu’ils ne soient que rarement prĂ©sentĂ©s clairement comme tels.

Aujourd’hui, l’inefficacitĂ© des DRM est largement dĂ©montrĂ©e et leur utilisation n’est plus que le fait :

  • d’éditeurs peu au fait de la technologie et des usages du livre numĂ©rique, qui les imposent par peur du piratage ignorant qu’en rĂ©alitĂ©, ils l’encouragent ;
  • de grands groupes Ă©ditoriaux qui les imposent aux Ă©diteurs dans leur giron contre leurs avis ;
  • de plateformes de vente qui espĂšrent ainsi enfermer leurs clients dans un Ă©cosystĂšme fermĂ© et s’assurer leur fidĂ©litĂ© par la contrainte.

Pourquoi les DRM sont-ils inefficaces, voire contre-productifs ?

Conçus pour prĂ©venir le piratage d’un livre numĂ©rique, les DRM sont aujourd’hui largement considĂ©rĂ©s comme inefficaces.

La raison en est simple : pour un utilisateur un tant soit peu alerte mais sans connaissance technique, il suffit d’une recherche Google et d’un tĂ©lĂ©chargement pour retirer en un clic les DRM d’un livre numĂ©rique. L’histoire a montrĂ© que les diffĂ©rentes mesures de protection technique prennent beaucoup plus de temps (et d’argent) Ă  concevoir pour les entreprises commerciales qu’à contourner pour les pirates. Si l’industrie musicale y a presque totalement renoncĂ© aujourd’hui, ce n’est pas par bontĂ© de coeur.

Plus grave encore que leur inefficacitĂ© contre le piratage, les DRM posent problĂšme parce qu’ils rendent complexe l’usage des livres numĂ©riques pour l’utilisateur lambda qui les a acquis honnĂȘtement, en compliquant considĂ©rablement le transfert d’un livre numĂ©rique sur une liseuse. Jusqu’à les pousser Ă  se tourner plutĂŽt du cĂŽtĂ© des plateformes pirates
 beaucoup plus simples d’emploi.

Il y aurait beaucoup de choses Ă  dire sur le sujet, mais le mieux est de vous renvoyer Ă  la lecture de l’excellent mĂ©moire « Les DRM, passĂ© ou avenir du livre numĂ©rique ? » d’Alice Donet qui fait le tour de la question des DRM d’un point de vue commercial, technique et juridique et dont la conclusion est sans appel. À mettre entre les mains de tous les Ă©diteurs qui, par ignorance, y ont encore recours.

Vais-je payer les livres numériques plus cher ?

Non. En France, la loi Lang impose que tous les vendeurs d’un livre le commercialise Ă  un prix situĂ© entre 95 et 100 % du prix fixĂ© par l’éditeur. Une plateforme imposant des DRM paiera sur ses ventes une TVA plus importante mais ne pourra pas reporter cette hausse sur le prix de vente public. Cette hausse vise donc Ă  exercer une pression sur ceux qui imposent les DRM sans pĂ©naliser le consommateur. Les grandes multinationales Ă©chappent aujourd’hui Ă  la TVA française en Ă©tant implantĂ©es en Irlande ou au Luxembourg, mais ce ne sera plus le cas en 2015, date Ă  laquelle c’est la TVA du pays oĂč se trouve l’acheteur qui sera prise en compte, et non plus la TVA du pays oĂč se trouve le vendeur.

En quoi les DRM et les formats propriétaires sont-ils dangereux ?

J’ai assisté la semaine dernière, dans le cadre du salon de l’édition indĂ©pendante L’Autre Livre, à un dĂ©bat sur le thème “Face aux nouvelles technologies”, dĂ©bat qui a rapidement tourné à la diatribe contre le livre numĂ©rique. Les arguments des anti sont toujours les mêmes : par opposition au livre papier, le livre numĂ©rique ne pourrait pas être prêté, ne serait pas durable, etc. Il est intéressant de noter que tous ces arguments s’appliquent non au livre numérique lui­-même, mais uniquement aux livres commercialisĂ©s dans un format propriĂ©taire et/ou avec DRM, ce que semblait ignorer l’intervenant du dĂ©bat. C’est la marque inquiĂ©tante d’une grande confusion dans l’esprit du grand public (et, visiblement, dans celui de certains professionnels).

Le risque est donc d’ancrer durablement dans l’esprit des lecteurs l’idĂ©e que les livres numĂ©riques achetĂ©s lĂ©galement prĂ©sentent de nombreux dĂ©savantages (complexitĂ© d’utilisation, copie et prĂȘt restreint, etc.), lĂ  oĂč les livres piratĂ©s leurs permettent de conserver les usages auxquels le livre papier les a habituĂ©s. C’est commettre la mĂȘme erreur que l’industrie musicale et les diriger avec un coup de pied aux fesses vers les plateformes pirates et les rĂ©seaux peer-to-peer.

Pourquoi l’amendement a-t-il Ă©tĂ© retirĂ© ?

Le gouvernement français est actuellement en procĂšs avec l’Union EuropĂ©enne pour dĂ©fendre l’idĂ©e que les livres numĂ©riques sont bien des livres, et doivent bĂ©nĂ©ficier d’un taux de TVA rĂ©duit, comme les livres papiers. La crainte du gouvernement est que cet amendement ne complique cette nĂ©gociation, mais nombreux sont ceux qui pensent qu’au contraire, la TVA rĂ©duite serait d’autant plus lĂ©gitime si elle distingue les livres en format interopĂ©rable et en format ouvert des licences d’utilisation qui sont de fait des services.

Tout espoir est-il perdu ?

En l’Ă©tat, cet amendement n’est pas parfait et pose encore beaucoup de questions. Si le livre numĂ©rique avec DRM est considĂ©rĂ© comme un service plutĂŽt qu’un livre, la Loi lang est-elle encore applicable ? Les Ă©diteurs qui voient des DRM apposĂ©s sur leurs livres contre leur avis seront-elles Ă©galement pĂ©nalisĂ©s par la TVA ? Mais il a au moins le mĂ©rite de porter le problĂšme sur la place publique.

Une pĂ©tition a Ă©tĂ© lancĂ©e peu de temps aprĂšs le retrait de cet amendement pour demander son retour. Personnellement, je ne crois pas trop au pouvoir des pĂ©titions — mais il faut bien dire que ça ne coĂ»te pas grand-chose de les signer. PĂ©tition ou pas, il est peu probable que l’amendement passe en l’Ă©tat. Comme dit ActualittĂ©, les Ă©diteurs pro-DRM n’ont « pas mĂȘme eu Ă  dĂ©crocher leurs tĂ©lĂ©phones pour que l’amendement soit remis au vote, l’initiative Ă©manerait du gouvernement seul ». Il est probable qu’il s’y prĂ©parent sĂ©rieusement pour le deuxiĂšme examen de l’amendement.

NĂ©anmoins, il faut espĂ©rer que l’affaire permettra au moins de sensibiliser lecteurs et Ă©diteurs aux problĂšmes que posent DRM et formats propriĂ©taires et Ă  quoi ils s’engagent souvent sans le savoir. À cette fin, n’hĂ©sitez pas Ă  Ă©voquer la question avec les lecteurs numĂ©riques qui vous entourent et Ă  rĂ©clamez aux Ă©diteurs que vous aimez des fichiers numĂ©riques interopĂ©rables et sans protection technique !

Il va sans dire que les avis exprimĂ©s dans ce billet n’engagent que moi et pas les professionnels du livre qui sont mes clients et les maisons d’édition auxquelles je participe.

À lire :