Le dépôt légal des livres numériques
J’ai pu participer au 80ème congrès mondial des bibliothèques grâce à une bourse du comité français de l’IFLA (CFIBD), que je remercie ici. La session sur le dépôt légal des livres électroniques m’a particulièrement intéressé. Elle a permis d’effectuer un rapide tour d’horizon des pratiques de dépôt et de conservation des ebooks par six bibliothèques nationales : France, Allemagne, Japon, Chine Croatie, Indonésie.
Difficile, voire périlleux, d’obtenir un consensus sur la définition même du livre électronique. Il semble qu’au Japon la définition soit relativement extensive (elle inclurait des fichiers numériques multimédias). En France, la notion de livre numérique est précisée par un avis de la Commission générale de terminologie et de néologisme intitulé « Vocabulaire de l’édition et du livre » (NOR: CTNX1206650K) : ce terme s’applique à un ouvrage édité et diffusé sous forme numérique, destiné à être lu sur un écran.
Le livre numérique peut être composé directement sous forme électronique ou bien numérisé à partir d’imprimés ou de manuscrits. S’il est une version électronique d’un ouvrage imprimé, il est qualifié d’homothétique et entre dans le cadre de la Loi n° 2011-590 du 26 mai 2011 relative au prix du livre numérique.
La Bibliothèque nationale de France
L’extension en France du dépôt légal aux livres électroniques est tributaire de ce contexte juridique : le livre électronique est un document numérique recueilli dans le cadre du dépôt légal de l’internet; mais c’est également un ouvrage traité bibliographiquement. Clément Oury et Sophie Derrot ont ainsi présenté les solutions apportées par la Bibliothèque nationale de France pour la création d’une collection d’ebooks.
En effet, il n’y a pas de dépôt à l’unité des publications numériques en ligne ou téléchargeables. Leur collecte passe par le moissonnage du site web qui les diffuse. Les modalités de dépôt sont celles du dépôt légal de l’internet, prévues par le Code du patrimoine (art. L131-132). L’éditeur n’a aucune démarche active à effectuer auprès de la BnF. Cependant, les copies numériques de livres physiques existants (95% du marché actuel) entre dans le cas du dépôt légal des ouvrages : l’éditeur doit alors en fournir la version électronique.
Pour prendre en compte ces deux aspects, la bibliothèque bénéficie de son expérience dans la gestion des documents numérisés par Gallica et de sa tradition de dépôt légal. Elle s’appuie sur les relations de longue date qu’elle a construit avec les éditeurs et distributeurs. Elle doit cependant s’adapter aux pratiques commerciales des nouveaux entrants sur ce marché, qui n’ont donc pas l’habitude de travailler avec la BnF dans le cadre du dépôt légal des imprimés.
Le marché des ebooks étant arrivé à maturité, le processus de collecte a pu être défini de manière stable dès sa mise en œuvre : les formats standards EPUB, MOBI, PDF et schémas de métadonnées ONIX sont acceptés. Les ebooks protégés par DRM ou en format .doc sont refusés. Après dépôt par les éditeurs sur un répertoire ftp du livre électronique accompagné de ses métadonnées, le fichier ONIX est converti de l’XML vers l’INTERMARC : l’ONIX permet la création automatique de liens vers les différents formats d’une même œuvre (version imprimable, etc). Contrairement aux métadonnées, les fichiers d’ebook ne sont jamais convertis : ils sont validés par Epubcheck, un outil développé par l’International Digital Publication Forum (IDPF). Ils doivent ensuite être préparés à rejoindre SPAR (Scalable Preservation and Access Repository), le répertoire digital de Gallica, qui traite notamment l’identifiant persistant ARC de l’ebook. Les fichiers contenant des éléments Flash ou Javascript, potentiellement viraux, sont placés dans un espace sécurisé. La consultation publique des ebooks, tout comme celle des archives du web réalisées dans le cadre du dépôt légal de l’internet, est uniquement autorisée dans les salles de lecture de la BnF.
Avec cette nouvelle architecture du dépôt légal des objets numériques, le rôle du bibliothécaire évolue fortement. Pour accompagner ce changement, la BnF a mis en place un programme de formation interne sous forme d’ateliers portant sur les formats de fichiers, le catalogage des livres numériques, etc. Le projet bénéficie également de l’expérience acquise par la BnF dans la constitution de la bibliothèque numérique Gallica, et aussi des pratiques d’archivage pérenne du service de tiers archivage, BnF Archivage numérique.
Die Deutsche Nationalbibliothek
Cornelia Diebel (Information Technology, Deutsche Nationalbibliothek, Frankfurt, Germany) a ensuite présenté le processus automatisé de collecte des livres électroniques dans le cadre du dépôt légal allemand : celui-ci couvre tous les ouvrages de langue allemande publiés depuis 1913, qu’ils soient numérisés ou nativement produits sous forme numérique. 1262593 ressources ont été collectées en 2014, dont 755000 ebooks et thèses en ligne. Le processus est entièrement automatisé mais les bibliothécaires interviennent en entrée (choix des catalogues moissonnés…) et sortie de système (contrôle des métadonnées).
L’automatisation du workflow nécessite que certaines caractéristiques techniques soient correctement remplies : les métadonnées et les objets doivent être collectés ensemble; le format des métadonnées doit être standard (ONIX for Book 2.1, MARC XML, XMETADISS+, tout comme celui des fichiers informatiques (PFD, EPUB, MP3, JPEG, ZIP, etc.); des accords doivent être passés avec chaque éditeurs; comme à la BnF, les DRM sont refusés.
Deux interfaces de dépôt sont disponibles : celle par formulaire web et transfert FTP, largement privilégiée par les éditeurs car ils conservent la maitrise du dépôt; celle par moissonnage dans un entrepôt selon le protocole OAI-PMH (solution privilégiée par la communauté scientifique). Les objets et les métadonnées sont ensuite inspectées par les bibliothécaires qui leur affectent un indice d’intégration (plus celui-ci est élevé, plus la ressource pourra être préservée), une cote Dewey et créent le cas échéant un lien vers la notice d’un livre imprimé.
The National Diet Library
S’il y a de forte similitude dans la mise en place du dépôt légal des livres numériques en Allemagne et en France, la situation semble bien différente au Japon, telle que la présente Tsutomu Akiyama, de la National Diet Library. Il a fallu environ 10 ans pour régler les problèmes juridiques, techniques et organisationnelles avant de lancer le dépôt légal des sites web et des fichiers numériques exploités par le secteur non-marchand. Plus de deux de millions de publications issues des universités et organismes publics avaient été collectées en 2010 et valorisées dans le cadre de la NDL Digital Collections. En 2012, la loi NDL donne le droit à la bibliothèque nationale d’enregistrer les publications en ligne issues du secteur privé. Les éditeurs sont alors tenus de communiquer à la NDL leur publications numériques (contenu de site web, livres numériques, publications électroniques, etc.). Ils doivent permettre le cas échéant la collecte des fichiers numériques sur l’Internet; mais la NDL ne peut recueillir par ce biais que les publications en ligne gratuits et non protégés par la gestion des droits numériques (DRM). Cette loi est donc difficile à appliquer car les éditeurs ne collaborent pas. : seules 18000 publications issues du secteur marchand ont été intégrées au dépôt légal. Pour contourner cet écueil, la NDL a passé avec des éditeurs majeurs des accords de coopération temporaire d’une durée de 3 ans…
The National and University Library in Zagreb
Le contexte croate présente quelques caractéristiques intéressantes : la Bibliothèque nationale et universitaire de Zagreb est tenue de recueillir et de conserver dans le cadre du dépôt légal (Law Library, 1997) toutes les publications électroniques (y compris les ressources en ligne). Le développement de l’infrastructure de bibliothèque numérique a donc débuté en 2004 avec l’archivage du web dans le cadre du Croatian Web Archives et s’est poursuivi avec la mise en place de systèmes spécialisés de gestion des périodiques numérisés (2009), des thèses (2010) et des e-books (2012). La commercialisation de livres numériques en langue nationale n’est apparue qu’en 2010. Depuis cette date, 330 ebooks ont été officiellement commercialisés par quatre éditeurs. Mais la protection par DRM est largement minoritaire. En effet, il y aurait plus de 1800 ebooks gratuits en langue croate, produits pour la plupart en auto-édition. Tous les types de publications monographiques disponibles sous forme numérique (livres numériques et numérisés, livres audionumériques) sont archivés dans un système de bibliothèque numérique (D-book).
The National Library of China
Tandis que la Bibliothèque nationale et universitaire de Zagreb (NSK) poursuit une mission de collecte et de préservation de la production éditoriale nationale, celle de la Bibliothèque nationale de Chine (NLC) semble plus encyclopédique et universelle : la NLC a pris la responsabilité de la collecte des publications nationales et étrangères pour mieux préserver le patrimoine culturel de l’humanité dans son ensemble…Le National Digital Library Project a ainsi archivé plus de quatre millions de volumes. La bibliothèque respecterait les règles internationales de copyright lorsqu’elle importe des livres électroniques commerciaux : l’ensemble des ressources peut être donc être consulté dans et hors la bibliothèque, sous réserve d’inscription sur son site web…
The Indonesia Heritage Digital Library
Si la situation de collecte peut apparaitre contrastée en raison des particularismes locaux (la bibliothèque nationale d’Indonésie se concentre ainsi sur la préservation de son patrimoine via www.indonesiaheritage.org), il reste difficile pour la plupart des bibliothèques nationales de mettre en place un système de dépôt légal des livres numériques commerciaux, en raison d’une moindre collaboration des éditeurs. On remarque également que les processus techniques de moissonnage des fichiers sont relativement similaires : si ceux-ci sont entièrement automatisés, les bibliothécaires interviennent en entrée (choix des catalogues moissonnées…) et sortie de système (contrôle des métadonnées). La formation continue des personnels est alors un facteur important de réussite.
Ci dessous, ma présentation des sessions IFLA consacrées au dépôt légal des ebooks, à la fouille de texte (Text and Data Mining), au poster de communication scientifique