– Les Discovery Tools libres

Compte rendu de la Journée d’étude organisée par le Consortium Couperin, le 24 janvier 2012 à l’université Paris Diderot, amphithéâtre Buffon

Selon la définition présente sur le site web de Couperin, «Les discovery tools (DT) sont des outils destinés aux bibliothèques, conçus pour fournir un seul point d’accès et indifféremment du support, du mode et du lieu de stockage, à toutes les ressources qu’elles proposent.»

Le DT est  donc un outil de recherche de la documentation électronique de type Google qui permet d’accéder immédiatement dans une interface unique à un ensemble déterminé d’informations internes et externes.

Les principes généraux de cet outil :

  • Permettre l’interrogation simultanée de catalogues (celui de la BU, le Sudoc, Worldcat, etc.), de bases de données de périodiques électroniques en texte intégral, des archives ouvertes, des fonds numérisées comme Google Books, des thèses en ligne…
  • Opérer une clustérisation des résultats par le biais de filtres (type de documents, dates, origine du fonds, termes associés, etc.)
  • Permettre une personnalisation du portail selon le type de lecteur (étudiant, enseignant, etc), son origine (UFR économie, UFR Droit) avec une mémorisation du contexte lorsque l’usager fait plusieurs recherches.

9h30-10h45 : Le SCD de Tours et l’utilisation de ENCORE, l’outil d’Innovative Systems (Anne Slomovic)

Le SCD de Tours a mis en place le Discovery Tools (DT)  Encore, outil payant de la société Innovative qui s’intègre bien avec le SIGB Millenium. L’usager n’a plus à connaître les typologies de documents ou à choisir ses sources : il peut se focaliser sur le contenu de la recherche.

En effet, en permettant une extension de la recherche à l’extérieur du catalogue du SCD (Web, Sudoc), le DT n’emmène pas forcement l’usager vers les ressources internes mais vers celles les plus pertinentes.

La BU devient hybride en mélangeant les sources : thèses de l’Université de Tours, ressources numériques du SCD, site web institutionnel, Archives ouvertes (BioMedcentral, HAL, PubMed, Isidore), fonds anciens numérisés (Gallica, Dionis), livres numérisés par Google… Le DT permet d’intégrer les données de la recherche au portail Il permet de chercher sur les périodiques imprimés et électroniques.

Dans le portail du SCD, l’accès aux ressources est possible par le biais de trois onglets (catalogue,  ressources en ligne (je pense), Enocre+). Des passerelles ont été créées entre les trois modes de recherche. Le SCD de Tours a ajouté dans son catalogue des notices sur les BDD elle-même : par exemple, si l’usager recherche la base Lextenso dans le catalogue, il aura comme résultat de recherche la notice de la base avec le lien correspondant.

Paramétrage du DT :

  • Après authentification sur le portail (via notamment l’ENT), le SCD peut choisir de mettre en avant tel catalogue ou telle base en fonction de l’UFR de rattachement du lecteur.
  • Le lien vers les documents en texte intégral fonctionne uniquement pour les livres numérisés par  Google et les articles de Jstor. Les bases volumineuses comme Springer ou Elsevier ont été moissonnées : les notices ont été déposées dans un entrepôt et enrichies manuellement par les bibliothécaires.
  • Le réservoir comprend également les notices du catalogue (exportées en Dublin Core) et les données issues d’internet (au format OAI).
  • Il y a 2500 connecteurs proposés par Innovation mais la tarification est fonction du nombre de connecteurs : ceux-ci sont de type Web Service avec Ebsco, ou moteur de recherche fédéré pour les autres.
  • Pour certaines universités, (Yale au USA), les dépôts de métadonnées ont été intégrés par Innovative aux systèmes locaux dans des métabases : la technologie utilisée est donc mixte (Web service, recherche fédéré, métabase).
  • L’abonnement coute 14200 € HT par an (version sans réservoir OAI)

La formation des usagers a été profondément modifiée par l’outil. Il n’y a plus au sein du SCD d’enseignement de méthodologie de recherche mais uniquement des séances de travaux pratiques sur des sujets précis : les bibliothécaires apportent soutien et aide dans l’interprétation des résultats affichés par le DT.

11h-12h30 : Blacklight (Chris Awre – Hull university – Royaume-Uni)

Cet outil a été créé à l’université de Virginie, qui possède de nombreuses ressources dans le domaine des humanités et de l’histoire des USA. Le projet initial se nomme Collex : il devait fournir une interface de recherche fédérée, Blacklight (BL) étant une des briques logicielle.

Le développement de BL a été financé par plusieurs universités, qui l’ont intégré à leur portail : Catalyst (John Hopkins), Searchworks (Stanford) :

  • L’interface de Stanfort permet de rechercher dans des ressources très diverses : le choix des facettes construit en temps réel la requête qui peut être facilement modifiée en en supprimant un des termes.
  • L’interface de l’université de Virginie permet de partager la fenêtre de recherche en deux ; d’un coté les résultats dans la catalogue de la bibliothèque, de l’autre les résultats issus des ressources électroniques.
  • BL est aussi utilisé pour le projet Hydra, qui vise à développer une interface de recherche fédérée capable d’attaquer tout type de ressources numériques.

Caractéristiques principales :

  • BL est un outil entièrement paramétrable.
  • Il a pu ainsi être détourné de son objectif original : il sert par exemple de moteur de recherche pour une base de données de vidéo dans une chaîne de TV.
  • Il a été conçu pour un usage mixte (bibliothèque, archives, audiovisuel).
  • BL n’est pas un outil commercial, mais un outil libre.
  • Il existe une importante communauté anglo-saxonne d’utilisateurs.

Caractéristiques fonctionnelles : BL est basé sur une architecture de plugins qui permet :

  • la géolocalisation des ressources,
  • la recherche avancée,
  • la recherche en texte intégral,
  • la création de fils RSS sur une recherche,
  • l’intégration d’api Google comme l’aperçu

Caractéristiques techniques :

  • BL donne à l’informaticien le contrôle total sur l’outil. Il est donc important de bien comprendre la technologie utilisée.
  • Les données sont codées en EAD ou MODS ; SORL Marc est un module qui intègre les données en marc.
  • BL n’impose pas la création d’index, de réservoir ou de métabase
  • BL est construit à partir d’Apache SORL, qui permet de  un index mixte, composé des données dans les formats ci-dessus, sur un MVC ou Modèle Vue contrôleur (structure qui sépare la structuration des données du modèle de présentation).
  • Il est en Open source. La dernière version est la 3.2 (ohloh.net :blacklight)
  • il existe un Google group pour le suivi des développements

13h45-15h : Vufind (Andrea Marchitelli – CILEA (consortium) – Italie)

Cilea est l’anagramme de Consorzio Interuniversitario Lombardo per L’Elaborazione Automatica (Consortium interuniversitaire pour le calcul automatique). Basée à

Segrate (Milan), CILEA est une institution qui mène des projets opérationnels dans le domaine des Technologies de l’information de la Communication (TIC) et fournit des services aux universités, instituts de recherche, organismes publics et entreprises. Il a été créé par des universités ayant une activité commerciale dans les domaines de la gestion de l’info (e-learning, développement informatique, stats, web).

Cilea a développé Vufind selon deux modes de commercialisation :

  • connecteur vers le fournisseur,
  • hébergement de la base avec garanti d’archivage pérenne.

Caractéristiques fonctionnelles de VuFind :

  • recherche de type Google-like,
  • paramétrage facile des champs de recherche en ajoutant un code –author¨^ 300,
  • auto complexion sur les index par ajax,
  • choix de période de recherche,
  • gestion des facettes,
  • export de citation,
  • export bibliographique,
  • export par mail.

Il est possible de coupler Vufind à plusieurs catalogues, à des sites web :

  • Sur la droite de l’interface, il est possible de visualiser des notices similaires (ayant répondu aux même critères recherche), de visualiser des notices FRBRisées.
  • Cilea peut être utilisé avec les bases Springer et Science direct.
  • Le réservoir en ligne de Cilea est constitué des données importées à partir des fournisseurs partenaires (Trove, BN d’Autriche).
  • Vufind permet aussi de rechercher sur des sites web (par xml sitemap).

15h-16h15 : Libraryfind, outil de la Bibliothèque publique d’information (Bpi) par Jérôme Villeminoz)

Genèse du projet :

La rénovation du site Web en 2007 fut l‘occasion de mettre en place un moteur intégré pour la recherche dans plusieurs catalogues de la Bpi : le SIGB, Generalis, Bpi doc, des archives sonores et cinématographiques. Il s’agissait de créer un réservoir commun.

Le DT permet de mettre en œuvre un modèle d’interrogation unique (interrogation des catalogues Bpi, du web, des bases externes) avec affichage unifié des résultats de recherche (usage du rebond, de l’association d’idée, facilité d’accès).

Il faut cependant différencier la recherche intégrée, le système de recherche utilisant un index local (intégration synchrone), de la recherche fédérée, qui se connecte à des sources externes (interrogation asynchrone).

Libraryfind permet les deux types de recherche :

  • il moissonne et entrepose,
  • il se connecte en direct aux bases.

Le choix d’un outil en Open source répond à une logique de service par rapport au prestataire, qui permet de faire évoluer le produit en fonction des besoins de la Bpi :

  • Le premier marché passé avec Atos Origin a permis d’implémenter dans le DT le moteur de recherche SolR, qui devint un standard actuellement, ainsi que des connecteurs standard.
  • La seconde prestation vise l’intégration au DT d’un CMS, des fonctionnalités de recherche et les réseaux sociaux.
  • la souche française de Libraryfind a été créée conjointement avec le SICD2 de Grenoble de manière à pouvoir interroger deux SIGB, des accès distants, des sources externes.

Le prochain portail de la Bpi est actuellement en test sur 40 postes ouverts au public et aussi sur les bureaux des agents. Il n’est pas encore accessible en ligne pour cause de manque de performance et de fiabilité du produit. Le prestataire informatique a des difficultés à suivre le développement du DT sur plusieurs années en raison de changements internes de personnel (départ du Chef de projet).

Le SICD2 de Grenoble a commandé en 2012 à Atos Origin le développement d’un widget qui permettra de positionner l’interface de recherche sur n’importe quel site web.

Caractéristique technique :

Le DT ne doit pas se substituer au catalogue car la recherche n’est pas exhaustive : il manque certaines notices à l’affichage. La recherche est faite par défaut dans le domaine Généralité, tout en prenant bien soin d’exclure la connexion aux BDD pour ne pas qu’elles soient parasité par des recherches indues.

Back office :

Les fonctions sociales sont implémentées au niveau du paramétrage des comptes utilisateurs :

  • création de profils,
  • commentaires et évaluation,
  • tag sur les notices,
  • nombre de résultats de recherche.

Pour l’administrateur, il est  possible de définir :

  • un schéma de données (par exemple Marc21),
  • des types de doc. par défaut,
  • le mapping du Z3950 (les définitions des paramètres de connexion),
  • l’URL du fournisseur,
  • le jour et la fréquence du moissonnage.

Sur la fiche d’édition du groupe de collection, on coche ou décoche les bases, donne un nom, une ID et une description au groupe. Il est possible d’ajouter une condition au périmètre moissonné.

Il est aussi possible :

  • de créer des types de documents et une table de concordances ( ?) permettant de mapper les types de documents du SIGB à ceux du DT, de pondérer les bases connectées (par exemple donner un coefficient supérieur à Econlit si nécessaire),
  • de personnaliser les notices. Dans le CMS, l’administrateur crée un contenu en insérant simplement l’identifiant du groupe créé dans le DT, de façon à ce qu’un éditorial contextualisé apparaisse : par exemple la notice Factiva, est accompagnée d’un tutoriel que seul le public concerné (les professionnels identifiés) verra.

Le workflow de création d’information sur le portail et dans le SIGB reste tel qu’il était préalablement.

  • En effet, les données sont ré-agencées par le biais de requête SQL dans le réservoir.
  • Il faut ensuite développer des algorithmes de pertinence pour la présentation des résultats dans le CMS.

La mise en place du DT n’a pas modifié les habitudes de travail des catalogueurs et des webmestres.