Table of Contents
Version Française
Introduction
à l'Encyclopédie d'ARTFL
- Robert Morrissey
À
l'occasion du 10ème anniversaire du projet de l'Encyclopédie électronique d'ARTFL, je suis très heureux de
présenter la nouvelle version de cette encyclopédie et
d'annoncer qu'elle sera désormais accessible au grand public. Réaliser une
édition électronique de l'Encyclopédie
relevait du défi. Sa structure est très complexe; les conventions
typographiques utilisées pour les différents éléments du texte (que ce soient
les titres d'articles, les classes des connaissances ou même les renvois)
varient grandement d'un volume à l'autre; la relation entre les articles
et les planches d'illustrations n'est en aucune façon claire et systématique.
Toutefois, l'informatique offrait une multitude de possibilités nouvelles tant
pour rendre l'œuvre accessible aux chercheurs que pour fournir à ceux-ci de
nouveaux moyens leur permettant de naviguer dans l'œuvre elle-même. En outre, le support
informatique nous a encouragés à concevoir ce projet comme une « édition
vivante », c'est-à-dire une édition qui, au fil du temps, serait constamment corrigée, développée
et améliorée. C'est pour cela que nous avons choisi dès le départ (1998) de
rendre accessible l'Encyclopédie
électronique aussi rapidement que possible et d'apporter progressivement
par la suite les améliorations et les corrections nécessaires. Afin de
compenser les erreurs introduites au cours de la saisie des données, nous avons
choisi de reproduire en images les pages de chaque volume pour en faciliter la
comparaison et la vérification. En même temps que notre travail de correction,
nous avons développé notre logiciel de recherche et de traitement des données.
Trop souvent, nos utilisateurs se limitent à effectuer des recherches
concernant un mot-clé ou une phrase simple, bien que ce type de recherche ne
donne pas toujours les meilleurs résultats. L'utilisation de nos nouvelles
fonctions de recherche et de traitement de résultats peut améliorer
sensiblement la capacité du lecteur à se déplacer dans ce que Diderot
lui-même décrit comme le « labyrinthe tortueux » qu'est l'Encyclopédie. Par exemple, une recherche visant à déterminer la fréquence d'occurences d'un mot classée par article ou une recherche affichant les résultats par tableaux de co-occurrences, peuvent fournir des pistes bien plus utiles (voir ci-dessous pour plus de détails).
Cette nouvelle version marque une étape importante dans le développement de l'édition électronique de l'œuvre monumentale de Diderot et d'Alembert. Elle bénéficie des améliorations apportées au fil des années. Les attributions des auteurs ont été vérifiées et corrigées; de nouvelles fonctions de recherche ont été mises en place; de nouveaux documents d'archives ont été mis à disposition des utilisateurs. Cette version inclut non seulement les quatre volumes du Supplément à l'Encyclopédie, mais aussi les épreuves d'articles censurés ainsi que des documents relatifs aux poursuites judiciaires qu'intenta Luneau Boisjermain contre les éditeurs de l'Encyclopédie, le tout étant réunis dans le fameux « 18ème volume». Pour la première fois, les utilisateurs de l'Encyclopédie électronique seront en mesure de participer à la correction et à l'amélioration de l'édition en utilisant notre lien « report error » (situé en haut à droite de chaque page de résultat) pour nous informer des erreurs qu'ils rencontrent. Tous ces facteurs ont contribué à notre décision de rendre la plupart des éléments de ce site disponible non seulement à la communauté des chercheurs abonnés à ARTFL, mais également au grand public.
Dans les paragraphes suivants, je décrirai brièvement l'histoire de l'Encyclopédie électronique d'ARTFL.
Au commencement: choisir une édition
Dès le début du projet, nous avons dû prendre plusieurs décisions éditoriales majeures qui ont eu des conséquences importantes par la suite. Tout d'abord, il y a eu le choix de l'édition : elles étaient nombreuses à avoir paru dans des formats différents. Nous avons choisi la première impression de l'édition de Paris - voir notre comparaison des éditions de l'Encyclopédie. Richard Schwab a ensuite accepté d'expertiser la version en microfiche produite par IDC (Leiden, Pays-Bas) et a confirmé que c'était une bonne copie de la première édition – c'est à partir de ces microfiches que nous avons fait effectuer la saisie des données. Nous savions que, en raison des complexités typographiques du texte initial, de nombreuses erreurs ont été introduites lors de la saisie. Malheureusement, la taille de l'Encyclopédie et sa grande diversité sémantique nous empêchaient d'avoir recours à une procédure normale de correction d'orthographe. Mais nous avons décelé d'autres problèmes. Parce que les principaux éléments du texte (articles, auteurs, renvois, etc.) avaient été identifiés automatiquement grâce à des procédures basées sur la typographie, nous nous sommes rendu compte que certains articles avaient été mal identifiés ou non identifiés, qu'il y avaient des auteurs manquants, des informations incomplètes sur les classes des connaissances et les catégories grammaticales, un mauvais fonctionnement des renvois, etc. Résoudre ces problèmes ne pouvaient se concevoir que comme un projet de corrections à grande échelle. C'est pour cela que, en dépit de ces difficultés et en raison de leur complexité, nous avons pensé préférable de publier une version en grande partie non corrigée de la base de données pour ensuite travailler à intégrer progressivement les corrections du texte et des métadonnées à mesure qu'elles seraient faites. Pour en savoir plus sur nos corrections, voir cette page d'explications.
L'un des problèmes les plus complexes que nous avons rencontrés dans la mise en place de cette édition a été d'attribuer correctement les auteurs à leurs articles respectifs. Au début, nous avons simplement essayé d'identifier les auteurs automatiquement à l'aide des différentes marques d'auteur comme elles apparaissent dans le texte - par exemple, (*) pour Diderot, (S) pour Rousseau, (O) pour d'Alembert, etc. - une stratégie qui, bien que généralement couronnée de succès, a néanmoins laissé de nombreux articles non attribués. Les articles avec de multiples auteurs, les articles non signés, et les articles rédigés par des auteurs sans marque posaient tous d'importants problèmes à notre traitement automatique. Pour résoudre ces problèmes, nous avons consulté le monumental inventaire de Schwab (Inventory of Diderot's Encyclopédie, 1971) 1) pour identifier les articles non signés dont la paternité a été attribuée par Schwab et 2) pour corriger toute information d'auteurs qui ne figuraient pas dans nos métadonnées (voir ci-dessous). Les auteurs de 1500 articles non signés que nous avons attribués à l'issue de ce processus sont indiqués par le chiffre « 5 » après le nom de l'auteur, par exemple, Holbach5, Saint-Lambert5, Voltaire5, etc. Pour les articles de Diderot, nous avons suivi l'édition de ses œuvres complètes parue chez Hermann (Lough et Proust Eds.), dont nous avons tiré les désignations « Diderot » « Diderot2 » et « Diderot3 ». Nous avons recouru aux travaux de Martine Groult pour vérifier les attributions à d'Alembert - pour plus de détails, voir notre page sur l'attribution des auteurs.
Corrections de la base de données
La nouvelle version de la base de données de l'Encyclopédie (Version 2.8, 11/2008) contient plus de 500.000 modifications apportées aux fichiers d'origine de 1998, ces corrections ont été faites de différentes manières, tant automatiques que manuelles. Au cours des dernières années, nous avons également travaillé à améliorer et à corriger les métadonnées de l'Encyclopédie – titres d'articles, attributions d'auteurs, classes des connaissance, etc. Nous savons que de nombreuses petites erreurs de texte (provenant de la saisie initiale des données) subsistent encore. Afin de nous aider à identifier et à éliminer ces erreurs, nous invitons nos utilisateurs à recourir au lien « Report Error » situé en haut à droite de chaque page de résultats pour les envoyer directement à ARTFL. Ces erreurs seront recueillies et corrigées périodiquement.
Corrections du texte - Pour corriger les erreurs dans le texte, nous avons procédé en deux étapes. Premièrement, nous avons identifié et corrigé automatiquement la plupart des erreurs fréquentes. Bon nombre de ces erreurs provenaient du long « s » de la typographie du XVIIIe siècle, qui était souvent confondu avec un « f » (par exemple : semme pour femme). Parmi d'autres lettres sujettes à confusions, il y avait « er » pour « cr » (deseription pour description), « e » pour « c » (done pour donc) et « c » pour « e » (cst pour est). Deuxièmement, nous avons conçu notre propre vérificateur d'orthographe afin d'identifier d'autres erreurs possibles dans le texte que nous avons ensuite comparées aux images des pages de l'Encyclopédie pour les corriger manuellement. De 1999 à 2006, ces procédés nous ont permis de faire plus de 450.000 corrections. Voir notre page sur la correction de texte.
Corrections des métadonnées - Au cours des 2 dernières années, nous avons systématiquement vérifié et corrigé les métadonnées de l'Encyclopédie (titres d'article, classes des connaissance, auteurs, etc.) en vérifiant nos métadonnées initiales à l'aide de Inventory of Diderot's Encyclopédie de Richard Schwab. Toute anomalie dans le titre de l'article, l'auteur, la classe des connaissances, etc. a été vérifiée à partir des images des pages de l'Encyclopédie pour être ensuite corrigée ou ajoutée, suivant le cas. À ce jour, plus de 8000 ajouts et de nombreuses corrections ont été faites - pour plus de détails, voir notre page sur la correction des métadonnées.
Autres corrections - Nous sommes conscients que de nombreuses erreurs de texte subsistent encore et nous invitons les utilisateurs à soumettre toute erreur qu'ils rencontreront en utilisant le lien « Report Error » en haut à droite de chaque page de résultats. Pour l'heure, nous allons commencer à traiter les quelques erreurs structurelles—titres reconnus de manière erronée, etc.—que nous avons recueillis au fil des années. Nous allons également chercher à corriger les caractères grecs (qui ont été saisis en Betacode et automatiquement traduits en Unicode) et à réfléchir au problème très complexe d'établir des liens entre les renvois aux planches contenus dans le texte et les images des planches. Un autre problème qui se pose est celui de la reproduction des formules mathématiques et des différents tableaux. S'il est possible actuellement de faire des recherches dans le texte des tableaux, le meilleur moyen de visualiser graphiquement ces éléments demeure cependant de consulter l'image de la page. Nous n'avons pas encore trouvé une manière cohérente de représenter les formules mathématiques dans le texte numérisé, et, en attendant que ce problème soit résolu dans le futur par un progrès technologique, ces formules ne sont représentées actuellement que sur les images des pages concernées. Pour en savoir plus, voir notre page sur les corrections de l'Encyclopédie.
Renvois - Le système des renvois dans l'Encyclopédie est l'une des questions les plus épineuses que nous ayons rencontrées lors de l'élaboration de cette édition électronique. Dès le début, nous nous sommes rendu compte que les renvois ne sont en aucune manière systématiques — c'est-à-dire, les auteurs ont souvent ajouté une référence à un article n'ayant pas encore été écrit (et qui très souvent ne l'a jamais été par la suite) — créant de la sorte de nombreux renvois qui dirigent le lecteur vers des articles inexistants ou des articles qui ont finalement été intitulés différemment. Nous avons tenté d'identifier les renvois automatiquement en utilisant les conventions typographiques ( «Voy. ART » à la fin d'un article par exemple), ce qui a généré la création de plusieurs liens erronés (par exemple, quand les noms d'auteurs ou d'autres informations à la fin des articles utilisent la même typographie que les renvois ). Certaines de ces erreurs peuvent être corrigées. Les suggestions de correction pour les renvois (c'est-à-dire, les renvois mal identifiés ou mal orthographiés) peuvent être soumises à l'aide du lien « Report Error » en haut à droite de chaque page de résultats.
Nouvelles fonctions de recherche et de traitement des résultats
La base de données de l'Encyclopédie utilise une version modifiée du moteur de recherche, PhiloLogic conçu par ARTFL. Cette nouvelle version comporte plusieurs nouvelles fonctions de recherche et d'affichage des résultats telles que les tableaux de co-occurrences, l'affichage de fréquence d'occurrences de mots par article, et le triage des résultats (KWIC) par ordre alphabétique des mots situés à gauche ou à droite des mots-clés.
Bien que les recherches par mot et par phrase demeurent la pierre angulaire de l'interface PhiloLogic, l'utilisation de ces nouvelles fonctions peut offrir d'autres moyens de traiter le nombre gigantesque d'occurrences de mots ou de phrases qui sont parfois générées. Ces fonctions seront particulièrement utiles aux étudiants travaillant sur l'Encyclopédie, car elle leur donneront de nouveaux points d'accès à cette œuvre très complexe.
L'affichage de fréquence par article indique le nombre d'occurrences de l'objet recherché (mot, groupe de mots, etc.) en ordre décroissant de fréquence avec un lien vers l'article et un lien vers les occurrences trouvées dans cet article. Par exemple, si vous effectuez une recherche sur « Newton », vous verrez que 45 des 783 occurrences de « Newton » apparaissent dans l'article « Wolstrope » – ceci pourrait a priori sembler sans importance jusqu'à ce que l'on se rende compte que toutes les informations biographiques sur Newton se trouvent dans cet article sur sa ville natale, un fait qui aurait échappé aux utilisateurs cherchant un article sur la vie de Newton portant un titre différent.
En outre, le contexte et l'aspect relationnels des termes de recherche peuvent être examinés globalement à l'aide des affichages par tableaux de co-occurrences (colocation tables) ou par mots-clés en contexte (KWIC). Les tableaux de co-occurrences offrent aux utilisateurs un moyen simple de voir par fréquence d'occurrences la constellation des mots qui, autour du terme recherché apparaissent le plus souvent, et les affichages KWIC permettent aux utilisateurs de trier par ordre alphabétique chaque ligne de résultats, soit à droite soit à gauche du mot-clé surligné - ces deux types d'affichage peuvent aider les utilisateurs à aller plus loin que la simple recherche des occurrences d'un seul mot et surtout les aider à développer une compréhension plus général de l'utilisation de ce mot-clé dans l'ensemble de l'Encyclopédie.
Pour une description complète de ces questions et des autres fonctions de recherche disponibles, voir le Manuel de l'utilisateur de l'Encyclopédie.
Documents de recherche et d'archives
Autour de l'Encyclopédie électronique, ARTFL a commencé à rassembler des documents du dix-huitième siècle relatifs à la production, à la chronologie et à la réception de l'œuvre. On y trouvera notamment plusieurs lettres écrites par Diderot lors de son internement à Vincennes, des documents relatifs à l'histoire mouvementée de la publication de l'Encyclopédie, et une version haute résolution de l'« Arbre généalogique » encyclopédique. En présentant cet ensemble de documents, nous espérons fournir à nos utilisateurs un accès pratique à des informations qui leur permettront d'enrichir leur recherche dans et autour de l'œuvre. Nous sommes constamment à la recherche de nouvelles ressources pour améliorer notre site et nous invitons les chercheurs à nous contacter s'ils sont désireux de contribuer à notre projet avec des idées et des matériaux.
Le «18ème» Volume: une nouvelle ressource
En collaboration avec l'Université de Virginia et sa bibliothèque (Small Special Collections Library), nous sommes heureux d'offrir, pour la première fois, l'accès en ligne au fameux « 18ème volume de l'Encyclopédie » de Douglas Gordon. Ce volume supplémentaire comprend certaines des toutes premières pages de titre et des matériaux préliminaires de l'Encyclopédie, ainsi que quelques 284 pages d'épreuves corrigées d'articles, dont 46 soumis par Diderot, qui ont été censurés ou modifiés vraisemblablement par l'éditeur Le Breton avant impression finale. La présence de ces épreuves, ainsi que la collection de documents légaux relatifs aux poursuites judiciaires qu'intenta Luneau Boisjermain contre les éditeurs de l'Encyclopédie, ont conduit de nombreux chercheurs à croire que ce volume a probablement appartenu à Le Breton. Nous avons inclus à la fois la transcription des articles censurés avec les indications de ce qui a été coupé, ajouté, etc., ainsi que des liens vers l'image des épreuves elles-mêmes. À partir de l'interface de reproduction de page, l'utilisateur peut aussi naviguer dans l'ensemble du volume. L'ampleur de la censure varie considérablement entre les 46 articles, elle va de la suppression de mots ou de phrases à celles de paragraphes entiers (voir « Sarrasins ») et même d'articles, tels que celui de Jaucourt sur la « Tolérance ». Voir la page du 18ème volume.
Recherche et développement futurs
L'Encyclopédie électronique est au centre de la recherche actuelle menée par ARTFL sur l'extraction de données (datamining) et sur les techniques d'apprentissage automatique (machine-learning). Elle a servi de banc d'essai pour expérimenter de nouvelles techniques visant à exploiter à grande échelle des collections numériques. Ces techniques peuvent nous aider à mieux comprendre la richesse du système de classification de l'Encyclopédie, ainsi que la construction dialogique de son contenu. Elles offrent de nouvelles possibilités d'explorer les relations complexes que les articles entretiennent entre eux ainsi qu'avec des sources extérieures. De la sorte s'ouvre tout un champ de recherche sur les citations, les renvois, les relations intertextuelles. En utilisant des classificateurs de Bayes (très similaires à ceux utilisés par les filtres anti-Spam des logiciels de courrier électronique) nous avons pu exploiter le système de classification de l'Encyclopédie — ce qui, en informatique et en technologie de récupération des informations (Information retrival) s'appelle, son «ontologie» — pour assigner une classe des connaissances aux 22.000 articles qui en sont dépourvus dans l'édition originale. Dans un avenir proche, nous espérons offrir aux utilisateurs ces classes générées automatiquement ainsi qu'aux modifications des classes suggèrées par le logiciel comme rendant mieux compte du contenu d'un article. Plus récemment, nous avons utilisé diverses mesures de similarité de texte (telles que Vector Space Model and K-Nearest Neighbor) pour détecter la présence d'articles «empruntés» par l'Encyclopédie à deux prédécesseurs jésuites - le Dictionnaire de Trévoux et le Grand dictionnaire historique de Louis Moreri. Enfin, dans nos expériences, nous utilisons des algorithmes d'alignement de séquences empruntés à la bioinformatique afin d'essayer de trouver des séquences de texte (qui vont de plusieurs mots à des articles entiers) qui apparaissent dans l'Encyclopédie et dans des œuvres parues plus tôt telles que de l'Esprit des lois de Montesquieu. En développant ces techniques, nous espérons permettre aux chercheurs de parvenir à une meilleure compréhension de la dimension intertextuelle de l'Encyclopédie, et de mieux évaluer ainsi non seulement dans quelle mesure ses auteurs ont utilisé des sources antérieures, mais dans quelle mesure l'Encyclopédie elle-même a été accueillie et utilisée dans les décennies qui ont suivi sa publication. Pour en savoir plus sur la recherche en cours voir ARTFL-PhiloMine bibliographie.
Collaborations en cours
Depuis le début, les collaborations ont été essentielles au développement du projet de l'Encyclopédie et nous continuerons à en encourager de nouvelles. Les plus fructueuses d'entre elles ont toutes contribué aux différents éléments décrits ci-dessus – en nous apportant de nouvelles ressources (University of Virginia pour le 18ème Volume); en proposant des traductions et des classifications (University of Michigan); en contribuant à nos recherches, à l'élaboration des documents annexes, aux corrections ainsi qu'en prodiguant des conseils editoriaux (CNRS), mais aussi en participant à la recherche et au développement (Stanford University). Maintenant que la présente édition de l'Encyclopédie devient accessible au grand public, nous espérons que l'esprit de collaboration de cette « édition vivante » va se développer davantage. Nous voulons encourager tous les utilisateurs à réfléchir aux moyens d'améliorer notre réalisation, que ce soit en signalant les erreurs qu'ils rencontreraient grâce au lien « Report Error » (situé en haut à droite de chaque page de résultat) ou en participant à la réflexion sur son développement. Pour en savoir plus, voir notre page Encyclopédie Collaborations.
Remerciements
Rien de tout cela n'aurait été possible sans la collaboration d'un groupe remarquable de jeunes chercheurs dotés de grandes capacités techniques. La composition singulière de cette équipe nous a permis de trouver un équilibre entre l'innovation technique, l'amélioration du texte, et les décisions éditoriales. Je tiens à exprimer ma gratitude à l'ensemble de l'équipe ayant œuvré sur ce projet pour leur travail.