SERMO|About

La chaine de traitement

Les sermons de ce corpus ont été transcrits d’après les imprimés originaux, en respectant absolument la graphie d’origine, y.c. la ponctuation, les espaces, les sauts de ligne, les tildes, les ß/ss, les u/v et i/j. Une image du texte est présentée en regard de la transcription. Les textes transcrits ont été soumis à la chaîne de traitement suivante :
  • Tokenisation (automatique) : utilisation du lexique basé sur le corpus du moyen français (projet PRESTO) enrichi avec les formes spécifiques au corpus SERMO, avec intégration d’une liste des formes composées (par exemple locutions conjonctives ou prépositions complexes)
  • Lemmatisation (automatique) avec la prise en compte de la variation graphique, sur la base de l’outil : LGeRM
  • Étiquetage morpho-syntaxique (POS-tagging) (automatique) : TreeTagger (outil de segmentation et le modèle de langue pour le balisage des catégories grammaticales) avec le modèle de langue développé d’abord par le projet PRESTO , et ensuite adapté à l’état de langue du corpus SERMO
  • Contrôle et correction de "POS" (semi-automatique)
  • Annotation discursive
  • Annotation éditoriale
  • Annotation structurale
  • Autres annotations : p.ex. contrôle et vérification des références bibliques (semi-automatique)
L’interface de consultation (Analyse) permet aux utilisateurs de cibler le niveau d’utilisation du corpus en fonction de leurs besoins : micro-syntaxique pour l’analyse de phénomènes de grammaire de la phrase, macro-syntaxique pour l’analyse de discours ou la rhétorique, ou texte entier pour toute utilisation exégétique ou historique.
Les modes de consultation possibles :
  • Plein texte
  • Concordancier
  • Lexique
  • Liste de fréquences