Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources - La Rochelle Université Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources

Résumé

Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
Fichier principal
Vignette du fichier
8981.pdf (336.03 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03701516 , version 1 (24-06-2022)

Identifiants

  • HAL Id : hal-03701516 , version 1

Citer

Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune, et al.. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources. Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France. pp.345-354. ⟨hal-03701516⟩
70 Consultations
25 Téléchargements

Partager

Gmail Facebook X LinkedIn More