Facilitating Access to Historical Documents by Improving Digitisation Results

Thi Tuyet Hai Nguyen

Résumé

Born-analog documents contain enormous knowledge which is valuable to our society. For the purpose of preservation and easy accessibility, several digitisation projects have converted these documents into digital texts by using optical character recognition (OCR) software. Some existing problems of OCR techniques prevent users and further processes from accessing, searching, or retrieving information on these digitised collections, and so limit the benefits of these above projects. A notable limitation is the fact that certain meaningful structures such as chapters, sections, etc., are not available from OCRed books. Thus, it is not convenient for users to navigate or search information inside books. Another constraint is that the accuracy of modern OCR engines on historical documents substantially decreases. Erroneous OCR output considerably impacts on the performance of search engines and natural language processing systems. This thesis facilitates access to historical digitised documents by addressing such problems. Several approaches are proposed within this thesis, aiming to reconstruct the logical book structures and to improve the quality of digitised text. The first contribution is to rebuild the logical book structures. An ensemble method is introduced to extract tables of contents of digitised books. Experimental results show that our approach outperforms the state-of-the-art for both evaluation metrics. The major contribution of this thesis is to provide methodologies to reduce OCR errors. Common and different features between OCR errors and human misspellings are clarified for better designing post-OCR processing. Normally, a post-processing system detects and corrects remaining errors. However, it is reasonable to treat them separately in some applications which allow to filter out, flag, or selectively reprocess such data. In this thesis, we examine different post-OCR approaches, ones based on error model and language model, and others that involve neural network models. Results reveal that the performance of our proposals is comparable to several strong baselines on English datasets of the two competitions on post-OCR text correction organised in the International Conference on Document Analysis and Recognition in 2017 and 2019.

Les documents papiers sont à la base de nos connaissances et renferment une myriade d’information dont certaines sont très précieuses pour notre société. Dans un but de préservation et afin de les rendre plus accessibles, de nombreux projets de numérisation visent à convertir ce type de documents en textes numérisés, notamment en utilisant des logiciels de reconnaissance optique de caractères (OCR). Toutefois, certains problèmes inhérents aux techniques actuelles d’OCR rendent difficiles la recherche ou l’accès aux informations présentes dans ces collections numérisées, tant pour les utilisateurs que pour les processus automatiques, et limitent ainsi l’impact de ces efforts de numérisation. L’une des limitations de la numérisation repose sur le processus même puisque les documents numérisés ne sont pas immédiatement réprésentés sous leur forme logique (partie, chapitre, section, etc.), mais de façon physique. Ainsi, une œuvre sera numérisée page par page, ce qui ne correspondant généralement qu’à une organisation physique et pas à l’intention rédactionnelle des auteurs. La structure logique des documents doit ainsi être extraite afin de permettre aux utilisateurs de naviguer dans les collections ou même de trouver des informations au sein d’un ouvrage. Un second verrou du processus de numérisation, qui en est également le plus important, correspond aux performances des moteurs d’OCR. En effet, celles-ci sont substantiellement réduites pour les documents patrimoniaux qui ont généralement subis des dégradations. Les erreurs d’OCR que cela induit ont un impact non négligeable sur la performance des outils de recherches et sur les systèmes de traitement du langage naturel puisqu’il faut par exemple apparier des besoins bien écrits à des textes mal reconnus. Cette thèse a pour objectif de faciliter l’accès aux documents historiques numérisés en étudiant les problèmes précédemment mentionnés. En vue de faciliter l’accès aux documents historiques, plusieurs approches sont pro- posées, visant à reconstruire les structures logiques des ouvrages et à améliorer la qualité des textes numérisés par OCR. En ce qui concerne l’extraction de la structure logique, nous avons développé des approches de fusion combinant des méthodes préexistantes afin d’extraire la table des matières d’ouvrages numérisés. Nos expériences ont démontré que cette approche surpasse l’état de l’art. La contribution majeure de cette thèse fournit, quant à elle, des méthodes pour la détection et la correction des erreurs d’OCR. Les caractéristiques communes et divergentes entre les erreurs d’OCR et celles des utilisateurs sont clarifiées pour mieux concevoir les traitements post-OCR. Normalement, un système de post-traitement détecte et rectifie les erreurs résiduelles. Toutefois, il peut être préférable de gérer ces erreurs séparément grâce à des applications qui permettent de filtrer, d’étiqueter, ou de traiter sélectivement de telles données. Dans cette étude, nous examinons différentes approches post-OCR basées sur la modélisation des erreurs typiques observées, et sur des modèles de réseaux de neurones. Les résultats montrent que les performances de nos méthodes sont comparables à plusieurs méthodes de référence sur des jeux de données en anglais utilisés lors des deux premières éditions de la compétition sur la correction des textes post-OCR organisée durant les conférence ICDAR en 2017 et 2019.

Facilitating Access to Historical Documents by Improving Digitisation Results

Faciliter l'accès aux documents anciens en améliorant les résultats de la numérisation

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager