Codage Ambisonique pour les Communications Immersives - La Rochelle Université Accéder directement au contenu
Thèse Année : 2022

Ambisonic Coding for Immersive Communications

Codage Ambisonique pour les Communications Immersives

Résumé

This thesis takes place in the context of the spread of immersive content. For the last couple of years, immersive audio recording and playback technologies have gained momentum and have become more and more popular. New codecs are needed to handle those spatial audio formats, especially for communication applications. There are several ways to represent spatial audio scenes. In this thesis, we focused on First Order Ambisonic. The first part of our research focused on improving multi-mono coding by decorrelated each ambisonic signal component before the multi-mono coding. To guarantee signal continuity between frames, efficient quantization new mechanisms are proposed. In the second part of this thesis, we proposed a new coding concept using a powermap to recreate the original spatial image. With this concept, we proposed two compressing methods. The first one is a post-processing focused on limiting the spatial distortion of the decoded signal. The spatial correction is based on the difference between the original and the decoded spatial image. This post-processing is later extended to a parametric coding method. The last part of this thesis presents a more exploratory method. This method studied audio signal compression by neural networks inspired by image compression models using variational autoencoders.
Cette thèse s'inscrit dans le contexte de l'essor des contenus immersifs. Depuis quelques années, les technologies de captation et de restitution sonore immersive se sont développées de manière importante. Ce nouveau contenu a fait naître le besoin de créer de nouvelles méthodes dédiées à la compression audio spatialisée, notamment dans le domaine de la téléphonie et des services conversationnels. Il existe plusieurs manières de représenter l'audio spatialisé, dans cette thèse nous sommes intéressés à l'ambisonie d'ordre 1. Dans un premier temps, nos travaux ont porté sur la recherche d'une solution pour améliorer le codage multimono. Cette solution consiste en un traitement en amont du codec multimono pour décorréler les signaux des composantes ambisoniques. Une attention particulière a été portée à la garantie de continuité du signal entre les trames et à la quantification des métadonnées spatiales. Dans un second temps, nous avons étudié comment utiliser la connaissance de la répartition de l'énergie du signal dans l'espace, aussi appelée image spatiale, pour créer de nouvelles méthodes de codage. L'utilisation de cette image spatiale a permis d'élaborer deux méthodes de compression. La première approche proposée est basée sur la correction spatiale du signal décodés. Cette correction se base sur la différence entre les images spatiales du signal d'origine et du signal décodés pour atténuer les altérations spatiales. Ce principe a été étendu dans une seconde approche à une méthode de codage paramétrique. Dans une dernière partie de cette thèse, plus exploratoire, nous avons étudié une approche de compression par réseaux de neurones en nous inspirant de modèles de compression d'images par auto-encodeur variationnel.
Fichier principal
Vignette du fichier
Manuscrit-22-03-03.pdf (15.85 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03612363 , version 1 (17-03-2022)

Identifiants

  • HAL Id : tel-03612363 , version 1

Citer

Pierre Mahe. Codage Ambisonique pour les Communications Immersives. Son [cs.SD]. Université de La Rochelle, 2022. Français. ⟨NNT : ⟩. ⟨tel-03612363⟩
63 Consultations
79 Téléchargements

Partager

Gmail Facebook X LinkedIn More