Une nouvelle technologie de cloud gaming du MIT et de Microsoft permet de synchroniser l’audio et la vidéo
Une nouvelle technologie de cloud gaming du MIT et de Microsoft permet de synchroniser l’audio et la vidéo

Les chercheurs ont mis au point un système qui utilise un bruit blanc inaudible pour améliorer la synchronisation dans le « cloud gaming ».
Des chercheurs ont mis au point un nouveau système de « cloud gaming » qui utilise un bruit blanc de faible intensité pour synchroniser avec précision des flux audio et vidéo séparés. Cette approche unique permet aux joueurs de voir et d’entendre les choses au bon moment, même si la qualité du microphone est médiocre ou en présence d’un bruit de fond.
Les jeux dans le Cloud ont véritablement pris leur essor lorsque le COVID-19 a fait son entrée sur la scène mondiale et que nombre d’entre nous ont été contraints de rester chez eux. Selon Statista, le nombre d’utilisateurs mondiaux en 2019 était de 45,9 millions ; jusqu’à présent, en 2023, le nombre d’utilisateurs s’élève à 295 millions.
Dans une configuration typique de jeu dans le Cloud, un serveur reçoit des entrées de jeu et des flux de discussion audio provenant d’accessoires de jeu tels que des contrôleurs et des casques. En réponse, il génère simultanément deux flux médiatiques distincts pour le joueur.
Le premier est un flux d’écran de jeu comprenant l’audio et la vidéo du jeu, destiné à un dispositif d’écran tel qu’un téléviseur ou une tablette. Le second est un flux d’accessoires de jeu destiné aux contrôleurs et aux casques audio de jeu, comprenant l’audio du jeu mélangé aux discussions des autres joueurs et aux retours haptiques tels que les vibrations des contrôleurs.
Ces deux flux sont généralement acheminés sur des réseaux distincts, ce qui peut entraîner un manque de synchronisation – délai inter-flux – entre les deux, avec pour conséquence un décalage vidéo, une réponse haptique lente et une expérience de jeu médiocre.
Des chercheurs du MIT ont fait équipe avec Microsoft Research pour mettre au point Ekho, un système qui utilise une technique unique pour remédier au décalage entre les flux. Ils présenteront un article décrivant leur système lors de la conférence 2023 ACM Special Interest Group on Data Communication (SIGCOMM) qui se tiendra à l’université de Columbia, à New York, du 10 au 14 septembre.
Les chercheurs ont commencé par examiner le problème au cœur du retard entre les flux : la synchronisation des horloges.
« Si le contrôleur et l’écran pouvaient regarder leur montre et voir la même chose en même temps, nous pourrions tout synchroniser avec l’horloge », explique Pouya Hamadanian, auteur principal de l’article. « Mais de nombreux travaux théoriques sur la synchronisation des horloges montrent qu’il existe certaines limites que l’on ne peut jamais dépasser.
Une méthode courante pour résoudre les problèmes de synchronisation d’horloge est la messagerie ping-pong, dans laquelle un appareil envoie un message ping au serveur, qui répond par un pong ; le temps nécessaire à l’aller-retour du message est utilisé pour calculer la latence du réseau. Toutefois, cette méthode peut ne pas être fiable, car le message peut mettre plus de temps à atteindre le serveur que le message de retour. Les chercheurs affirment que l’homme peut percevoir le délai inter-flux dès qu’il atteint 10 ms.
« Donc, si quelque chose se produit à l’écran, nous voulons que cela se produise également dans les 10 millisecondes sur le contrôleur », a déclaré Pouya Hamadanian.
Pour améliorer la synchronisation, ils ont conçu Ekho de manière à ajouter un « pseudo-bruit » – un bruit blanc de faible volume inaudible pour les humains – au son du jeu avant qu’il ne soit transmis à l’écran du joueur.
Le module Ekho-Estimator ajoute des séquences identiques de pseudo-bruit à l’audio du jeu ; ensuite, lorsqu’il reçoit l’audio du jeu enregistré par le contrôleur, il écoute les séquences et essaie d’aligner les flux. Le module Ekho-Estimator transmet cette information au module Ekho-Compensator, qui saute quelques millisecondes de son ou ajoute quelques millisecondes de silence à l’audio du jeu envoyé par le serveur pour synchroniser les flux.
Lorsque les chercheurs ont testé le système Ekho sur des sessions réelles de streaming en nuage, ils ont constaté qu’il pouvait calculer le retard entre les flux avec une précision inférieure à la milliseconde. Même lorsque la qualité du microphone était médiocre ou que des bruits de fond étaient captés, dans 86,6 % des cas, Ekho a limité le délai entre les flux à moins de 10 ms.
« La méthode traditionnelle, qui consiste à essayer de mesurer l’erreur de synchronisation en utilisant le réseau sous-jacent, produit des erreurs beaucoup plus importantes », explique Krishna Chintalapudi, l’un des coauteurs de l’article. « Lorsque nous avons commencé ce projet, nous n’étions pas sûrs qu’il soit possible de le faire. Mais la précision à laquelle nous parvenons avec Ekho, à des niveaux inférieurs à la milliseconde, est inouïe ».
Encouragés par leurs résultats, les chercheurs ont l’intention de voir comment Ekho réussit à synchroniser cinq contrôleurs sur le même écran. Pour l’instant, Ekho ayant été conçu pour le cloud gaming, sa portée est limitée. Les travaux futurs pourraient être axés sur l’amélioration de la portée du système afin qu’il puisse être utilisé sur de plus longues distances.
L’utilisation d’un bruit blanc inaudible comme une sorte de « chronomètre » est un excellent exemple de la façon dont une réflexion hors des sentiers battus peut produire des résultats inattendus », a déclaré Mohammad Alizadeh, un des coauteurs de l’étude. « Cette technique pourrait améliorer l’expérience de l’utilisateur, non seulement dans les jeux en nuage, mais aussi dans tout scénario de streaming multi-appareils.
https://www.statista.com/outlook/amo/media/games/cloud-gaming/worldwide#analyst-opinion
https://news.mit.edu/2023/system-ekho-cloud-gaming-sync-0831
https://conferences.sigcomm.org/sigcomm/2023/
https://www.microsoft.com/en-us/research/uploads/prod/2023/08/sigcomm23-final146.pdf