Tout comme pour la télévision, la haute définition apparaît comme une évolution naturelle de la visiconférence. Au delà de la dimension de l’affichage et de la meilleure définition des images et des sons, la haute-définition apporte des avantages indéniables par rapport à la visioconférence classique, intervient dans le confort de l’utilisateur en favorisant une meilleure qualité des échanges entre les intervenants. Elle va permettre le développement d’applications spécifiques où le rendu et la définition des images sont primordiales. C’est la cas par exemple des applications médicales et du diagnostics à distance.
Mais au delà de l’aspect qualitatif, cette évolution vers la haute définition implique un autre dimensionnement des équipements (puissance de calcul plus importante) et des réseaux (en termes de débit nécessaire) qui se traduisent au final par des coûts plus élevés.
La note technique intitulée « visioconférence : les technologies d’aujourd’hui » rédigée en janvier 2005 et publiée sur ce même site présentait les fondamentaux de la visioconférence sur RNIS et sur IP. Cette nouvelle note est un complément et fait le point sur les nouveaux développements liés à l’implémentation de la haute définition.
1-La visioconférence en haute définition.
La haute définition, c’est bien sûr et avant tout une meilleure définition des images. Cette formulation, souvent énoncée dans le domaine de la télévision, prend une importance toute particulière dans le cadre de la visioconférence notamment lorsque l’écran doit être partagé en plusieurs fenêtres (la fonctionnalité « présence continue », qui est proposée sur ces gammes d’équipements permet l’affichage simultané de tous les sites distants grâce à une division de l’écran en autant de fenêtres que d’interlocuteurs). C’est aussi le cas lorsque l’écran doit être partagé entre les images des participants et les applications informatiques.Avec la haute définition, cela se traduit par une visualisation beaucoup plus précise de chacune des images.
Les normes et les formats :
Pour la visioconférence « standard », différents formats d’image spécifiques avaient été développés. Le format CIF (Commun Interchange Format) a été le format de base des premières générations d’équipements. Résultat d’un compromis entre les normes NTSC à 30 images par seconde utilisées aux USA et les normes PAL à 25 images par seconde utilisées en Europe, il a été développé pour permettre à des équipements différents de communiquer entre eux. Il est défini par la norme H261 de l’UIT (1990). Par la suite, des déclinaisons de cette norme ont été standardisées, pour des images plus petites (QCIF égale au quart du format d’origine) ou plus grandes (4CIF, 16CIF). Les images étaient au format 4/3.
Avec la haute définition, la définition des images a été considérablement augmentée. Pour la télévision, deux grandes familles de normes ont été développées de part le monde, l’une s’appuyant sur un format composé de 1080 lignes sur 1920 pixels par ligne (soit un total de 2 millions de pixels par image, une définition 5 fois plus élevée que le TV standard), la seconde sur une image de 720 lignes et 1280 pixels par ligne (soit un peu plus de 900 000 points). Différents modes d’affichage sont également possibles, entrelacé ou progressif (on utilise les lettres i ou p pour indiquer le mode de balayage - ex 1080i, 720p)1. Toutes ces images sont désormais au format 16/9.
Pour les équipements de visioconférence en haute définition, c’est la norme 720p qui a été retenue. Avec une définition de 1280 x 720 pixels, c’est 9 fois plus de pixels que pour le format CIF. La norme 1080p (1920 x 1080 soit 2 073 600 pixels - soit 20 fois plus de pixels que pour le format CIF), non encore utilisée dans le monde pour la télévision du fait des débits beaucoup plus élevés qu’elle engendre, a par contre été adoptée sur certains équipements de téléprésence (voir la seconde partie de ce document).

La visioconférence HD repose sur des technologies similaires à celles de la télévision, du moins pour ce qui concerne le traitement numérique des images et des sons. Pour la télévision, le début de ce siècle a vu l’apparition de nouvelles technologies liées à MPEG-4 et plus précisément de la norme H264 (ou MPEG-4 AVC) pour la compression des images. Tous les fabricants d’équipements de visioconférence en haute définition ont, sans exception, adopté cette norme.
MPEG-4 AAC
Sous l’acronyme MPEG AAC se cache une série d’innovations qui est d’abord apparue avec les normes MPEG-2 audio avant d’être également intégrée et standardisée dans MPEG-4. La technologie AAC permet une reproduction multicanal et offre des performances accrues. Aujourd’hui, le codage MPEG-4 AAC permet la restitution d’un signal stéréo avec un débit compris entre 96 et 128 kb/s pour une qualité sensiblement comparable avec celle du CD audio. Pour la visioconférence, il offre une bien meilleure qualité de restitution à débit égal que les codecs G711, G722/G722.1-C, ou que MPEG Audio layer 3 (MP3).
La version standard de AAC comporte différents « profiles » (les profils) qui implémentent plus ou moins des outils spécifiques et qui correspondent donc à des niveaux de complexité différents. Le plus répandu est le Low Complexity Profile (LC).
La technologie AAC-LD (Low Delay) est une déclinaison de AAC-LC. Elle se caractérise par son faible délai de latence (20 ms) quel que soit le débit utilisé. Ce paramètre est important lorsque des communications bi-latérales interactives doivent être établies entre deux équipements distants (visiosconférence, téléphonie sur IP...). Pour comparaison, avec la technologie « classique « AAC , ce délai est de 140 ms à un débit 56 kb/s et de 50 ms au débit de 96 kb/s. Il est par contre inférieur à 10 ms avec les codecs classiques G711, G721, G722.
Le codec AAC-LD réunit donc les avantages des uns et des autres : il allie la qualité de la restitution audio du codage MPEG AAC et le faible délai de transmission des codecs spécifiques plus anciens.
Ce codec convient donc particulièrement bien pour tous les dispositifs de visioconférences. Il est d’ailleurs standardisé pour cet usage à travers les normes H320 et H323.
Une note technique consacrée aux technologies MPEG-audio est disponible sur ce site (lien vers ce texte).
Pour l’audio, on s’appuie également sur des codecs spécifiques et performants afin d’offrir une restitution de haute qualité. A l’opposé de la vidéo pour qui le codec H264 a fait l’unanimité, les choix pour l’audio se sont orientés dans deux directions différentes : d’une part vers des solutions normalisées, MPEG-4 et ses différentes déclinaisons (MPEG-4 AAC-LD pour les matériels Tandberg ou Aethra, MPEG-4 AAC LC pour les équipements Sony) et d’autre part, vers des standards propriétaires (Siren14 ou Siren22 pour les dispositifs proposés par la société Polycom).
C’est une évidence, une visioconférence ne pourra être réalisée en haute définition que si les équipements placés aux deux extrémités sont en haute définition. Mais ces matériels doivent pouvoir également fonctionner en liaison avec des matériels qui ne le sont pas. Pour rester compatibles avec des équipements plus anciens et fonctionnant en vidéo standard, ces matériels peuvent aussi intégrer toute la série des codecs traditionnels : H261, H263, H263+, H263++... pour la vidéo, G711, G722, G722.1, G728, G729.... pour l’audio.
Les débits :
L’amélioration des technologies de compression fait que les débits nécessaires, à qualité d’image égale, sont en baisse perpétuelle au fil des années. Pour la télévision haute définition, au début de l’année 2005, les débits nécessaires se situaient entre 9 et 12 Mb/s. Les démonstrations présentées à la fin de l’année 2006 montraient que la TVHD avec des débits compris entre 6 et 8 Mbits/s était une réalité. Cette décroissance se poursuit aujourd’hui. Mais, même si les technologies de compression sont identiques, le contexte de la télévision est bien différent de celui de la visioconférence. Il existe des différences significatives au niveau du contenu des images, ce qui induit des débits beaucoup moins élevés pour la visioconférence en haute définition. Hormis les mouvements propres aux intervenants mais relativement limités (la tête ou les bras), il y a peu de mouvements au niveau de l’image : les intervenants ne se déplacent pas ou peu et il existe de grandes plages statiques, les arrières plans sont fixes... Les codecs sont donc moins sollicités que pour des applications télévisuelles ce qui autorise des débits moins élevés. En s’appuyant sur la norme H264, les différents fabricants s’accordent à dire que la visioconférence en haute définition est aujourd’hui possible pour des débits à partir de 1 ou 2 Mb/s. Bien évidemment, plus le débit est élevé et meilleure est la qualité de la restitution. Sur les équipements commercialisés, les débits maximum annoncés (sur IP) sont compris entre 4Mb/s (Aethra) et 8 Mb/s (pour Sony).
Techniquement, le fonctionnement d’une visioconférence en haute définition est possible aussi bien sur des réseaux de types RNIS (le réseau de France Telecom) que sur des réseaux sur IP (les débits nécessaires sont compatibles avec ces deux technologies réseaux). Mais avec la généralisation de l’Internet à haut débit, la visioconférence sur IP a aujourd’hui pris l’ascendant sur la technologie sur RNIS et représenterait désormais 80% des séances de visioconférence. Tous les équipements proposés fonctionnent sous IP, certains sont également compatibles RNIS. Mais dans ce cas, les plages de débits indiquées sur les dépliants commerciaux ne dépassent pas 512 Kb/s ce qui ne laisse pas présager d’un fonctionnement en haute définition dans ce mode.
Ne pas oublier aussi que l’établissement d’une visioconférence entre deux points s’appuie sur des liaisons symétriques et que les débits mentionnés précédemment vont donc devoir s’établir dans les deux sens.
Une connectique pour la haute définition :
Outre les caméras qui doivent bien sûr satisfaire aux « canons » de la haute définition, les équipements devront être équipés d’une connectique adaptée permettant la diffusion de contenus informatiques ou audiovisuels en haute définition (par exemple pour des lecteurs aux formats Blu-ray DVD ou HD DVD...)
Les modes de connexions proposés sur les différents modèles sont variables d’un fournisseur à l’autre : les connecteurs « numériques » « propriétaires » pour les caméras Polycom (HDCI - High Definition Camera Interface), ou en HD-SDI pour Sony ou pour Aethra - côtoieront des connectiques plus traditionnelles pour les signaux en analogique (Composantes, S-Video...). Aucun des modèles commercialisés n’est équipé de connecteur HDMI, ce successeur « numérique » de la prise péritel, destiné aux équipements grand public, et qui est aujourd’hui disponible sur de nombreux écrans plats et sur les lecteurs de DVD en haute définition.
Pour l’audio, les connecteurs pourront être professionnels (XLR sur le modèle Sony par exemple) ou au contraire plus classiques (RCA) sur d’autres.
Pour l’informatique, les entrées / sorties (entrée pour micro ordinateur, sortie pour affichage vers écran ou vidéo projecteur) seront généralement en DVI-I .
Les offres :
Cinq marques (et 12 modèles) sont aujourd’hui proposés sur le marché français de la visionconférence en haute définition (voir tableau ci-joint en téléchargement).
LifeSize est une start-up sans antécédent dans le domaine de la visioconférence. Elle a créé et développé son propre système en haute définition tout en revendiquant l’interopérabilité et la compatibilité avec les équipements concurrents déjà déployés. Deux produits sont au catalogue : LifeSize Room pour les salles de réunion et LifeSize Team pour les environnements de travail plus restreints, bureaux ou petites salles. L’offre haute définition de Sony est articulée autour d’un boîtier Sony PCS-HG90 et de la caméra capteur tri-CCD de 1,12 Mégapixels (HD PCSA-CHG90). Polycom est l’un des leader mondiaux de la visioconférence. La société dispose de 3 offres haute définition référencées HDX9001, HDX 9002 et HDX9004. Elle vient d’annoncer le lancement d’un nouveau modèle pour les usages de bureau (HDX 4000) qui devrait être disponible au 4eme trimestre de cette année. Quatre modèles sont proposés dans le catalogue Tandberg, un ensemble individuel et compact pour le bureau (Centric 1700 MXP) et la gamme Edge autour de trois produits (95 MXP, 85 MXP et 75 MXP) pour les petites salles de réunion. Le modèle Vega X7 de Aethra est le dernier né. C’est l’une des nouveautés de l’année 2007.
D’une manière générale, les prix débutent aux environs de 8000 € HT pour les modèles de bureaux et entre 12 000 et 15000 euros HT pour les équipements destinés aux salles de réunion.
De nombreuses sociétés proposent des matériels complémentaires (pont, passerelles...). pour les équipements de visioconférence en qualité standard. Plus rares sont celles qui disposent d’équipements compatibles avec les dispositifs de visioconférence en haute définition. La société Codian est l’une d’entre elles. Elle propose dans son catalogue des ponts multisites, des solutions de firewall vidéo, des passerelles RNIS / IP ainsi que des produits pour l’enregistrement des visioconférences et leur diffusion en streaming.
2- La téléprésence
En complément aux offres de visioconférence évoquées précédemment, des équipements haut de gamme, en haute définition bien sûr, mais avec des images sensiblement « grandeur nature » qui apportent un « plus » au niveau du réalisme des séances de travail sont également proposés sur le marché. Par la dimension des écrans et la définition des images, par la qualité et les possibilités de restitution sonore, par le choix des mobiliers et des infrastructures... ces matériels visent à reproduire l’environnement et l’ambiance d’une salle de réunion en donnant l’impression que les interlocuteurs lointains sont réellement présents localement et réunis dans la même salle. On parle alors de téléprésence. Si des dispositifs pour une ou deux personnes sont disponibles, il en existe d’autres qui permettent la réunion de groupes entiers.
La téléprésence n’est pas une idée nouvelle. France Telecom R et D, en juillet 2002 présentait un dispositif expérimental de ce type avec un mur d’images de 4 mètres de long. Accessible en permanence, il permettait des échanges entre Issy les Moulineaux et Lannion. L’avènement de la haute définition lié à l’augmentation des performances des équipements de compression des images numériques et donc à la diminution des débits nécessaires lui donne une nouvelle jeunesse et une nouvelle opportunité.
Hormis les spécificités techniques, la mise en scène nécessaire pour parvenir à restituer cette ambiance nécessite des infrastructures particulières au niveau de l’aménagement de la salle.
Voir ses homologues distants « grandeur nature » :
Pour la visualisation des participants distants, des écrans de grandes dimensions en haute définition sont utilisés. Les murs d’images qui sont constitués peuvent atteindre plusieurs mètres de large dans certaines configurations (jusqu’à 4,90 mètres avec la solution Polycom). Ils sont réalisés par la juxtaposition de plusieurs écrans plats ou par des dispositifs de rétroprojection comportant plusieurs vidéo projecteurs. Dans le premier cas, compte tenu des bords, la séparation entre les différents écrans sera plus particulièrement marquée ce qui ne sera pas nécessairement vrai dans le deuxième cas, l’utilisation de plusieurs vidéo projecteur pouvant permettre de réaliser par superposition des transitions « en douceur » pour chacun des bords verticaux des images donnant de ce fait l’impression d’une fenêtre de grandes dimensions. Ces écrans peuvent ainsi permettre l’affichage en permanence de l’ensemble des personnes distantes qui participent à la visioconférence (Continuous Presence) même si elles sont réparties sur différents sites, par opposition aux dispositifs qui existent sur les équipements de visioconférence traditionnels et qui n’affichent à l’écran que l’intervenant qui a la parole.
« Eye contact » :
D’une manière générale, la communication entre deux personnes s’établit non seulement par la parole mais aussi par les mouvements des mains et par le regard. Si le premier point est satisfait d’office (la visualisation de la moitié supérieure du corps dans les équipements de téléprésence permettant de voir les mains) le second point nécessite un positionnement précis des caméras si on souhaite pouvoir donner l’impression que les interlocuteurs se regardent effectivement en parlant.
Instinctivement, dans le cadre d’une visioconférence, chacun des intervenant aura toujours tendance à regarder sur l’écran l’image vidéo de son homologue et non pas la camera qui le filme ce qui à distance donnera cette impression de regard oblique. Corriger cette imperfection n’est possible qu’en positionnant chacune des caméras au niveau des yeux et donc derrière l’écran. Ceci était d’ailleurs le cas pour le dispositif expérimental de France Telecom grâce à des systèmes de miroirs et d’écrans semi-transparents. « les yeux dans les yeux » :
Selon certains industriels, l’écart angulaire (l’angle entre les yeux et la caméra d’une part et entre les yeux et la position des yeux de l’intervenant distant sur l’écran d’autre part) ne doit pas dépasser 5 degrés. Dans le cas contraire, une des solutions est d’augmenter la distance entre le participant et l’écran (reculer les intervenants) ce qui aura pour effet de diminuer l’écart angulaire. Certains équipements commercialisés aujourd’hui reprennent des technologies similaires. Pour d’autres, des solutions plus approximatives sont adoptées : les caméras seront alors placées au plus près du bord des écrans, de préférence sur le dessus. Dans tous les cas, pour les visioconférences rassemblant de nombreux interlocuteurs, le réalisme du procédé dépendra du nombre de caméra et de la position des intervenants par rapport à celles ci. Cette disposition pourra permettre un rendu correct pour les personnes situées dans l’axe des caméras, mais il n’en sera pas nécessairement de même pour les intervenants latéraux. Certaines sociétés ont même perfectionné ce dispositif en l’adaptant aux visioconférences multisites. C’est le cas par exemple de la technologie Virtual Vectoring de Teliris qui permet aux interlocuteurs lointains et qui sont sur des sites différents d’être visualisés côte à côte sur les écrans vidéo tout en maintenant l’impression de ce contact visuel.
Le traitement des signaux :
Tout comme pour la visioconférence en haute définition, c’est la norme de compression vidéo H264 qui est utilisée dans tous les systèmes de téléprésence. Tandberg, a pour sa part développé une variante particulière baptisée RCDO (voir encadré).H264 RCDO : une variante de H264
Reduced-Complexity Decoding Operation (RCDO) est spécifié comme étant un mode séparé de H264 et il est distinct de tous les profils définis dans H264.
C’est une technologie proposée par Tandberg Telecom. Elle permet de réduire la complexité du décodeur de 25 à 30 % et celle de l’encodeur de 10 à 15 % pour une augmentation du débit inférieure à 5%.
Elle s’appuie sur une simplification de certains des paramètres de H264 (motion vector block size, fractionnal pixel interpolation, deblocking filter).
L’audio devra être également de très haute qualité. Les codecs utilisés dans les dispositifs en haute définition et évoqués dans la première partie de ce document (codecs à la norme MPEG-4 AAC ou codecs propriétaires) seront bien entendu également utilisés dans les équipements de téléprésence.
Hormis l’aspect qualitatif des images et des sons, d’autres facteurs sont également à prendre en considération pour parfaire le réalisme de la mise en scène. En premier lieu, ceux liés aux temps de traitement et de transfert des signaux. La latence peut être définie comme le temps mis pour que des données audio et vidéo effectue le trajet entre deux points. En vidéoconférence, l’interactivité a une importance majeure et ce temps devra être le plus court possible. Pour maintenir la spontanéité de la conversation entre deux interlocuteurs, il est nécessaire de réduire au maximum les délais de transit des données. Mesuré en millisecondes, ce délai doit être inférieur à 250ms (selon la société Teliris). Un second facteur d’importance est le maintien de la synchronisation entre les images et les sons, ou plus concrètement, en reprenant la terminologie « lip sync » utilisée dans les notices, entre les mouvements des lèvres de l’intervenant et les mots prononcés (pour exemple, la société Téliris annonce un écart de 10 ms au maximum pour ses matériels). Ces points sont d’importance pour toutes les équipements de visioconférence y compris ceux en vidéo standard, mais ils prennent ici une dimension particulière. Compte tenu du niveau de qualité élevé des images et des sons, tout retard ou toute altération dans la synchronisation entre les deux médias sera immédiatement perçu et deviendra rapidement gênant.
Pour tous ces systèmes, les volumes des données numériques échangés sont très importants. Les débits sont élevés et généralement compris entre 6 et 10 Mb/s par site mais pourront être parfois plus élevés (jusqu’à 20 Mb/s pour les équipements Halo de la société HP). Plus que les réseaux de transport, ce sont plus certainement les équipements de traitement des images (compression à la source, décompression sur les dispositifs terminaux) qui, compte tenu des débits élevés mis en jeu vont introduire les retards plus conséquents pour les images que pour les sons, provoquant de ce fait la désynchronisation entre les deux médias. Les réseaux doivent être également de haute qualité. Toutes les technologies, pourvu qu’elles soient performantes, sont possibles : sur IP pour certains fournisseurs, sur réseau dédié et propriétaire en fibre optique pour d’autres (Halo Video Exchange Network pour HP par exemple)...
Le troisième facteur qui a également son importance compte tenu de la nécessité de reproduire l’ambiance et l’illusion d’une véritable réunion concerne la restitution des perceptions auditives et plus précisément de la localisation des sons dans l’espace. Il est nécessaire de pouvoir reproduire à distance la direction d’origine des sons. Cela va reposer sur des technologies audio immersives spécifiques (avec par exemple un traitement particulier des échos) et la prise en compte de multiples microphones grâce aux possibilités multicanaux des codecs utilisés (4 canaux sont utilisés pour les dispositifs proposés par Cisco, 3 pour les matériels Tandberg). L’environnement lui même doit être particulièrement étudié (traitement acoustique) et bien adapté de façon à intégrer (voire à cacher) au mieux ces équipements et parfaire l’illusion. Cela concerne également le mobilier : certains modèles donnent l’impression que tous les interlocuteurs sont assis à la même table (les deux salles distantes doivent être de conception analogue et symétriques).
Hormis les spécificités décrites, on retrouve dans les équipements de téléprésence toutes les fonctionnalités proposées dans les équipements de visioconférence, qu’ils soient standards ou en haute définition, notamment pour ce qui concerne la présentation de contenus vidéo et le partage de documents informatiques... Tous ces documents annexes doivent pouvoir être diffusés avec la même précision, c’est à dire en haute définition. Cela est réalisé, soit sur un écran de grandes dimensions, visible par tous et situé à proximité des écrans de visualisation des intervenants, soit sur des écrans individuels placés en face de chacun des interlocuteurs (solutions Polycom).
Ces performances ont un coût : coût technologique car ces équipements nécessitent beaucoup de bande passante, coût financier également avec des prix qui oscillent entre 50 000€ et 300 000€ soit 10 à 40 fois plus cher que des systèmes de visioconférence standards. Ces prix très élevés réservent plutôt ces équipements aux directions générales des grands groupes, d’autant plus que le manque d’interopérabilité entre des matériels de marques différentes (certains équipements, HP et Cisco par exemple, s’appuient sur des technologies propriétaires) les condamnent à l’achat de deux systèmes identiques. Les différentes sociétés (voir tableau ci-joint en téléchargement) ne se contentent généralement pas de fournir l’équipement et les infrastructures de téléprésence. Elle peuvent également proposer des prestations complémentaires payantes, 24h sur 24, 7 jours sur 7 pour assurer à distance non seulement la maintenance, mais également la préparation puis la gestion et le contrôle des séances de visioconférence apportant de ce fait la garantie d’un bon déroulement des opérations. |