Les promesses du nouveau capteur Kinect pour Windows

En novembre dernier, Microsoft lançait la pré-version de la nouvelle Kinect pour Windows, via un programme appelé « Developper DevKit ».

Environ 2 000 participants à travers le monde, ainsi que les 15 MVP (Microsoft Most Valuable Professional) Kinect ont ainsi eu accès, en avant-première, à une version Alpha du capteur et à son kit de développement. L’objectif de cette démarche, en mettant à disposition des développeurs le SDK en évolution constante, est bien d’éprouver cette nouvelle mouture du capteur qui sera prochainement, à n’en pas douter, au cœur de nombreux concepts et usages innovants.

Rencontre du deuxième type

Si le capteur V2 dispose d’une taille à peu près identique à celle de son prédécesseur, force est de constater qu’il a été profondément restylé : plus carré, avec une barre de micro dissociée en partie basse, il abandonne son pied motorisé. Dans la version « DevKit », il s’orne par ailleurs d’une décoration spécifique de type « Dazzle camouflage ». Mais, cette nouvelle version intègre bien plus qu’une simple mise à jour esthétique. Le coeur du produit est, en effet, modifié puisque la captation de profondeur, coeur du dispositif Kinect, repose dorénavant sur la technologie « TOF – Time of flight », c’est-à-dire l’analyse du temps de rebond d’un photon. Ainsi, si la technologie rencontre une profonde mutation, les objectifs restent inchangés : Etre en mesure d’appréhender une scène en 3 dimensions, de repérer les personnes y évoluant et d’interagir en fonction de mouvements, gestes, postures ou instructions vocales.

Dès les premières manipulations, on constate une sensibilité accrue du capteur. La qualité de l’image est bien meilleure, l’angle de captation, vertical ou horizontal, beaucoup plus large (ce qui explique le retrait du pied motorisé devenu inutile) et la reconnaissance des gestes devient beaucoup plus précise. Il faut dire que le capteur dispose désormais d’une caméra vidéo en Full-HD 1080p.

Concernant les sources de données, le capteur fournit dorénavant :

• un flux couleur (disponible en plusieurs formats : RGBA, BGRA, YUY2, …) de la scène filmée

• un flux infrarouge permettant une détection dans un noir absolu, mais également capable d’assurer une qualité de signal optimale, même en présence de sources lumineuses ponctuelles ou parasites

• un flux de profondeur permettant pour chaque pixel de la scène filmée, de connaître sa distance en millimètres par rapport au capteur

• un flux « BodyIndex » permettant de déterminer pour chaque pixel de la scène filmée, s’il correspond à une silhouette suivie. Chaque silhouette (« Body ») dispose en effet d’un numéro d’index unique (De 0 à 5). Si le pixel référence l’une de ces silhouettes, le numéro d’index est inscrit. Sinon, les pixels sont crédités d’une valeur -1.

• un flux « Body » permettant de suivre jusqu’à 6 silhouettes, et pour chacun d’entre eux, de disposer des coordonnées précises (dans les 3 dimensions) d’un certain nombre de points singuliers : main, coude, épaule, tête, etc.

• un flux « Audio » (non encore disponible dans cette version du DevKit) qui permet de gérer la reconnaissance vocale et le suivi audio des différentes silhouettes. Dans cette V2, la source de données « Body » s’enrichit de manière significative, d’une part par la prise en charge de nouveaux points singuliers sur les silhouettes (cou, pouce, « pointe de la main »), mais également par l’intégration de reconnaissance de gestes précis de la main (main ouverte, main fermée, « lasso »).

Non intégrées à ce stade dans l’API, des fonctionnalités complémentaires seront encore prochainement ajoutées, telles que le suivi d’activités (yeux ouverts, bouche ouverte…), d’apparence (port de lunettes), d’expressions (heureux, neutre…) ou d’engagement (regard vers l’écran). Une fonctionnalité dite de « Lean direction » permettra aussi d’interpréter l’inclinaison du corps de l’utilisateur sur les côtés ou d’avant en arrière pour, par exemple, utiliser le corps comme joystick (Une nouvelle illustration du slogan historique de Kinect « la manette, c’est vous ! »).

Le kit de développement est à nouveau disponible pour des réalisations en environnement .NET et COM. A noter que si l’API n’est à ce jour pas compatible avec WinRT, son remaniement en est très fortement inspiré en termes d’organisation.
Les développeurs ayant d’ores et déjà expérimenté la Kinect V1, noteront une simplification certaine dans la façon d’appréhender le capteur. Ainsi à titre d’illustration, il devient inutile de sélectionner les fréquences et résolutions des différents flux.

Celles-ci ayant été optimisées, elles sont sélectionnées par défaut (1920×1080 pour le flux vidéo. 512×424 pour le flux de profondeur ou infrarouge. Et pour une fréquence de 30Hz pour tous). De la même manière, la sélection du mode de proximité (« near mode ») ou du mode assis (« Seated mode ») devient inutile. Si les deux approches sont toujours supportées, elles sont directement intégrées dans le mode de fonctionnement standard, sans distinction particulière, le champ d’interaction du capteur couvrant dorénavant une distance de 0.5 à 4.50 mètres.

Ouverture vers de nouveaux usages

L’ensemble de ces évolutions vont d’abord permettre d’imaginer de nouveaux scénarios d’usages, mais aussi de pousser plus loin des scénarios qui trouvaient leurs limites avec la première version du capteur.

Ainsi, la résolution optimisée va favoriser l’analyse plus fine de l’image et permettre par exemple de lire plus aisément des flashcodes portés ou montrés par les utilisateurs. Autre piste : les perspectives d’associer pleinement Kinect avec les outils de communication Microsoft, comme Skype ou Lync, et d’inciter les entreprises à utiliser le capteur dans le cadre de scénarios avancés de collaboration à distance. La capacité de Kinect à distinguer une voix d’un fond sonore et de différencier deux personnes qui parlent en même temps constituera forcément un atout dans ce type d’usages.

En complément, la reconnaissance affinée des gestes, et notamment ceux de la main, devrait permettre d’imaginer de nouvelles interactions plus précises avec l’utilisateur. Déplacer, attraper, zoomer vont ainsi devenir des actions plus naturelles et devraient contribuer à rapprocher les niveaux d’interaction offerts par les technologies tactiles et kinétiques. Pour cette dernière, le « vocabulaire » reste encore à inventer et surtout à standardiser pour s’assurer une pleine appropriation par le grand public.

Enfin, le saut technologique entre ces deux versions du capteur devrait répondre aux problématiques de sensibilité à la lumière, constatée sur la première version du capteur, qui ont pu nuire à certains déploiements (Usage en extérieur ou sous de fortes luminosités).

Des usages inexplorés dans de nouveaux secteurs

Après l’adoption plutôt réussie de la première Kinect pour Windows dans les métiers du Retail, de l’éducation ou de la santé, d’autres secteurs devraient maintenant tirer aussi parti du nouveau capteur et se féliciter de sa plus grande finesse de détection. C’est notamment le cas pour les Arts et Spectacles via la mise au point de chorégraphies ou la réalisation de mapping d’architectures 3D. De même, la NASA dévoilait récemment son projet de contrôle d’un bras mécanique en couplant la technologie Kinect et le nouveau SDK avec l’Oculus Rift. Une avancée qui pourrait bien faciliter l’exploration de milieux sensibles ou dangereux en restant à l’abri. Enfin, on peut supposer que les établissements hospitaliers, qui utilisent déjà la Kinect 1 pour les protocoles de rééducation physiques, migreront vers la Kinect 2 pour tirer parti de toutes ses évolutions.