> Tech > Clustering et clustering de séquence

Clustering et clustering de séquence

Tech - Par Renaud ROSSET - Publié le 24 juin 2010
email

Une nouvelle fonctionnalité des algorithmes de clustering de Microsoft est leur capacité à trouver un nombre de clusters approprié pour votre modèle sur la base des propriétés des données d’apprentissage. Le nombre de clusters doit être suffisamment petit pour être gérable, mais un modèle de clusters doit avoir un pouvoir

Clustering et clustering de séquence

de prédiction relativement élevé. Vous pouvez demander à chacun des algorithmes de clustering de sélectionner un nombre de clusters basé sur un équilibre entre ces deux objectifs.

Le clustering de séquence (Sequence Clustering) de Microsoft est un nouvel algorithme pouvant être considéré comme un clustering sensible à l’ordre des éléments. Souvent, l’ordre des éléments dans un enregistrement n’a pas d’importance (par exemple, le panier de la ménagère), mais dans certaines circonstances il est crucial (par ex., des vols vers une certaine destination ou des lettres dans un code ADN). Dès que les données contiennent des séquences d’éléments, les fréquences globales de ceux-ci ne sont pas aussi importantes que l’ordre de début et de fin de chaque séquence, ainsi que toutes les transitions entre les deux. Notre exemple préféré pour illustrer les avantages du clustering de séquence est l’analyse de données de mode de navigation (littéralement « flux de clics »). La figure 7 présente un exemple de graphique de navigation d’un certain groupe de visiteurs sur un site Web. A chaque flèche vers un noeud de page Web est associée une étiquette indiquant la probabilité selon laquelle un visiteur passera à cette page Web à partir du point de départ de la flèche. Dans l’exemple de clusters, les pages de départ les plus probables du visiteur sont news (actualité) et home (page d’accueil) (notez la flèche arrivant sur le noeud news avec une probabilité de 0.40 et celle arrivant sur le noeud home avec une probabilité de 0.32). La probabilité selon laquelle un visiteur de la page news continuera de naviguer sur cette page au prochain clic est de 62 pour cent (notez la flèche avec une probabilité de 0.62 pointant du noeud news sur lui-même), mais les visiteurs commençant à partir de la page home passeront probablement à la page local, sport ou weather. Un graphique de transition, tel que celui de la figure 7, est le composant principal de chaque cluster de séquence et ce type de cluster peut contenir en plus tout ce que peut proposer un cluster normal.

Téléchargez cette ressource

Guide inmac wstore pour l’équipement IT de l’entreprise

Guide inmac wstore pour l’équipement IT de l’entreprise

Découvrez les dernières tendances et solutions IT autour des univers de Poste de travail, Affichage et Collaboration, Impression et Infrastructure, et notre nouveau dossier thématique sur l’éco-conception et les bonnes pratiques à adopter pour réduire votre impact environnemental.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

A lire aussi sur le site

Revue Smart DSI

La Revue du Décideur IT