analyse en composantes principales
STATISTIQUES
L’Ă©tude d’une population statistique de taille n passe le plus souvent par le recueil d’un nombre Ă©levĂ© p de donnĂ©es quantitatives par Ă©lĂ©ment observĂ©. L’analyse de ces donnĂ©es doit tenir compte de leur caractère multidimensionnel et rĂ©vĂ©ler les liaisons existantes entre leurs composantes.
L’analyse en composantes principales (ACP), introduite en 1901 par K. Pearson et dĂ©veloppĂ©e par H. Hotelling en 1933, est une mĂ©thode très puissante pour explorer la structure de telles donnĂ©es. Chaque donnĂ©e Ă©tant reprĂ©sentĂ©e dans un espace Ă p dimensions, l’ensemble des donnĂ©es forme un « nuage de n points » dans Rp. Le principe de l’ACP est d’obtenir une reprĂ©sentation approchĂ©e du nuage dans un sous-espace de dimension faible k par projection sur des axes bien choisis. Une mĂ©trique dans Rp Ă©tant choisie (en gĂ©nĂ©ral normalisĂ©e par l’utilisation de variables centrĂ©es rĂ©duites), les k axes principaux sont ceux qui maximisent l’ »inertie » du nuage projetĂ©, c’est-Ă -dire la moyenne pondĂ©rĂ©e des carrĂ©s des distances des points projetĂ©s Ă leur centre de gravitĂ© . Les composantes principales sont les n vecteurs ayant pour coordonnĂ©es celles des projections orthogonales des n Ă©lĂ©ments du nuage sur les k axes principaux.
L’ACP construit ainsi de nouvelles variables, artificielles, et des reprĂ©sentations graphiques permettant de visualiser les relations entre variables, ainsi que l’existence Ă©ventuelle de groupes d’Ă©lĂ©ments et de groupes de variables.
L’interprĂ©tation de ces reprĂ©sentations est dĂ©licate et doit respecter une dĂ©marche rigoureuse.