Décrire un poste ou une mission englobe de multiples thèmes qui ne se limitent que rarement à une série d’opérations professionnelles. On y retrouve, entre autre, des références à des normes, à des technologies ou à des logiciels. Comparer des expériences et des postes nécessite donc de distinguer et de d’évaluer les différents thèmes abordés. L’analyse thématique vient remplir cette mission: identifier, agréger et analyser l’ensemble des thèmes abordés dans un paragraphe ou un document.
Analyse thématique & Sémantique distributionnelle
L'analyse thématique peut prendre le pas sur l'analyse sémantique dès lors que le contenu analysé s'allonge et que les thèmes abordés se multiplient et se diversifient.
L’analyse thématique relève les mots significatifs grâce à des méthodes statistiques (fréquence et répartition) et géométrique (proximité à des groupes). Une fois ces mots détectés, ils sont assemblés par proximité sémantique pour en faire des groupes qui seront considérés comme les thèmes abordés dans la description.
L’analyse thématique relève les mots significatifs puis les rassemble par proximité sémantique pour en faire des groupes qui seront considérés comme les thèmes abordés.
Une fois les thèmes construits, deux contenus peuvent être comparés pour constituer un score thématique représentant les couvertures thématiques réciproques qui seront calculées par proportionalité et similarité de part et d’autre.
Ce score d’analyse thématique permet de détecter des expressions types liées à l’environnement de travail et donc des opportunités issues d’un même environnement même s’il s’agit de compétences et de métiers différents. Si l’on reprend notre premier exemple : “Gestion des paies et notes de frais, établissement des fiches de paies, déclarations URSSAF”, l’analyse thématique identifie un thème principal constitué des mots “déclarations”, “paie” et “urssaf” et dont le mot “paie” a été identifié comme étiquette ou titre le plus représentatif.
Prenons un autre exemple plus artisanal « dessin de pièces en dentelle pour lingerie et robes pour le secteur du prêt-à-porter ou de la haute-couture », l’analyse thématique fait ressortir 5 thèmes « Robes », « Dentelle », « Dessin », « Pièces », « Secteur ». Le thème intitulé « Robes » comprend les mots « haute-couture », « lingerie », « prêt-à-porter » et « robes » ; c’est un groupe parmi 5 mais il a été doté d’un poids (« weight ») relatif de 63% ce qui lui donne la dominance du thème général.
Les poids sont déterminés de façon statistique où chaque mot a une importance relative différente : ici que le mot “dentelle” est doté du double d’importance par rapport aux mots “dessin”, “pièces” et “secteur”. On voit que ces 5 thèmes ont chacun des contenus et des poids différents, respectivement 63%, 15%, 9%, 7%, 6%. Ces poids vont servir à définir une importance attribuée à chaque thèmes, reflétée visuellement dans le schéma ci-dessous.
S’il s’agit d’un profil candidat, l’analyse thématique prendra l’ensemble des thèmes abordés par le candidat pour les comparer à l’ensemble des thèmes pour abordés par le recruteur. La comparaison se fera de façon géométrique au sein de l’espace vectoriel sémantique et non pas par reconnaissance de mots-clés. Les correspondances thématiques sont pondérées en tenant compte des importances ou poids respectifs. Cette analyse permet d’évaluer une correspondance sur l’environnement, les produits et les techniques de travail.