Qu’est-ce que le text mining ?
Définition
Le text mining (traduit par fouille ou exploration de texte en français) est un ensemble de méthodes informatiques et dotées d’intelligence artificielle qui consiste à extraire des connaissances et informations à partir d’ensembles volumineux de données textuelles non structurées ou semi-structurées.
Concrètement, il s’agit d’un processus qui va transformer de très grandes quantités de contenus exprimés en langage naturel en des éléments exploitables par une machine. L’idée est ensuite que la machine en question transforme les éléments mis en lumière en informations exploitables par l’entreprise.
Le text mining : un sous-domaine du data mining
La text mining est une discipline qui découle du data mining. Le data mining consiste à analyser des volumes de données massifs afin de découvrir des relations entre certaines data et identifier des modèles (patterns).
L’objectif du data mining est de percevoir des corrélations auparavant invisibles et dissimulées dans les ensembles de données afin de mieux comprendre des phénomènes. En visualisant comment deux faits apparemment distincts sont finalement liés, une entreprise est en mesure de mieux comprendre certains phénomènes et de les anticiper.
Le text mining se concentre sur l’utilisation de données textuelles et vise à mieux comprendre des tendances pour les prédire et les utiliser de manière stratégique.
Les différents types de données utilisées dans le text mining
Comme vu plus haut, la fouille de texte implique la manipulation de plusieurs formats différents de data.
Les données non structurées
Les données non structurées sont des data brutes, stockées dans leur état d’origine et qui n’ont pas été classifiées ni formatées en vue d’un traitement.
Dans le scope qui nous intéresse, ces data sont notamment des contenus rédigés mais qui ne sont pas codifiés et classifiés pour entrer dans une base de données (BDD). Par exemple, le texte de cet article, le corps d’un e-mail ou un commentaire sur les réseaux sociaux sont non structurés informatiquement parlant. Les données textuelles non structurées peuvent aussi se présenter sous les formats audio et vidéo.
Les données structurées
Il s’agit de data qui sont présentées dans un format que les machines et ordinateurs peuvent comprendre, analyser et stocker. Concrètement, cela signifie que les données sont contrôlées par des référentiels et sont classifiées selon des champs (comme dans une base de données) qui permettent de les interpréter et de les traiter.
Les données semi-structurées
Les data dites semi-structurées n’ont pas été organisées selon des référentiels spécifiques mais elles présentent tout de même des éléments (comme des métadonnées) permettant de les traiter plus facilement que des données brutes non structurées. Elles ne sont pas intelligibles par les ordinateurs telles quelles mais présentent une certaine forme d’organisation qui va permettre de les examiner et de les utiliser.
Par exemple, un texte rédigé via un logiciel bureautique peut être enrichi avec des métadonnées de mots clés en vue de mieux le contextualiser et le répertorier.
Les avantages du text mining
Les entreprises sont aujourd’hui confrontées à des quantités astronomiques de données dans leur quotidien, qu’il s’agisse de data qu’elles produisent ou qui sont externes. Selon une étude de Forbes, le volume de data consommées dans le monde est passé de 1,2 billion (mille milliards) de giga-octets en 2010 à 59 billions de giga-octets en 2022. Soit une hausse de près de 5 000 %.
En plus d’être toujours plus nombreuses et volumineuses, ces données sont également issues de plus en plus de sources différentes. Les organisations utilisent aujourd’hui des données internes et traditionnelles issues de la comptabilité, du CRM, des dossiers RH ou encore des résultats commerciaux mais aussi des données externes qui sont originaires des réseaux sociaux, des avis clients ou des IoT.
Les données internes ont également évolué et ne se concentrent plus uniquement que les informations propres à chaque service de l’entreprise. Les firmes collectent et consomment des data relatives au trafic généré par leur site Internet, à l’assurance qualité (QA) ou encore des données issues des outils d’optimisation de l’expérience de la clientèle par exemple. La particularité de ces « nouvelles » informations, est leur flux de production quasi continuel. Les data sont générées 24 heures sur 24 et 7 jours sur 7 sans interruption.
Si cette augmentation du volume d’éléments collectés permet de mener des analyses très précises et de travailler plus en profondeur sa stratégie, encore faut-il être en mesure de réaliser ces analyses techniquement parlant. Traiter un tel volume de data textuelles manuellement est désormais impossible. Même pour une grande entreprise qui dispose de nombreux analystes et data scientists.
Mais comment faire face à une telle quantité d’information et identifier des tendances pour nourrir sa stratégie ?
L’exploration de texte, avec sa capacité avancée à assimiler, résumer et extraire des informations à partir de grands volumes de données non structurées, est un outil idéal pour réaliser cette tâche.
Voici quelques explications sur le fonctionnement du data mining appliqué au traitement de texte.
Les technologies impliquées dans la fouille de données
Le text mining fait appel à plusieurs méthodes et technologies pour fonctionner et explorer, extraire des data non structurées et semi-structurées et les transformer en informations exploitables.
En effet, ce processus technologique implique plusieurs actions telles que :
- La sélection
- Le tri
- L’organisation
- L’analyse
- Le traitement
- La retranscription
- La présentation
Voici quelques-unes des techniques utilisées dans l’exploration de texte.
1- Le traitement du langage naturel
Le traitement du langage naturel, également connu sous le sigle NLP pour Naturel Language Processing est une technologie liée à l’intelligence artificielle (IA) qui vise à apprendre aux machines la compréhension et la retranscription du langage naturel (parlé ou écrit) comme le ferait un humain. Le NLP englobe plusieurs sous-disciplines dont la compréhension du langage naturel (NLU) et la génération de texte (NLG).
Le NLP, pour pouvoir atteindre ces objectifs, fait appel à des procédés d’apprentissage automatisé (machine learning) et des connaissances et expertises liées au domaine de la linguistique et de la sémantique.
L’objectif est d’apporter la capacité à un ordinateur de comprendre, interpréter et utiliser les informations contenues dans des textes rédigées par des clients ou des feedbacks vocaux par exemple. Couplé à l’analyse des sentiments, le NLP, le NLU et le NLG peuvent déceler des renseignements implicites grâce à une analyse du ton de la voix, du rythme de parole ou encore des mots spécifiques utilisés et les retranscrire intelligiblement.
2- La recherche informationnelle
La recherche informationnelle consiste à identifier et collecter des bribes pertinentes d’une grande quantité de données non structurées.
L’utilisation d’un moteur de recherche tel que Google ou Bing est une forme de recherche informationnelle. En tapant une expression dans la barre de recherche, on fait appel à un algorithme qui va rechercher les informations les plus pertinentes qui se rapportent à la requête. Cette recherche ne se fait pas à travers une base de données structurée mais au sein d’une multitude de sites Internet, chacun codés et alimentés spécifiquement.
3- L’extraction informationnelle
L’extraction informationnelle est la partie du procédé de text mining qui consiste à séparer et trier les données non structurées. Il identifie des éléments spécifiques, des attributs, leurs relations et stocke les informations dans une base de données facilement accessible. Ici, les données commencent à être structurées.
4- L’exploration de données
L’exploration de données (data mining) est, comme vu précédemment, le processus de recherche de tendances, de modèles, de liens, de relations, de conséquence entre plusieurs données qui se trouvent dans un ensemble massif de data.
Les différentes applications du text mining
Maintenant que vous savez ce qu’est la fouille de texte, quelles sont les étapes qui rentrent dans ce processus d’exploration et quels avantages vous pouvez en tirer en tant qu’entreprise, il est temps de savoir sur quels leviers stratégiques cette technologie peut vous aider.
Voici quelques exemples d’application du text mining.
Optimiser l’expérience client
L’exploration de texte permet à une entreprise de surveiller comment et quand les consommateurs parlent de ses produits et de sa marque.
Grâce à l’analyse des sentiments et au traitement du langage naturel, l’entreprise peut détecter les émotions positives ou négatives, l’intention et la force des sentiments exprimés par les clients et prospects dans différents types de données vocales et textuelles. Ces collectes de feedback peuvent concerner des réponses à des questions ouvertes de sondages, des commentaires issus des médias et réseaux sociaux mais aussi des avis déposés sur des sites externes comme Trust Pilot ou Avis Vérifiés.
En repérant ces émotions et ressentis, en les classant et en les présentant de manière intelligible aux utilisateurs métiers, l’entreprise peut ensuite établir un plan d’action priorisé. Elle est également capable de mesurer l’impact de chaque action et tactique mise en place dans une démarche d’amélioration continue de l’expérience client et de la relation client.
Par exemple, si une entreprise observe une corrélation entre les désabonnements et les plaintes liées au prix d’un service, l’entreprise peut envoyer une promotion à un moment spécifique de la relation pour aider à prévenir le désabonnement des clients.
Améliorer le service client via le text mining
L’exploration de texte joue un rôle central dans la création d’outils et de solutions automatisées de service client comme les chatbots par exemple.
En apportant continuellement des data à l’algorithme, notamment des données textuelles issues des conversations passées entre l’outil et les consommateurs, le chatbot développe son apprentissage du langage naturel. Cette exploration aide donc à créer un outil capable de mieux comprendre les ressentis et expressions des individus mais aussi de répondre de manière adéquate et personnalisée.
Réaliser des études de marché et des benchmarks grâce à la fouille de données
En analysant les feedbacks collectés sur les médias sociaux, les sites d’avis, les messages de chat ou les forums, l’exploration de texte peut aider à brosser un tableau de la façon dont une marque est perçue par rapport à ses concurrents.
Le text mining extrait ici des informations et les rapproche les unes des autres pour avoir un aperçu de ses performances par rapport à la concurrence sur plusieurs éléments significatifs, les forces et faiblesses de chacun.
Optimiser le design des produits avec l’exploration de texte
Les équipes produit peuvent obtenir un résumé en un coup d’œil de ce que les clients pensent d’un produit existant afin de travailler sur les attributs qui constituent actuellement des points faibles de l’offre et ainsi les améliorer.
Vous pouvez également utiliser la technologie de fouille de texte pour identifier des lacunes propres au marché visé, une opportunité ou une demande à combler.
Ici, le text mining permet de rationaliser les processus de conception et de production afin de lancer sur le marché une offre qui va vraiment plaire aux consommateurs.
Prévenir la fraude
L’exploration de texte est utile dans le domaine de la finance et de l’assurance. En repérant des modèles et des répétitions d’actions spécifiques lorsqu’il y a fraude, l’outil de fouille est capable de signaler les comptes à risque.
Les collaborateurs peuvent ainsi mener une surveillance accrue des comptes potentiellement frauduleux et adopter la bonne approche pour éviter les malversations.
Diffuser les meilleurs contenus avec le text mining
Les plateformes de publication de contenu et de médias sociaux peuvent utiliser l’exploration de texte pour analyser les contenus générés par les utilisateurs, telles que les détails du profil, les mises à jour de statut, les partages de post les likes et commentaires. Le service de content management peut alors diffuser automatiquement un contenu pertinent et qui intéresse ainsi que des publicités ciblées à ses utilisateurs.
XM Discover : l’exploration de texte chez Qualtrics
XM Discover est un puissant outil puissant qui intègre l’exploration de texte pour vous dire ce que vos clients pensent précisément de votre entreprise, de votre marque de vos produits et de vos services.
Notre outil surveille plusieurs canaux simultanément pour vous donner une vue d’ensemble de ce que vos cibles attendent le plus de vous, comment elles se sentent vis-à-vis de votre marque et pour quelles raisons. XM Discover est également capable de reconnaître des signaux avant-coureurs d’une attrition et de créer une alerte pour que vous puissiez agir rapidement afin de mieux fidéliser.
XM Discover fait partie de la plateforme Qualtrics globale. Cela qui signifie que les renseignements que vous collectez peuvent être ajoutées à d’autres sources de données complémentaires. Vous profitez ainsi d’une compréhension plus riche et plus exhaustive de ce qui se passe dans et autour de votre entreprise. Cela vous permet de faire des prédictions et d’agir en toute confiance pour améliorer les expériences dans l’entreprise.
Commencez avec notre logiciel d'enquête gratuit