Passer au contenu principal
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Format du fichier Lexicon


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


À propos du format de fichier Lexicon

Lors de la préparation d’un fichier de lexique, il est essentiel que la syntaxe de chaque ligne soit correcte afin que le moteur NLP traite correctement vos nouvelles entrées de dictionnaire. Cette section décrit l’objectif et la syntaxe spécifique de chaque partie du fichier de lexique.

  • Tous les fichiers de lexiques doivent être enregistrés dans un format de fichier DCT. Il s’agit d’un fichier dictionnaire.
  • La première ligne d’un fichier DCT doit indiquer le type de lexique. Voir Types de lexique pour plus d’informations.
  • Toutes les colonnes d’un fichier DCT doivent être délimitées par des tabulations.
    Astuce : l ‘expression “délimité par des tabulations” signifie que les colonnes doivent être séparées par la touche Tab, et non par la barre d’espacement. Un moyen simple de préserver le formatage délimité par des tabulations consiste à préparer votre fichier de lexique dans un éditeur de texte (comme Notepad++ sous Windows ou TextEdit sous Mac) et à enregistrer le fichier en tant que type de fichier DCT. Vous pouvez également le faire dans un éditeur de texte en appuyant sur la touche Tab entre chaque colonne.
Astuce : Les exemples de cette page sont représentés par des tableaux. N’oubliez pas que chaque colonne doit être séparée par une tabulation dans le fichier réel.

Colonne 1 : Variation du modèle

La première colonne du fichier de lexique contient les variations, ou synonymes, que vous souhaitez mettre en correspondance avec les formes normales (ou chiclets, voir Colonne 3 : Forme normale).

Chaque ligne de votre fichier de lexique doit contenir exactement une variation. Les variations supplémentaires doivent être placées sur des lignes supplémentaires. Si un mot n’a pas de variantes, il n’est pas nécessaire de le définir dans votre lexique, même si cela ne serait pas préjudiciable.

Une variation peut inclure une faute d’orthographe courante, une abréviation, un acronyme ou un nom alternatif potentiel. Les valeurs de cette colonne doivent toujours être en minuscules, sauf pour les entrées sensibles à la casse et la casse du titre (voir Colonne 2 : Code du synonyme).

Pour toute entité comportant plus de deux mots, vous devrez la définir dans le dictionnaire sous sa forme standard. Cette étape n’est pas nécessaire pour les entrées de lexique à mot unique car le moteur NLP tokenise déjà tous les mots uniques qui sont traités. Toutefois, si un mot unique prend un sens nouveau lorsqu’il est mis en majuscule, il convient de l’initialiser sur sa propre ligne. Voir les exemples ci-dessous.

Exemple :

harley davidson CSYN harley davidson {SpeechPart=”Noun”}
harley CSYN harley davidson {SpeechPart=”Noun”}

Exemple : Si l’entrée d’un mot unique est sensible à la casse, il convient d’inclure une entrée initiale établissant la correspondance entre la variation et la forme normale, comme dans cet exemple qui fait référence à l’aéroport international de Los Angeles (LAX). La technologie de l’information prend ici une majuscule pour la désambiguïser de l’adjectif “laxiste”

LAX SYN Aéroport international de Los Angeles {SpeechPart=”Noun”}

Caractères spéciaux

La première colonne peut contenir des caractères spéciaux tels que des traits d’union, des apostrophes ou des dièses. Aucun caractère d’échappement spécial n’est nécessaire lorsque vous utilisez des caractères spéciaux dans votre lexique. Cela s’applique également aux lettres comportant des signes diacritiques tels que les accents, les tildes, les accents circonflexes, etc.

Cependant, il faut tenir compte du fait que lorsque le moteur NLP analyse les caractères spéciaux, il les considère comme des mots distincts :

  • La phrase “~deux jours” est analysée comme trois mots : “~”, “deux” et “jours” Si vous créez une entrée de lexique pour “~deux jours”, elle ne correspondra pas à vos informations. Le lexique devrait plutôt indiquer “~ deux jours” (notez l’espace entre “~” et “deux”).
  • La phrase “Total Recall” (avec les guillemets) est analysée comme 4 mots. Pour rendre compte de cette expression, l’entrée du lexique devrait comporter des espaces entre le guillemet et le mot adjacent et se lire comme suit : “Total Recall”.

Périodes

Lorsque les acronymes contiennent des points entre chaque lettre, l’espace supplémentaire n’est pas nécessaire. Par exemple, pour l’acronyme “b.o.a.”, aucun espace supplémentaire n’est nécessaire. Cependant, pour les lexiques qui se terminent par une seule lettre, comme “John D.”, l’espace est nécessaire, ce qui donne “John D .”

Astuce : en cas de doute sur l’utilisation de l’espace supplémentaire, créez deux entrées : l’une avec l’espace supplémentaire et l’autre sans.

Hashtags et @ Mentions

Lors de l’ajout d’une nouvelle entrée, les formes hashtaguée (#) ou mentionnée (@) d’un mot ne sont pas automatiquement incluses. Si vous souhaitez que ces éléments fassent partie de votre entrée dans le lexique, veuillez faire des rangées séparées.

Exemple : #qualtrics et @qualtrics nécessiteront des lignes distinctes pour correspondre à “qualtrics” Notez que vous n’avez pas besoin d’espace entre # ou @ et votre terme dans ces cas.

qualtrics CSYN qualtrics {SpeechPart=”Noun”}
#Qualtrics CSYN qualtrics {SpeechPart=”Noun”}
@qualtrics CSYN qualtrics {SpeechPart=”Noun”}

Diacritiques

Si votre variante comporte un signe diacritique, le dictionnaire ne reconnaîtra que cette variante spécifique. Toutefois, si votre variante ne comporte pas de marque diacritique, le dictionnaire reconnaîtra à la fois la forme non marquée et la forme marquée. Dans de nombreux cas, il est préférable d’utiliser la forme non marquée comme variante, car elle permet de capturer des mots lorsque les utilisateurs sont trop paresseux pour utiliser le caractère diacritique. Toutefois, il convient d’être prudent, car il existe de nombreux exemples de mots qui changent complètement de sens lorsqu’un signe diacritique est ajouté.

Exemple : L’entrée suivante permet de saisir te et té. Ces mots ont cependant des significations différentes en espagnol ! Te = vous, té = thé.

te CSYN {SpeechPart=”Noun”}

L’entrée ci-dessous, cependant, ne capturera que le té et non le te.

CSYN {SpeechPart=”Noun”}

Astérisques

Lorsque vous travaillez avec des données qui ont été expurgées avec des astérisques, ajoutez des espaces entre les astérisques dans votre entrée de lexique.

* * * * * * CSYN [Caviardé] {SpeechPart=”Noun”}

Colonne 2 : Code du synonyme

La deuxième colonne du fichier de lexique contient le code synonyme qui indique au moteur NLP comment lire la variation écrite dans la première colonne.

Il existe plusieurs codes acceptés :

  • SYN : Il s’agit d’un synonyme. Le code SYN indique au moteur NLP que la variation de la première colonne doit être interprétée exactement comme elle est écrite. La capitalisation est prise en compte. Ce code est utile pour créer des lexiques basés sur des acronymes dans lesquels l’acronyme prend une nouvelle signification lorsqu’il n’est pas en majuscule, comme l’abréviation de l’aéroport LAX et le mot lax.
  • CSYN : Dans certaines circonstances, il s’agit d’un synonyme insensible à la casse. Le code CSYN, lorsqu’il est utilisé avec un mot commençant par une lettre minuscule, indique au moteur NLP que la variation de la première colonne doit être interprétée sans tenir compte de la majuscule. Utilisez ce code lorsque vous souhaitez uniquement capturer la forme spécifique du mot listé dans la variation, et lorsque la variation n’est pas un terme standard du dictionnaire.
  • CSYN : Dans certaines circonstances, il s’agit d’un synonyme de titre-cas. Le code CSYN, lorsqu’il est utilisé avec un mot commençant par une majuscule, indique au moteur NLP que la variation de la première colonne doit être interprétée sans tenir compte de la majuscule, à condition que la première lettre du premier mot commence par une majuscule. Utilisez ce code lorsque vous souhaitez capturer un nom propre qui peut être ambigu s’il n’est pas mis en majuscule, comme l’entreprise “Best Buy” ou les produits de la marque “Great Value” de Walmart. L’utilisation de CSYN Title Case devrait être rare. Les lexiques doivent être conçus pour être aussi tolérants que possible à l’égard des majuscules non standard. Cependant, dans certains cas, cette syntaxe sera utile.
  • MSYN : Il s’agit d’un synonyme insensible à la morphologie. Le code MSYN indique au moteur de NLP d’étendre l’entrée du lexique pour inclure les formes morphologiques associées (par exemple, “jump” inclut “jumps”, “jumping” et “jumped”) XM Discover inclut toutes les variations morphologiques, quelle que soit la partie du discours spécifiée. Il n’est pas nécessaire d’ajouter des lignes supplémentaires dans le fichier de lexique pour traiter ces différentes formes de verbe. Les suffixes “-er” et “-est” ne font pas partie de la même forme normale et ne sont pas inclus dans une expansion MSYN.
    Astuce : Le code MSYN ne fonctionne que pour les termes du dictionnaire standard. Les dictionnaires XM Discover peuvent ne pas connaître les formes morphologiques correctes pour les noms propres tels que Qualtrics. Notez également que lors de l’utilisation de MSYN, toutes les variations seront prises en compte sans tenir compte de la casse. Utilisez le code MSYN lorsque votre lexique comprend des termes de dictionnaire pour lesquels vous souhaitez inclure des suffixes alternatifs. Grâce à cette méthode, votre liste de lexiques sera plus courte et tiendra mieux compte des variations linguistiques.

Colonne 3 : Forme normale

La troisième colonne du fichier de lexique peut éventuellement contenir la “forme normale” du mot.

La forme normale, ou jeton maître, est la version qui apparaîtra dans le Designer. Ce mot ou cette phrase doit être la version standard des variations que vous avez définies dans la première colonne. La forme normale doit être répétée sur les lignes suivantes de votre fichier de lexique pour chaque variation correspondante dans la première colonne.

Le moteur NLP met automatiquement une majuscule à la forme normale lors du traitement du dictionnaire lexical. La technologie de l’information n’est donc pas sensible à la casse. Si cette colonne est omise, la variation de la première colonne sera considérée comme la forme normale.

Comme la première colonne, la troisième colonne peut contenir des caractères spéciaux tels que des traits d’union, des apostrophes ou des dièses. Aucun caractère d’échappement spécial n’est nécessaire lorsque vous utilisez des caractères spéciaux dans votre lexique. Cela s’applique également aux lettres comportant des signes diacritiques tels que les accents, les tildes, les accents circonflexes, etc.

Colonne 4 : Tags

La quatrième colonne du fichier de lexique vous permet de définir les attributs grammaticaux de votre entrée de lexique spécifique.

Dans la plupart des cas, il suffit d’indiquer la SpeechPart dans la colonne 4. Toutefois, dans certains cas, vous voudrez peut-être également spécifier le degré, le temps, etc. Ce point est particulièrement vrai pour les lexiques non anglais qui exigent la concordance entre les mots en termes de cas, de genre, de nombre, etc. Vous pouvez choisir d’ajouter SemanticType le cas échéant. Ces métadonnées pourront être utilisées à l’avenir pour les entités intelligentes.

Un ou plusieurs attributs peuvent être définis pour chaque entrée de lexique. Tous les attributs doivent être encapsulés dans des {courbes}. Chaque valeur d’attribut doit être placée entre guillemets. Les attributs multiples sont séparés par une virgule et un espace.

acier inoxydable MSYN acier inoxydable {SpeechPart=”Noun”, Sentiment=”0″}

&nbsp ;

Les balises possibles et leurs valeurs sont :

  • Cas (un des cas suivants) :
    • Non défini (par défaut)
    • Nominatif
    • Objectif
    • Communs
    • Possessif
  • ControlFlags: Combinaison des valeurs suivantes (liste séparée par des points-virgules) :
    • Vide (par défaut)
    • SujetAnimé
    • SujetInanimé
    • ObjetAnimé
    • ObjetInanimé
    • IndirectObjectAnimate
    • Objet indirect inanimé
    • Infinitif
    • Adjectif ou nom
    • Adjectif
    • PrepNoun
    • PrepAdj
    • ObjectSentence
    • SujetPrésence
    • SujetInfinitif
    • AdverbeModificateur
    • ObjectVP
    • Verbe phrastique
    • ProperAdjective
  • ControlPrepositions : Une liste de prépositions séparées par des virgules. Cet attribut doit être défini si ControlFlags a l’une des valeurs suivantes : PrepNoun, PrepAdj, ou PhrasalVerb. Par défaut, elle est vide.
    • Vide (par défaut)
  • Degré: L’une des filières suivantes :
    • Non défini (par défaut)
    • Comparatif
    • Superlatif
  • Genre: L’une des chaînes suivantes :
    • Non défini (par défaut)
    • Masculin
    • Féminin
  • Numéro: L’une des chaînes suivantes :
    • Non défini (par défaut)
    • Singulier
    • Pluriel
  • Personne: L’une des chaînes suivantes :
    • Non défini (par défaut)
    • Premier
    • Seconde
    • Troisièmement
  • PronounType: L’une des chaînes suivantes :
    • Non défini (par défaut)
    • Personnel
    • Possessif
    • Démonstratif
    • PossessifAbsolu
    • Réflexe
    • Relatif
  • ProperType: L’une des chaînes suivantes :
    • Non (par défaut)
    • Inconnu
    • Nom
    • Nom de famille
    • Nom de la personne
    • Organisation
    • Géographie
  • Sémantique: Combinaison des valeurs suivantes (liste séparée par des points-virgules) :
    • Organisation
    • Communication
    • Groupe
    • Agir
    • Artéfact
    • Emplacement
    • Cognition
    • Relation
    • Heure
    • Nourriture
    • Substance
    • État
    • Traiter
    • Objet
    • Possession
    • Phénomène
    • Plante
    • Forme
    • Corps
    • Personne
    • Haut de page
    • Événement
    • Attribut
    • Animaux
    • Géographie
    • Quantité
    • Sentiment
    • Motif
  • Sentiment: Valeur entière évaluant une mesure du sentiment du mot correspondant.
  • SpeechPart: L’une des chaînes suivantes :
    • Inconnu (par défaut)
    • Adverbe
    • Adjectif
    • AdjectifPrononyme
    • Pronom
    • PronomInterrogatif
    • Noun
    • Verbe
    • PrincipeI
    • PrincipeII
    • Gérondif
    • Aux
    • Verbe modal
    • Préposition
    • ConjonctionCoordonnée
    • ConjonctionSubordination
    • Modificateur de phrase
    • Partitif
    • Proform
    • Déterminant
    • Introduction
    • NuméralCardinal
    • NuméralOrdinal
    • Particule
    • Article
    • Marque infinitive
    • Spécial
    • Brise-glace
    • Séparateur
  • Temps: L’une des chaînes suivantes :
    • Non défini (par défaut)
    • PastSimple
    • PrésentSimple
    • FuturSimple
    • PasséContinu
    • PrésentContinu
    • FuturContinu
    • PasséParfait
    • PrésentParfait
    • FuturParfait
    • PasséParfaitContinu
    • PrésentParfaitContinu
    • FuturParfaitContinu
    • FutureInThePastSimple
    • FuturauPasséParfait
    • FutureInThePastContinuous
    • FuturDansLePasséParfaitContinu
    • Parfait
    • Constant
    • Simples
    • ParfaitContinu
    • Indéfini
  • Voix: Une des cordes suivantes :
    • Non défini (par défaut)
    • Active
    • Passif

DiscoursPartie Tag

La balise SpeechPart définit le moment où la lexie doit s’appliquer, et non la manière dont elle doit être appliquée. En ajoutant la balise SpeechPart=”Noun” à une entrée de lexique, vous indiquez au moteur NLP d’appliquer le lexique lorsque le terme est utilisé comme un nom dans une phrase donnée, telle que détectée par le moteur NLP. Cette balise n’indique pas au moteur NLP de définir le lexique comme un nom. Veillez à définir la partie du discours correcte lorsque vous préparez votre fichier lexical.

La balise @match est une syntaxe puissante à utiliser lorsque vous devez modifier un mot standard. Lorsque vous ajoutez un lexique, il ajoute une entrée pour le mot spécifique aux dictionnaires XM Discover qui sont installés avec votre compte. Lors de l’ajout d’un nouveau terme tel que “Qualtrics”, qui n’existait pas auparavant dans les dictionnaires anglais standard, le terme reçoit une entrée avec la partie du discours désignée. Cette entrée sera activée lorsque le terme sera utilisé comme cette partie du discours dans les données réelles. Pour les mots qui existent déjà dans les dictionnaires standard, l’entrée du lexique ajoutera simplement une nouvelle ligne au dictionnaire pour la partie du discours désignée. Lorsque le mot apparaît dans votre ensemble de données, le moteur NLP détermine sa partie du discours dans cette phrase et lui attribue les attributs linguistiques correspondants. Dans certains cas, l’ajout d’un lexique pour un terme standard du dictionnaire se traduira par plusieurs entrées avec la même partie du discours pour un seul mot. Lorsqu’il existe plusieurs parties du discours pour un même mot, le moteur NLP peut ne pas attribuer la bonne partie du discours. Pour éviter ce problème, vous pouvez utiliser la balise @match pour remplacer toutes les entrées préexistantes pour cette partie du discours/combinaison de mots. Dans de nombreux cas, des résultats similaires peuvent être obtenus en utilisant des règles d’exception positionnelles avec des indicateurs de partie du discours dans Designer.

Exemple : Par défaut, le terme “problème” est listé comme un verbe neutre et un nom négatif. Toutefois, vous pouvez remplacer le nom négatif par un nom neutre pour tenir compte de cas tels que “numéro d’un magazine” En utilisant la balise @match, vous demandez au moteur NLP de remplacer toutes les autres entrées pour le substantif ISSUE par cette entrée qui fixera son sentiment à 0.

question MSYN question {SpeechPart=”Noun” @match, Sentiment=”0″}

Exemple : Vous avez découvert une erreur dans laquelle l’adjectif “stupéfiant” a été mis en correspondance avec la forme verbale de “stupéfier” Pour le remplacer par “stupéfiant”, vous pouvez utiliser le code SpeechPart=”Adjectif” et @match pour remplacer l’entrée existante pour “stupéfiant” en tant qu’adjectif.

époustouflant CSYN époustouflant {SpeechPart=”Adjectif” @match)

Conseils pour la création d’un fichier de lexique

  • Les variations du lexique(colonne 1) doivent toujours être écrites en minuscules, sauf en cas d’utilisation spécifique d’une majuscule, par exemple pour un acronyme ambigu.
  • Si votre lexique est constitué d’un seul mot, vous n’avez probablement pas besoin de le définir en tant que tel, car le moteur de NLP le reconnaîtra déjà comme une entité. Si votre lexique nécessite une sensibilité particulière à la casse, vous devrez la définir dès le départ.
  • Utilisez MSYN lorsque votre lexique contient des termes de dictionnaire standard. Cela inclura automatiquement d’autres formulaires Word, de sorte que vous n’aurez pas à créer des postes spécifiques pour chacun d’entre eux.
  • Si vous n’êtes pas sûr que votre lexique contienne des termes de dictionnaire standard, utilisez CSYN.
  • Si votre entrée de lexique contient un caractère spécial au début ou à la fin du mot, votre variation dans la première colonne doit comporter un espace entre le caractère et le mot. Par exemple, “Black Friday” doit être remplacé par “Black Friday” (notez les espaces).
  • Les lexiques n’incluent pas automatiquement les variations des préfixes @ et #. Il convient de les définir séparément.
  • Préparez votre fichier dans un éditeur de texte (comme Notepad++ sous Windows ou TextEdit sous Mac) et enregistrez le fichier en tant que fichier de type DCT.
  • Si vous créez un fichier de lexique sur un Mac, veillez à utiliser le caractère de saut de ligne Carriage Return Line Feed (CRLF) entre les lignes. Ce caractère est lisible à la fois par Windows et par Mac, contrairement au caractère Carriage Return (CR) utilisé dans les applications Windows et au caractère Line Feed (LF) utilisé sur Mac. La distinction entre ces types est invisible dans de nombreux éditeurs de texte, y compris l’application TextEdit native de MacOS. Nous vous recommandons d’utiliser une application téléchargeable appelée TextWrangler. Un paramètre situé au bas de cette application vous permet de sélectionner le style de saut de ligne que vous souhaitez utiliser. Veuillez sélectionner l’option Windows avant de construire votre fichier de lexique.

De nombreuses pages de ce site ont été traduites de l'anglais en traduction automatique. Chez Qualtrics, nous avons accompli notre devoir de diligence pour trouver les meilleures traductions automatiques possibles. Toutefois, le résultat ne peut pas être constamment parfait. Le texte original en anglais est considéré comme la version officielle, et toute discordance entre l'original et les traductions automatiques ne pourra être considérée comme juridiquement contraignante.