Passa al contenuto principale
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Formato dei file Lexicon


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Informazioni sul formato dei file Lexicon

Quando si prepara un file di lessico, è essenziale che la sintassi di ogni riga sia corretta, in modo che il motore NLP elabori correttamente le voci del nuovo dizionario. Questa sezione descrive lo scopo e la sintassi specifica di ciascuna parte del file di lessico.

  • Tutti i file di lessico devono essere salvati in formato DCT. Rappresenta un file dizionario.
  • La prima riga di un file DCT deve indicare il tipo di lessico. Per ulteriori informazioni, vedere Tipi di lessico.
  • Tutte le colonne di un file DCT devono essere delimitate da tabelle.
    Consiglio Q: delimitato da tabulazione significa che le colonne devono essere separate dal tasto Tab, non dalla barra spaziatrice. Un modo semplice per preservare la formattazione delimitata da tabelle è preparare il file del lessico in un editor di testo (come Notepad++ su Windows o TextEdit su Mac) e salvare il file come tipo di file DCT. È possibile ottenere questo risultato anche all’interno di un editor di testo, premendo il tasto Tab tra una colonna e l’altra.
Consiglio Q: Gli esempi di questa pagina sono rappresentati in tabelle. Ricordate che ogni colonna deve essere separata da una tabulazione nel file effettivo.

Colonna 1: Variazione del modello

La prima colonna del file di lessico contiene le varianti o i sinonimi che si desidera mappare in forme normali (o chiclet, vedere Colonna 3: Forma normale).

Ogni riga del file di lessico deve contenere esattamente una variazione. Ulteriori variazioni devono essere inserite in righe aggiuntive. Se una parola non ha varianti, non è necessario definirla nel lessico, anche se non sarebbe dannoso farlo.

Una variazione può includere un errore di battitura comune, un’abbreviazione, un acronimo o un potenziale nome alternativo. I valori di questa colonna devono essere sempre minuscoli, tranne che per le voci sensibili alle maiuscole e alle minuscole (cfr. Colonna 2: Codice del sinonimo).

Per qualsiasi entità con più di due parole, è necessario definirla nel dizionario nella sua forma standard. Questo passaggio non è necessario per le voci del lessico a parola singola, in quanto il motore NLP già tokenizza tutte le parole singole che vengono elaborate. Tuttavia, se una voce di una singola parola assume un nuovo significato quando viene capitalizzata, inizializzarla sulla propria riga. Si vedano gli esempi seguenti.

Esempio:

harley davidson CSYN harley davidson {SpeechPart=”Sostantivo”}
harley CSYN harley davidson {SpeechPart=”Sostantivo”}

Esempio: Se una voce di una singola parola è sensibile alle maiuscole e alle minuscole, includere una voce iniziale che mappi la variazione alla forma normale, come questo esempio che si riferisce all’aeroporto internazionale di Los Angeles (LAX). Qui è scritto in maiuscolo per disambiguarlo dall’aggettivo “lassista”

LAX SYN Aeroporto internazionale di Los Angeles {SpeechPart=”Sostantivo”}

Caratteri speciali

La prima colonna può contenere caratteri speciali come trattini, apostrofi o segni di cancelletto. Quando si utilizzano caratteri speciali nel lessico, non sono necessari caratteri di escape. Lo stesso si applica alle lettere con diacritici come segni di accento, tilde, circonflessi e così via.

Tuttavia, bisogna considerare che quando il motore NLP analizza i caratteri speciali, li considera come parole separate:

  • La frase “~due giorni” viene analizzata come tre parole: “~”, “due” e “giorni” Se si crea una voce del lessico per “~due giorni”, questa non corrisponderà ai dati. Il lessico dovrebbe invece recitare “~ due giorni” (notare lo spazio tra “~” e “due”).
  • La frase “Total Recall” (con le virgolette incluse) viene analizzata come 4 parole. Per catturare questa frase, la voce del lessico dovrebbe avere degli spazi tra la virgoletta e la parola adiacente e recitare “Total Recall”.

Periodi

Quando gli acronimi contengono periodi tra le lettere, lo spazio aggiuntivo non è necessario. Ad esempio, per l’acronimo “b.o.a.” non è necessario alcuno spazio aggiuntivo. Tuttavia, per i lessici che terminano con una sola lettera, come “John D.”, lo spazio è necessario, diventando “John D .”

Consiglio Q: in caso di dubbi sull’uso dello spazio extra, creare due voci: una con lo spazio extra e una senza.

Hashtag e menzioni @

Quando si aggiunge una nuova voce, le forme hashtagged (#) o mentioned (@) di una parola non vengono incluse automaticamente. Se si desidera che queste voci facciano parte del lessico, si prega di creare righe separate.

Esempio: #qualtrics e @qualtrics richiederanno linee separate per essere mappate a “qualtrics” In questi casi non è necessario uno spazio tra # o @ e il termine.

qualtrics CSYN qualtrics {SpeechPart=”Sostantivo”}
#qualtrics CSYN qualtrics {SpeechPart=”Sostantivo”}
@qualtrics CSYN qualtrics {SpeechPart=”Sostantivo”}

Diacritici

Se la variante include un segno diacritico, il dizionario riconoscerà solo quella specifica variante. Tuttavia, se la variante non include un segno diacritico, il dizionario riconoscerà sia la forma non marcata che quella marcata. In molti casi, è meglio usare la forma non marcata come variante, perché aiuta a catturare le parole quando gli utenti sono troppo pigri per usare il carattere diacritico. Tuttavia, bisogna essere cauti, perché ci sono molti esempi di parole che cambiano completamente significato quando viene aggiunto un segno diacritico.

Esempio: La seguente voce cattura te e té. Queste parole hanno però un significato diverso in spagnolo! Te = tu, té = tè.

te CSYN {SpeechPart=”Sostantivo”}

La voce sottostante, tuttavia, catturerà solo té e non te.

CSYN {SpeechPart=”Sostantivo”}

Asterischi

Quando si lavora con dati che sono stati cancellati con asterischi, aggiungere spazi tra gli asterischi nella voce del lessico.

* * * * * * CSYN [Redacted] {SpeechPart=”Sostantivo”}

Colonna 2: Codice del sinonimo

La seconda colonna del file lessicale contiene il codice del sinonimo che indica al motore NLP come leggere la variazione scritta nella prima colonna.

Esistono diversi codici accettati:

  • SIN: Questo è un sinonimo. Il codice SYN indica al motore NLP che la variazione nella colonna uno deve essere interpretata esattamente come scritta. Si tiene conto della capitalizzazione. Questo codice è utile quando si creano lessici basati su acronimi in cui l’acronimo assume un nuovo significato quando non è maiuscolo, come ad esempio l’abbreviazione di aeroporto LAX e la parola lax.
  • CSYN: In determinate circostanze, questo è un sinonimo insensibile alle maiuscole e alle minuscole. Il codice CSYN, se usato con qualsiasi parola che inizia con una lettera minuscola, indica al motore NLP che la variazione nella colonna uno deve essere interpretata senza tener conto della capitalizzazione. Utilizzare questo codice quando si desidera acquisire solo la forma specifica della parola elencata nella variazione e quando la variazione non è un termine standard del dizionario.
  • CSYN: In alcune circostanze, si tratta di un sinonimo di titolo. Il codice CSYN, se usato con qualsiasi parola che inizia con una lettera maiuscola, indica al motore NLP che la variazione nella colonna uno deve essere interpretata senza tener conto della capitalizzazione, con l’avvertenza fondamentale che la prima lettera della prima parola deve iniziare con una lettera maiuscola. Utilizzare questo codice quando si vuole catturare un nome proprio che potrebbe risultare ambiguo se non capitalizzato, come ad esempio l’azienda “Best Buy” o i prodotti del brand “Great Value” di Walmart. L’uso del CSYN Title Case dovrebbe essere un evento raro. I lessici devono essere progettati in modo da essere il più possibile tolleranti nei confronti delle capitalizzazioni non standard. Tuttavia, in alcuni casi, questa sintassi può essere utile.
  • MSYN: è un sinonimo insensibile a Morph. Il codice MSYN indica al motore NLP di espandere la voce del lessico per includere le forme morfologiche correlate (ad esempio, “jump” include “jumps”, “jumping” e “jumped”) XM Discover include tutte le variazioni morfologiche, indipendentemente dalla parte del discorso specificata. Non sono necessarie righe aggiuntive nel file del lessico per gestire queste diverse forme verbali. I suffissi “-er” e “-est” non fanno parte della stessa forma normale e non sono inclusi in un’espansione MSYN.
    Consiglio Q: il codice MSYN funziona solo per i termini standard del dizionario. I dizionari XM Discover potrebbero non conoscere le forme morfologiche corrette per i nomi propri come Qualtrics. Si noti inoltre che quando si utilizza MSYN, tutte le variazioni saranno considerate senza distinzione di casi. Usate il codice MSYN ogni volta che il vostro lessico comprende termini del dizionario in cui volete includere suffissi alternativi. Questo metodo renderà la lista del lessico più breve e più inclusiva delle variazioni linguistiche.

Colonna 3: Forma normale

La terza colonna del file di lessico dovrebbe contenere facoltativamente la “forma normale” della parola.

La forma normale, o token master, è la versione che apparirà in Designer. Questa parola o frase deve essere la versione standard delle varianti definite nella prima colonna. La forma normale deve essere ripetuta nelle righe successive del file di lessico per ogni variazione corrispondente nella colonna uno.

Il motore di NLP capitalizza automaticamente la forma normale quando il dizionario del lessico viene elaborato. Di conseguenza, non è sensibile alle maiuscole e alle minuscole. Se questa colonna viene omessa, la variazione della colonna uno sarà assegnata come forma normale.

Come la colonna uno, anche la colonna tre può contenere caratteri speciali come trattini, apostrofi o segni di cancelletto. Quando si utilizzano caratteri speciali nel lessico, non sono necessari caratteri di escape. Lo stesso si applica alle lettere con diacritici come segni di accento, tilde, circonflessi e così via.

Colonna 4: Tag

La quarta colonna del file di lessico consente di definire gli attributi grammaticali per la voce specifica del lessico.

Nella maggior parte dei casi, nella colonna 4 è sufficiente indicare la parte del discorso. Tuttavia, in alcuni casi si potrebbe voler specificare anche il grado, il tempo e così via. Questo punto è particolarmente vero con i lessici non inglesi che richiedono un accordo di caso, genere, numero e così via tra le parole. Si può scegliere di aggiungere SemanticType, se applicabile. Questi metadati potranno essere utilizzati in futuro per le entità intelligenti.

Per ogni voce del lessico si possono definire uno o più attributi. Tutti gli attributi devono essere incapsulati tra {parentesi graffe}. Il valore di ciascun attributo deve essere racchiuso tra virgolette. Gli attributi multipli sono separati da una virgola e da uno spazio.

acciaio inox MSYN acciaio inox {SpeechPart=”Noun”, Analisi del Analisi del sentiment=”0″}

 

I tag possibili e i loro valori sono:

  • Caso (uno dei seguenti):
    • Non definito (predefinito)
    • Nominativo
    • Obiettivo
    • Comune
    • Possessivo
  • ControlFlags: Combinazione dei seguenti valori (lista separata da punto e virgola):
    • Vuoto (predefinito)
    • SoggettoAnimato
    • SoggettoInanimato
    • OggettoAnimato
    • OggettoInanimato
    • OggettoindirettoAnimato
    • OggettoInanimato Indiretto
    • Infinito
    • Aggettivo o sostantivo
    • Aggettivo
    • PrepNoun
    • PrepAdj
    • OggettoSentenza
    • SoggettoSentenza
    • SoggettoInfinitivo
    • AvverbioModificatore
    • OggettoVP
    • Verbo frasale
    • ProprioAggettivo
  • ControlloPreposizioni: Lista di preposizioni separate da virgole. Questo attributo deve essere impostato se ControlFlags ha uno dei seguenti valori: PrepNoun, PrepAdj o PhrasalVerb. Per impostazione predefinita è vuoto.
    • Vuoto (predefinito)
  • Laurea: Una delle seguenti corde:
    • Non definito (predefinito)
    • Comparativo
    • Superlativo
  • Genere: Una delle seguenti corde:
    • Non definito (predefinito)
    • Maschile
    • Femminile
  • Numero: Una delle seguenti stringhe:
    • Non definito (predefinito)
    • Singolare
    • Plurale
  • Persona: Una delle seguenti stringhe:
    • Non definito (predefinito)
    • Primo
    • Secondo
    • Terzo
  • PronounType: Una delle seguenti stringhe:
    • Non definito (predefinito)
    • Personale
    • Possessivo
    • Dimostrativo
    • PossessivoAssoluto
    • Riflessivo
    • Relativo
  • ProperType: Una delle seguenti stringhe:
    • No (impostazione predefinita)
    • Sconosciuto
    • Nome
    • Cognome
    • Nome della persona
    • Organizzazione
    • Geografia
  • Semantico: Combinazione dei seguenti valori (lista separata da punto e virgola):
    • Organizzazione
    • Comunicazione
    • Gruppo
    • Agisci
    • Artefatto
    • Posizione
    • Cognizione
    • Relazione
    • Ora
    • Cibo
    • Sostanza
    • Stato
    • Elabora
    • Oggetto
    • Possesso
    • Fenomeno
    • Impianto
    • Forma
    • Corpo
    • Persona
    • Cime
    • Evento
    • Attributo
    • Animale
    • Geografia
    • Quantità
    • Sentimento
    • Motivo
  • Analisi del sentiment: Valore intero che valuta l’analisi del sentiment della parola corrispondente.
  • DiscorsoParte: Una delle seguenti stringhe:
    • Sconosciuto (predefinito)
    • Avverbio
    • Aggettivo
    • AggettivoPronome
    • Pronome
    • PronomeInterrogativo
    • Sostantivo
    • Verbo
    • ParticipioI
    • Participio II
    • Gerundio
    • Aux
    • ModalVerb
    • Preposizione
    • CongiunzioneCoordinata
    • CongiunzioneSubordinato
    • Modificatore di frase
    • Partitivo
    • Proform
    • Determinante
    • Introduzione
    • NumeralCardinal
    • NumeraleOrdinale
    • Particella
    • Articolo
    • InfinitivoMark
    • Speciale
    • Rompighiaccio
    • Delimitatore
  • Tendenza: Una delle seguenti stringhe:
    • Non definito (predefinito)
    • PassatoSemplice
    • PresenteSemplice
    • FuturoSemplice
    • PassatoContinuo
    • PresenteContinuo
    • FuturoContinuo
    • PassatoPerfetto
    • PresentePerfetto
    • FuturoPerfetto
    • PassatoPerfettoContinuo
    • PresentePerfettoContinuo
    • FuturoPerfettoContinuo
    • FuturoNelPassatoSemplice
    • FuturoNelPassatoPerfetto
    • FuturoNelPassatoContinuo
    • FuturoNelPassatoPerfettoContinuo
    • Perfetto
    • Continua
    • Semplice
    • PerfettoContinuo
    • Indefinito
  • Voce: Una delle seguenti corde:
    • Non definito (predefinito)
    • Attivo
    • Passivo

Tag DiscorsoParte

Il tag SpeechPart definisce quando applicare il lessico, non come applicarlo. Aggiungendo il tag SpeechPart=”Noun” a una voce del lessico, si dice al motore NLP di applicare il lessico quando il termine è usato come sostantivo in una data frase, come rilevato dal motore NLP. Questo tag non indica al motore NLP di impostare il lessico come sostantivo. Assicuratevi di definire la parte corretta del discorso quando preparate il vostro file di lessico.

Il tag @match è una potente sintassi da usare quando si deve modificare una parola standard. Quando si aggiunge un lessico, si aggiunge una voce per la parola specifica ai dizionari XM Discover installati con l’account. Quando si aggiunge un termine nuovo di zecca come “qualtrics”, che non esisteva in precedenza nei dizionari standard inglesi, il termine riceve una voce con la parte vocale designata. Questa voce si attiva quando il termine viene utilizzato come parte del discorso nei dati reali. Per le parole che esistono già nei dizionari standard, la voce del lessico aggiungerà semplicemente un’altra riga al dizionario per la parte del discorso designata. Quando la parola ricorre nel dataset, il motore NLP determina la sua parte del discorso in quella frase e attribuisce gli attributi linguistici corrispondenti. In alcuni casi, l’aggiunta di un lessico per un termine del dizionario standard darà luogo a più voci con la stessa parte del discorso per una singola parola. Quando per una stessa parola esistono più parti del discorso, il motore NLP potrebbe non assegnare quella corretta. Per evitare questo problema, si può usare il tag @match per sovrascrivere tutte le voci preesistenti per quella combinazione di parola/parola. In molti casi, risultati simili possono essere ottenuti utilizzando le regole di eccezione posizionale con i flag di parte del discorso in Designer.

Esempio: Per impostazione predefinita, “issue” è elencato come un verbo neutro e un sostantivo negativo. Tuttavia, è possibile sostituire il sostantivo negativo con un sostantivo neutro per tener conto di casi come “numero di una rivista” Utilizzando il tag @match, si dice al motore NLP di sostituire qualsiasi altra voce relativa a ISSUE come sostantivo con questa voce che imposterà l’analisi del sentiment a 0.

questione MSYN questione {SpeechPart=”Sostantivo” @match, Analisi del sentiment=”0″}

Esempio: Avete scoperto un errore in cui l’aggettivo “sbalorditivo” veniva mappato con la forma verbale di “stun” Per cambiarlo in “stupefacente”, si può usare il codice SpeechPart=”Adjective” e @match per sovrascrivere la voce esistente per “stupefacente” come aggettivo.

stupefacente CSYN stupefacente {SpeechPart=”Aggettivo” @match)

Suggerimenti per la creazione di un file di lessico

  • Scrivete sempre le variazioni del lessico(colonna uno) in minuscolo, a meno che non ci sia un caso specifico di utilizzo della maiuscola, come ad esempio un acronimo ambiguo.
  • Se il lessico è costituito da una singola parola, probabilmente non è necessario definirla da sola, poiché il motore NLP la riconoscerà già come entità. Se il lessico richiede una specifica sensibilità alle maiuscole e alle minuscole, è necessario definirla in anticipo.
  • Utilizzare MSYN quando il lessico contiene termini standard del dizionario. Questo includerà automaticamente altre forme verbali, in modo da non dover creare voci specifiche per ciascuna di esse.
  • Se non si è sicuri che il lessico contenga termini standard del dizionario, utilizzare CSYN.
  • Se la voce del lessico contiene un carattere speciale all’inizio o alla fine della parola, la variazione nella colonna uno deve avere uno spazio tra il carattere e la parola. Ad esempio, “Black Friday” dovrebbe essere ” Black Friday ” (notare gli spazi).
  • I lessici non includono automaticamente le variazioni dei prefissi @ e #. È necessario definirli separatamente.
  • Preparare il file in un editor di testo (come Notepad++ su Windows o TextEdit su Mac) e salvarlo come tipo di file DCT.
  • Se si sta creando un file di lessico su Mac, assicurarsi di utilizzare il carattere di interruzione di riga Carriage Return Line Feed (CRLF) tra le righe. Questo carattere è leggibile sia da Windows che da Mac, a differenza del più comune carattere Carriage Return (CR) utilizzato nelle applicazioni Windows e del carattere Line Feed (LF) utilizzato nei Mac. La distinzione tra questi tipi è invisibile in molti editor di testo, tra cui l’applicazione TextEdit, nativa di MacOS. Si consiglia di utilizzare un’applicazione scaricabile chiamata TextWrangler. Nella parte inferiore di questa applicazione è presente un’impostazione che consente di selezionare lo stile di interruzione di riga che si desidera utilizzare. Selezionare l’opzione Windows prima di creare il file di lessico.

Molte delle pagine di questo sito sono state tradotte dall'originale in inglese mediante traduzione automatica. Sebbene in Qualtrics abbiamo profuso il massimo impegno per avere le migliori traduzioni automatiche possibili, queste non sono mai perfette. Il testo originale inglese è considerato la versione ufficiale, e qualsiasi discrepanza tra questo e le traduzioni automatiche non è legalmente vincolante.