Ir para o conteúdo principal
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Formato de arquivo Lexicon


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Sobre o formato de arquivo Lexicon

Ao preparar um arquivo de léxico, é essencial que a sintaxe de cada linha esteja correta para que o mecanismo de NLP processe corretamente as novas entradas do dicionário. Esta seção descreve a finalidade e a sintaxe específica de cada parte do arquivo de léxico.

  • Todos os arquivos léxicos devem ser salvos em um formato de arquivo DCT. Isso representa um arquivo de dicionário.
  • A primeira linha em um arquivo DCT deve indicar o tipo de léxico. Consulte Tipos de léxico para obter mais informações.
  • Todas as colunas em um arquivo DCT devem ser delimitadas por tabulação.
    Qdica: Delimitado por tabulação significa que as colunas devem ser separadas pela tecla Tab, não pela barra de espaço. Uma maneira fácil de preservar a formatação delimitada por tabulação é preparar o arquivo léxico em um editor de texto (como o Notepad++ no Windows ou o TextEdit no Mac) e salvar o arquivo como um tipo de arquivo DCT. Você também pode fazer isso em um editor de texto pressionando a tecla Tab entre cada coluna.
Qdica: os exemplos desta página estão representados em tabelas. Lembre-se de que cada coluna deve ser separada por uma tabulação no arquivo real.

Coluna 1: Variação de padrão

A primeira coluna do arquivo de léxico contém variações ou sinônimos que você deseja mapear para formas normais (ou chiclets, consulte Coluna 3: Forma normal).

Cada linha em seu arquivo de léxico deve conter exatamente uma variação. Variações adicionais devem ser colocadas em linhas adicionais. Se uma palavra não tiver variações, você não precisará defini-la em seu léxico, embora isso não seja prejudicial.

Uma variação pode incluir um erro ortográfico comum, uma abreviação, um acrônimo ou um nome alternativo em potencial. Os valores dessa coluna devem ser sempre minúsculos, exceto para entradas que diferenciam maiúsculas de minúsculas e maiúsculas de título (consulte a Coluna 2: Código do sinônimo).

Para qualquer entidade com mais de duas palavras, você precisará defini-la no dicionário em sua forma padrão. Essa etapa não é necessária para entradas de léxico de uma única palavra, pois o mecanismo de NLP já tokeniza todas as palavras únicas que são processadas. No entanto, se uma entrada de palavra única adquirir um novo significado quando estiver em letra maiúscula, inicialize-a em sua própria linha. Veja os exemplos abaixo.

Exemplo:

harley davidson CSYN harley davidson {SpeechPart=”Noun”}
harley CSYN harley davidson {SpeechPart=”Noun”}

Exemplo: Se uma entrada de palavra única diferenciar maiúsculas de minúsculas, inclua uma entrada inicial que mapeie a variação para a forma normal, como este exemplo referente ao Aeroporto Internacional de Los Angeles (LAX). Ele está em letra maiúscula aqui para não ser confundido com o adjetivo “frouxo”

LAX SYN Aeroporto Internacional de Los Angeles {SpeechPart=”Noun”}

Caracteres especiais

A primeira coluna pode conter caracteres especiais, como hífens, apóstrofos ou sinais de libra. Nenhum caractere de escape especial é necessário ao usar caracteres especiais em seu léxico. O mesmo se aplica a letras com diacríticos, como acentos, tildes, circunflexos e assim por diante.

No entanto, considere que, quando o mecanismo de NLP analisa caracteres especiais, ele os vê como palavras separadas:

  • A frase “~two days” é analisada como três palavras: “~”, “dois” e “dias” Se você criar uma entrada no léxico para “~dois dias”, ela não corresponderá aos seus dados. Em vez disso, o léxico deve ler “~ dois dias” (observe o espaço entre “~” e “dois”).
  • A frase ‘Total Recall’ (com aspas incluídas) é analisada como 4 palavras. Para capturar essa frase, a entrada do léxico deve ter espaços entre as aspas e a palavra adjacente e ser lida como “Total Recall”.

Períodos

Quando os acrônimos contêm pontos entre cada letra, o espaço extra não é necessário. Por exemplo, para o acrônimo “b.o.a.”, não é necessário espaço extra. No entanto, para léxicos que terminam com uma única letra, como “John D.”, o espaço é necessário, tornando-se “John D.”

Qdica: se houver alguma dúvida quanto ao uso do espaço extra, crie duas entradas: uma com o espaço extra e outra sem.

Hashtags e @menções

Ao adicionar uma nova entrada, as formas com hashtag (#) ou mencionadas (@) de uma palavra não são incluídas automaticamente. Se quiser que eles façam parte da entrada do léxico, faça linhas separadas.

Exemplo: #qualtrics e @qualtrics exigirão linhas separadas para mapear para “qualtrics” Observe que, nesses casos, não é necessário um espaço entre # ou @ e o termo.

qualtrics CSYN qualtrics {SpeechPart=”Noun”}
#qualtrics CSYN qualtrics {SpeechPart=”Noun”}
@qualtrics CSYN qualtrics {SpeechPart=”Noun”}

Diacríticos

Se sua variação incluir um sinal diacrítico, o dicionário reconhecerá apenas essa variação específica. No entanto, se sua variação não incluir um sinal diacrítico, o dicionário reconhecerá tanto a forma não marcada quanto a marcada. Em muitos casos, é melhor usar a forma não marcada como variação, pois ela ajuda a capturar palavras quando os usuários têm preguiça de usar o caractere diacrítico. No entanto, tenha cuidado, pois há muitos exemplos de palavras que mudam completamente de significado quando um sinal diacrítico é adicionado.

Exemplo: A entrada a seguir capturará te e té. No entanto, essas palavras têm significados diferentes em espanhol! Te = você, té = chá.

te CSYN {SpeechPart=”Noun”}

A entrada abaixo, entretanto, capturará apenas té e não te.

CSYN {SpeechPart=”Noun”}

Asteriscos

Ao trabalhar com dados que foram redigidos com asteriscos, adicione espaços entre os asteriscos em sua entrada de léxico.

* * * * * * CSYN [Redigido] {SpeechPart=”Noun”}

Coluna 2: Código do sinônimo

A segunda coluna do arquivo de léxico contém o código de sinônimo que informa ao mecanismo de NLP como ler a variação escrita na primeira coluna.

Há vários códigos aceitos:

  • SYN: Este é um sinônimo. O código SYN informa ao mecanismo de NLP que a variação na coluna um deve ser interpretada exatamente como está escrita. A capitalização é levada em conta. Esse código é útil na criação de léxicos baseados em acrônimos nos quais o acrônimo assume um novo significado quando não está em letra maiúscula, como a abreviação de aeroporto LAX e a palavra lax.
  • CSYN: em determinadas circunstâncias, esse é um sinônimo insensível a maiúsculas e minúsculas. O código CSYN, quando usado com qualquer palavra que comece com uma letra minúscula, informa ao mecanismo NLP que a variação na coluna um deve ser interpretada sem levar em conta a capitalização. Use esse código quando quiser capturar apenas a forma específica da palavra listada na variação e quando a variação não for um termo padrão do dicionário.
  • CSYN: Em determinadas circunstâncias, esse é um sinônimo de Title-case. O código CSYN, quando usado com qualquer palavra que comece com uma letra maiúscula, informa ao mecanismo NLP que a variação na coluna um deve ser interpretada sem levar em conta a capitalização, com a ressalva de que a primeira letra da primeira palavra deve começar com uma letra maiúscula. Use esse código quando quiser capturar um substantivo próprio que pode ser ambíguo quando não estiver capitalizado, como a empresa “Best Buy” ou os produtos da marca “Great Value” do Walmart. O uso do CSYN Title Case deve ser uma ocorrência rara. Os léxicos devem ser projetados para tolerar ao máximo a capitalização fora do padrão. Entretanto, em certos casos, essa sintaxe será útil.
  • MSYN: esse é um sinônimo insensível ao Morph. O código MSYN informa ao mecanismo de NLP para expandir a entrada do léxico para incluir suas formas morfológicas relacionadas (por exemplo, “jump” inclui “jumps”, “jumping” e “jumped”) XM Discover inclui todas as variações morfológicas, independentemente da classe gramatical que você especificar. Você não precisaria de linhas adicionais no arquivo de léxico para lidar com essas diferentes formas verbais. Os sufixos “-er” e “-est” não fazem parte da mesma forma normal e não são incluídos em uma expansão MSYN.
    Qdica: o código MSYN só funcionará para termos de dicionário padrão. Os dicionários XM Discover podem não conhecer as formas morfológicas corretas para nomes próprios, como Qualtrics. Observe também que, ao usar o MSYN, todas as variações serão consideradas sem distinção de maiúsculas e minúsculas. Use o código MSYN sempre que seu léxico incluir termos de dicionário nos quais você deseja incluir sufixos alternativos. Esse método tornará sua lista léxico mais curta e mais inclusiva das variações de idioma.

Coluna 3: Forma normal

A terceira coluna do arquivo de léxico deve conter opcionalmente a “forma normal” da palavra.

A forma normal, ou token mestre, é a versão que aparecerá no Designer. Essa palavra ou frase deve ser a versão padrão das variações que você definiu na primeira coluna. A forma normal deve ser repetida nas linhas subsequentes do seu arquivo léxico para cada variação correspondente na coluna um.

O mecanismo de NLP capitaliza automaticamente a forma normal quando o dicionário léxico é processado. Como resultado, ele não diferencia maiúsculas de minúsculas. Se essa coluna for omitida, a variação na coluna um será atribuída como a forma normal.

Assim como a coluna um, a coluna três pode conter caracteres especiais, como hífens, apóstrofos ou sinais de libra. Nenhum caractere de escape especial é necessário ao usar caracteres especiais em seu léxico. O mesmo se aplica a letras com diacríticos, como acentos, tildes, circunflexos e assim por diante.

Coluna 4: Tags

A quarta coluna do arquivo de léxico fornece um local para você definir atributos gramaticais para a entrada específica do léxico.

Na maioria dos casos, você só precisará indicar o SpeechPart na coluna 4. Entretanto, em alguns casos, talvez você também queira especificar o grau, o tempo verbal e assim por diante. Esse ponto é especialmente verdadeiro com léxicos não ingleses que exigem concordância de caso, gênero, número e assim por diante entre as palavras. Você pode optar por adicionar o SemanticType quando aplicável. Esses metadados podem ser usados no futuro para entidades inteligentes.

Um ou vários atributos podem ser definidos para cada entrada do léxico. Todos os atributos devem ser encapsulados em {entre colchetes}. Cada valor atributo deve estar entre aspas. Vários atributos são separados por uma vírgula e um espaço.

aço inoxidável MSYN aço inoxidável {SpeechPart=”Noun”, Sentimento”0″}

 

As tags possíveis e seus valores são:

  • Caso (um dos seguintes):
    • Indefinido (padrão)
    • Nominativo
    • Objetivo
    • Comum
    • Possessivo
  • ControlFlags: Combinação dos seguintes valores ( lista separada por ponto e vírgula):
    • Vazio (padrão)
    • SubjectAnimate
    • AssuntoInanimado
    • ObjectAnimate
    • ObjetoInanimado
    • IndirectObjectAnimate
    • IndirectObjectInanimate
    • Infinitivo
    • AdjetivoOuSubstantivo
    • Adjetivo
    • PrepNoun
    • PrepAdj
    • ObjectSentence
    • SubjectSentence
    • AssuntoInfinitivo
    • AdverbModifier
    • ObjetoVP
    • Verbo Frasal
    • ProperAdjective
  • ControlPrepositions: Uma lista de preposições separada por vírgulas. Esse atributo deve ser definido se ControlFlags tiver um dos seguintes valores: PrepNoun, PrepAdj ou PhrasalVerb. Por padrão, ele está vazio.
    • Vazio (padrão)
  • Grau: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • Comparativo
    • Superlativo
  • Gênero: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • Masculino
    • Feminino
  • Número: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • Singular
    • Plural
  • Pessoa: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • Primeiro
    • Segundo
    • Terceiro
  • PronounType: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • Pessoal
    • Possessivo
    • Demonstrativo
    • PossessivoAbsoluto
    • Reflexivo
    • Relativo
  • ProperType: Uma das seguintes cadeias de caracteres:
    • Não (padrão)
    • Desconhecido
    • Nome
    • Sobrenome
    • Nome da pessoa
    • Organização
    • Geografia
  • Semântica: Combinação dos seguintes valores ( lista separada por ponto e vírgula):
    • Organização
    • Comunicação
    • Grupo
    • Agir
    • Artefato
    • Local
    • Cognição
    • Relacionamento
    • Hora
    • Alimentação
    • Substância
    • Estado
    • Processar
    • Objeto
    • Posse
    • Fenômeno
    • Planta
    • Forma
    • Corpo
    • Pessoa
    • Tops
    • Evento
    • Atributo
    • Animal
    • Geografia
    • Quantidade
    • Sentimento
    • Motivo
  • Sentimento: Valor inteiro avaliador de uma medida do sentimento da palavra correspondente sentimento
  • SpeechPart: Uma das seguintes cadeias de caracteres:
    • Desconhecido (padrão)
    • Advérbio
    • Adjetivo
    • AdjetivoPronome
    • Pronome
    • PronomeInterrogativo
    • Substantivo
    • Verbo
    • ParticípioI
    • ParticípioII
    • Gerúndio
    • Aux
    • ModalVerb
    • Preposição
    • ConjunçãoCoordenada
    • ConjunçãoSubordinada
    • SentenceModifier
    • Partitivo
    • Proform
    • Determinante
    • Introdutório
    • NumeralCardinal
    • NumeralOrdinal
    • Partícula
    • Artigo
    • InfinitiveMark
    • Especial
    • Disjuntor
    • Delimitador
  • Tempo verbal: Uma das seguintes cadeias de caracteres:
    • Indefinido (padrão)
    • PastSimple
    • PresentSimple
    • FutureSimple
    • PassadoContínuo
    • PresentContinuous
    • FutureContinuous
    • PassadoPerfeito
    • PresentPerfect
    • FuturePerfect
    • PastPerfectContinuous
    • PresentPerfectContinuous (PresentePerfeitoContínuo)
    • FuturePerfectContinuous (FuturoPerfeitoContínuo)
    • FutureInThePastSimple
    • FuturoNoPassadoPerfeito
    • FutureInThePastContinuous (Futuro no passado contínuo)
    • FutureInThePastPerfectContinuous (Futuro no passado perfeito contínuo)
    • Perfeito
    • Contínua
    • Simples
    • PerfectContinuous
    • Indefinido
  • Voz: Uma das seguintes cordas:
    • Indefinido (padrão)
    • Ativo
    • Passivo

Etiqueta SpeechPart

A tag SpeechPart define quando o léxico deve ser aplicar, e não como ele deve ser aplicado. Ao adicionar a tag SpeechPart=”Noun” a uma entrada do léxico, você está dizendo ao mecanismo de NLP para aplicar o léxico quando o termo for usado como substantivo em uma determinada frase, conforme detectado pelo mecanismo de NLP. Essa tag não diz ao mecanismo de NLP para definir o léxico como um substantivo. Certifique-se de definir a classe gramatical correta ao preparar seu arquivo léxico.

A tag @match é uma sintaxe poderosa a ser usada quando você precisa modificar uma palavra padrão. Quando você adiciona um léxico, ele adiciona uma entrada para a palavra específica aos dicionários XM Discover que estão instalados em sua conta. Ao adicionar um termo marca novo, como “qualtrics”, que não existia anteriormente nos dicionários de inglês padrão, o termo recebe uma entrada com a parte do discurso designada. Essa entrada será acionada quando o termo for usado como essa parte do discurso em dados reais. Para palavras que já existem nos dicionários padrão, a entrada do léxico simplesmente acrescentará outra linha ao dicionário para a classe gramatical designada. Quando a palavra ocorrer em seu conjunto de dados, o mecanismo de NLP determinará sua classe gramatical na frase e atribuirá os atributos linguísticos correspondentes. Em alguns casos, adicionar um léxico para um termo de dicionário padrão resultará em várias entradas com a mesma classe gramatical para uma única palavra. Quando existem várias entradas de classes gramaticais para uma única palavra, o mecanismo de NLP pode não atribuir a correta. Para evitar esse problema, você pode usar a tag @match para substituir todas as entradas pré-existentes para essa combinação de parte do discurso/palavra. Em muitos casos, é possível obter resultados semelhantes usando regras de exceção posicional com sinalizadores de parte do discurso no Designer.

Exemplo: Por padrão, “issue” é listado como um verbo neutro e um substantivo negativo. No entanto, talvez você queira substituir o substantivo negativo por um substantivo neutro para levar em conta casos como “issue of a magazine” (edição de uma revista) Ao usar a tag @match, você diz ao mecanismo de NLP para substituir quaisquer outras entradas de ISSUE como substantivo por essa entrada, que definirá seu sentimento como 0.

problema MSYN problema {SpeechPart=”Noun” @match, Sentimento”0″}

Exemplo: Você descobriu um erro no qual o adjetivo “stunning” estava sendo mapeado para a forma verbal de “stun” Para alterar isso para “stunning”, você pode usar o código SpeechPart=”Adjective” e @match para substituir a entrada existente para “stunning” como adjetivo.

impressionante CSYN impressionante {SpeechPart=”Adjetivo” @match)

Dicas para criar um arquivo léxico

  • Sempre escreva as variações do léxico(coluna um) em letras minúsculas, a menos que tenha um caso de uso específico para capitalização, como um acrônimo ambíguo.
  • Se o seu léxico for uma única palavra, você provavelmente não precisará defini-la por si só, pois o mecanismo de NLP já a reconhecerá como uma entidade. Se o seu léxico exigir sensibilidade específica a maiúsculas e minúsculas, você precisará defini-la antecipadamente.
  • Use o MSYN quando seu léxico contiver termos de dicionário padrão. Isso incluirá automaticamente outros formulários de palavras para que você não precise criar itens de linha específicos para cada um deles.
  • Se você não tiver certeza de que seu léxico contém termos de dicionário padrão, use CSYN.
  • Se a entrada do léxico contiver um caractere especial no início ou no final da palavra, sua variação na coluna um deverá ter um espaço entre o caractere e a palavra. Por exemplo, “Black Friday” deve ser ” Black Friday ” (observe os espaços).
  • Os léxicos não incluem automaticamente as variações de prefixo @ e #. Você deve defini-los separadamente.
  • Prepare seu arquivo em um editor de texto (como o Notepad++ no Windows ou o TextEdit no Mac) e salve o arquivo como um tipo de arquivo DCT.
  • Se estiver criando um arquivo léxico em um Mac, certifique-se de usar o caractere de quebra de linha Carriage Return Line Feed (CRLF) entre as linhas. Esse caractere é legível tanto no Windows quanto no Mac, o que contrasta com o caractere Carriage Return (CR) mais comum usado nos aplicativos do Windows e o caractere Line Feed (LF) usado nos Macs. A distinção entre esses tipos é invisível em muitos editores de texto, incluindo o aplicativo TextEdit, que é nativo do MacOS. Recomendamos o uso de um aplicativo para download chamado TextWrangler. Há uma configuração na parte inferior desse aplicativo que permite selecionar o estilo de quebra de linha que você deseja usar. Selecione a opção Windows antes de criar seu arquivo léxico.

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.