レキシコン
レキシコンについて
レキシコンは、感情やレポートの精度を高めるために使用される辞書である。各辞書には、特定の用語を、関連する言語メタデータとともに定義する項目が含まれている。
XM Discoverには、正しい自然言語処理に不可欠な多くの標準辞書が含まれています。業種やデータ型に特化したアカウントにするために、プロジェクトに関連する語彙辞書をカスタマイズすることができます。カスタム辞書では、XM Discover内で単一エンティティまたは概念として理解されるべき単一または複数単語のフレーズを定義できます。カスタム辞書は、箱から出された標準辞書に加えて機能する。項目が重複している場合は、カスタム辞書が標準辞書より優先される。
使用例
カスタム語彙は、特定のプロジェクトに感情を調整し、特定のレポート機能を明確にするのに役立ちます。適切な語彙候補を特定することで、モデルを拡張する際の分類育成、感情分析精度、根本原因分析が向上します。
辞書が役立つ使用例をいくつか紹介しよう:
- ビジネスおよび業界特有の用語:どの業界にも、重要な概念を表す特定の用語や言い回しがあります。多くの場合、これらのコンセプトは複数の単語で構成されており、XM Discoverでは自動的に識別されない場合があります。これらの概念をレキシコンに追加することで、単一のエンティティにカプセル化することができる。このステップでは、レポートに付加価値を付け、最も意味のある用語を表示します。例えば、自動車業界は “コンパクト・カー “といった用語を追加するだろう。このフレーズは業界特有の用語であり、単一の事業体を表している。
- 慣用表現:慣用表現は、複数の単語を持ちながら単一の概念を表す場合、辞書として追加されることもある。例えば、”train wreck “という慣用句は、1つの単語ペアであり、1つの実体とみなされるため、辞書となる。train wreck」や「top notch」のような慣用表現の辞書を作成することで、フレーズ全体に特定の感情値を設定することができます。
- 頭字語の翻訳:レキシコンは、頭字語を省略されていない形にリンクすることもできます。例えば、”FBI “の頭文字を “Federal Bureau of Investigation “に対応させる辞書項目を追加することができる。
- よくあるスペルミスの把握レキシコンは、スペルミスを正しい形や標準的な形にリンクすることで、よくあるスペルミスのアカウントにも役立ちます。例えば、”calendar “という単語は、一般的に “calender “とスペルミスされる。スペルミスを辞書に追加することで、正しいスペルにマッピングし直すことができる。
- 一般的な再編集パターンの捕捉:レキシコンを使用して、一般的な再編集パターンをキャプチャし、関連フィールドにマッピングすることができます。例えば、XXXXXXXXXをSSNに。
レキシコンの候補を特定する
すべての複数単語のペアが良い辞書候補になるわけではない。言語的なつながりを形成するためには、ほとんどのペアは独立したままであるべきだ。例えば、「ベスト・バイ」は、会社という一つの実体を定義しているため、辞書の候補として最適である。
新しい語彙の候補を評価する際には、2つの質問を自問する:
- 最初の単語]は[2番目の単語]の一種ですか?
- もしそうなら、レポートで区別したい[2番目の単語]の種類は他にありますか?あるいは、[2つ目の単語の複数形]を使うだけで、[2つ目の単語]のすべてのバリエーションを一義的に指すことができるだろうか?
これらの質問のどれかに「ノー」と答えたなら、あなたは潜在的な辞書を見つけたことになる。
関連語
組織内で製品名やブランド名、競合他社、一般的な略語、会社のニックネームのリストを管理している場合、それは業界特有の用語の良い情報源になります。
XM Discoverで関連ワードレポートを実行し、プロジェクト内の上位の言語関係を確認することもできます:
レキシコンの種類
辞書には5つのタイプがある:
- 製品:特定の製品であるレキシコン・エントリーを含む。この辞書の最初の行は常にNamedEntity:Productでなければならない。
- ブランド:この辞書では、特定のブランドに関する辞書項目を追加する必要があります。この辞書の最初の行は、常にNamedEntity:ブランドでなければなりません。
- 会社:会社辞書は、4つのインテリジェントエンティティ辞書の1つである。この辞書には、特定の企業に関する辞書項目を追加してください。この辞書の最初の行は常にNamedEntity:Companyでなければならない。
- 人物:人名辞書は、4つの知的エンティティ辞書の1つである。この辞書には、従業員やその他関心のある人物の名前やモノクマを追加する必要があります。この辞書の最初の行は常にNamedEntity:Personでなければならない。
- カスタム辞書(一般辞書): カスタム辞書は、製品、ブランド、企業、または個人として分類されない他のすべてのためのスペースです。ほとんどの場合、この辞書には一般的な業界用語が含まれる。この辞書の最初の行は常にCustom:CustomLexiconでなければならない。
これらの辞書にはインテリジェント・エンティティが含まれている。関連する用語にグループ化することで、各リストにどのようなコンテンツが含まれているかを把握しやすくし、レキシコンを管理するのに役立ちます。多くの製品やブランドを持つ企業や競合他社が多い企業にとって、この機能は管理プロセスをよりシンプルにする。
カスタム語彙の編集
このセクションでは、カスタム辞書の編集方法について説明します。辞書を編集する前に、正しい形式のファイルを作成する必要があります。続行する前に、Lexicon File Formatを参照してください。
カスタム・レキシコンは、その時点からロードされたデータに対して直ちに有効になる。カスタム辞書を過去のデータにも適用したい場合は、完全に再処理する必要がある。この作業が必要な場合は、クアルトリクス担当者にご連絡ください。
カスタム辞書ファイルに加えた変更は、常にXM Discoverで利用できます。以下の手順で辞書をダウンロードすれば、現在のファイルを見ることができる。今後の調整については、既存のファイルの一番下に新しい項目を追加するだけでよい。
辞書を編集するには
- DesignerでAdmin タブに移動します。
- アカウント セクションを選択する。
- 辞書を修正したいアカウントの Editをクリックします。
- 辞書のセクションへ。
- Custom Lexiconsをクリックします。
- 更新したい語彙の種類を選んでください。
- ダウンロードをクリックすると、現在のレキシコンファイルがコンピューターにダウンロードされます。
- テキストエディタでこのファイルを開き、レキシコンの用語を追加する。詳しくはLexicon File Formatをご覧ください。ファイルがDCTファイルとして保存されていることを確認してください。
- Discoverの同じウィンドウで、アップロードをクリックします。
- Choose Fileをクリックし、コンピュータに保存されているDCTファイルを選択します。
- アップロードをクリックします。フォーマットに問題がある場合は、ウィンドウが問題の場所を教えてくれるので、それを修正することができます。
- [終了]をクリックします。