連絡文書分析 (BX)
連絡文書分析について
連絡文書分析では、偶発事象テーブルで指定されたデータに基づいて、2 つの変数のグループ内でと間の相対関係が明らかになります。ブランド認識では、以下の 2 つのグループがあります。
- ブランド
- これらのブランドに適用される属性
たとえば、ある会社が、消費者が飲料製品のさまざまなブランドと関連している属性を把握する必要があるとします。連絡文書分析は、ブランド間の類似性と、さまざまな属性との関係におけるブランドの強みを測定するのに役立ちます。相対的な関係を理解することで、ブランドオーナーは、さまざまなブランド関連属性に対する以前のアクションの影響を特定し、次のステップを決定することができます。
連絡文書分析は、いくつかの理由でブランド認識において価値があります。ブランドと属性の間の相対的な関係を調べようとすると、ブランドサイズが誤解を招く可能性があります。連絡文書分析によって、この効果が排除されます。また、連絡文書分析では、他の多くのグラフでは提供されないブランド属性関係を (原産地との近さおよび距離に基づいて) 直感的に簡単に把握することができます。
このページでは、ソーダ製品のさまざまな (架空の) ブランドのユースケースに連絡文書分析を適用する方法の例を説明します。
ここでは、入力データ書式 (偶発事象テーブル) の使用を開始します。
偶発事象テーブル
偶発事象テーブルは、行および列に変数のグループを持つ 2 次元のテーブルです。上記のように、グループがブランドとその関連属性であった場合、アンケートを実行し、異なるブランドを特定の属性に関連付ける異なる回答数を返します。テーブルの各セルは、その属性をそのブランドに関連付ける回答数または件数を表します。この「関連付け」は、「___ 属性が表示されると思われるリストからブランドを選択」などのアンケートの質問によって表示されます。
ここでは、”brands” (行) と “attributes” (列) の 2 つのグループがあります。右下隅のセルは、「Brawndo」ブランドおよび「Economic」属性の回答数を表します。
タスティ | 美学 | 経済 | |
バタービール | 5 | 7 | 2 |
Squishee | 18 | 46 | 20 |
スラーム | 19 | 29 | 39 |
フィジリフティングドリンク | 12 | 40 | 49 |
Brawndo | 3 | 7 | 16 |
残差 (R)
対応分析では、各細胞の残差を調べたい。残差は、観測されたデータと期待されるデータの差異を定量化します。行カテゴリと列カテゴリの間に関係がない場合 (ここでは、ブランドと属性になります)。正残差は、そのブランド属性のペアリングの件数が予想よりもはるかに多いことを示し、強い関係を示しています。それに応じて、負の残差は予想よりも低い値を示し、関係が弱いことを示します。これらの残差を計算してみましょう。
残余 (R) は R = P – E と等しく、ここで P は観測された比率、E は各セルの予想比率である。 これらの状況と期待される比率を掘り下げてみましょう。
測定比率 (P)
観測された比率 (P) は、テーブル内のすべての値の合計で除算されたセルの値と等しくなります。したがって、上記の偶発事象テーブルの場合、合計は 5 + 7 + 2 + 18 … + 16 = 312 になります。各セル値を合計で除算すると、観測された比率 (P) について下の表に示されます。
たとえば、右下のセルでは、初期セル値 16/312 = 0.051 を取得しました。これは、収集されたデータに基づいて Brawndo と Economic のペアが表しているチャート全体の比率を示しています。
タスティ | 美学 | 経済 | |
バタービール | 0.016 | 0.022 | 0.006 |
Squishee | 0.058 | 0.147 | 0.064 |
スラーム | 0.061 | 0.093 | 0.125 |
フィジリフティングドリンク | 0.038 | 0.128 | 0.157 |
Brawndo | 0.01 | 0.022 | 0.051 |
行および列同一
観察された比率から簡単に計算でき、後で頻繁に使用されるのは、比率テーブルの行と列の合計です。この合計は行および列質量と呼ばれます。行または列の質量は、その行/列の値の比率です。上のチャートで見た「バタービール」の行質量は、0.016 + 0.022 + 0.006となり、0.044になります。
同様の計算を行うと、結果は以下のようになります。
タスティ | 美学 | 経済 | 行ミス | |
バタービール | 0.016 | 0.022 | 0.006 | 0.044 |
Squishee | 0.058 | 0.147 | 0.064 | 0.269 |
スラーム | 0.061 | 0.093 | 0.125 | 0.279 |
フィジリフティングドリンク | 0.038 | 0.128 | 0.157 | 0.324 |
Brawndo | 0.01 | 0.022 | 0.051 | 0.083 |
列マス | 0.182 | 0.413 | 0.404 |
予想比率 (E)
予測比率 (E) は、行と列の間に関係がないと仮定して、各セルの比率で予測される値です。セルの予測値は、そのセルの行質量に、そのセルの列質量を乗算した値になります。
左上のセルで、Butterbeer の行質量に Tasty の列質量を乗じた値 0.044 * 0.182 = 0.008 を参照してください。
タスティ | 美学 | 経済 | |
バタービール | 0.008 | 0.019 | 0.018 |
Squishee | 0.049 | 0.111 | 0.109 |
スラーム | 0.051 | 0.115 | 0.113 |
フィジリフティングドリンク | 0.059 | 0.134 | 0.131 |
Brawndo | 0.015 | 0.034 | 0.034 |
残差 (R) テーブル (R = P – E) を計算できるようになりました。残差は、行と列の間に関係がないと仮定した場合に、観察されたデータ比率と予想されるデータ比率との差異を定量化したものです。
Squishee と Economic にとって最もネガティブな価値である -0.045 を考慮すると、ここで解釈するのは、Squishee と Economic の間には否定的な関係があるということです。Squishee は、他の飲料ブランドよりも「経済」とみなされる可能性が非常に低いということです。
タスティ | 美学 | 経済 | |
バタービール | 0.008 | 0.004 | -0.012 |
Squishee | 0.009 | 0.036 | -0.045 |
スラーム | 0.01 | -0.022 | 0.012 |
フィジリフティングドリンク | -0.021 | -0.006 | 0.026 |
Brawndo | -0.006 | -0.012 | 0.018 |
インデックス化された残差 (I)
しかし、残差を読み取るだけではいくつかの問題がある。
上の残差計算テーブルから最初の行を見ると、これらの数値はすべて非常にゼロに近いことがわかります。この仮定は誤りであるため、Butterbeer は当社の属性に関連していないという明白な結論を取り入れるべきではありません。実際の説明では、観測された比率 (P) と予想される比率 (E) は小さいです。これは、行質量が示すように、サンプルの 4.4% のみがバタービールであるためです。
これにより、残差の確認に関する大きな問題が発生します。行および列の実際のレコード数は無視されるため、大きな量の行/列に対して結果が偏っているためです。これを修正するには、残差を予測比率 (E) で除算し、指数残差のテーブル (I、I = R / E) を提供します。
タスティ | 美学 | 経済 | |
バタービール | 0.95 | 0.21 | -0.65 |
Squishee | 0.17 | 0.32 | -0.41 |
スラーム | 0.2 | -0.19 | 0.11 |
フィジリフティングドリンク | -0.35 | -0.04 | 0.2 |
Brawndo | -0.37 | -0.35 | 0.52 |
インデックス付き残差は、解釈が容易です。つまり、テーブルからの値が増加するほど、予想される比率と比較して観測された比率が大きくなります。
例えば、左上の値をとると、バタービールは、これらのブランドと属性の関係がないと予想するよりも「Tasty」と捉えられる可能性が95%高い。一方、Butterbeer は、ブランドと属性との関係がない限り、期待するよりも「経済」とみなされる可能性が 65% 低くなっています。
タスティ | 美学 | 経済 | |
バタービール | 0.95 | 0.21 | -0.65 |
Squishee | 0.17 | 0.32 | -0.41 |
スラーム | 0.2 | -0.19 | 0.11 |
フィジリフティングドリンク | -0.35 | -0.04 | 0.2 |
Brawndo | -0.37 | -0.35 | 0.52 |
指数残差 (I)、予想比率 (E)、観察された比率 (P)、および行と列の質量を考えると、チャートの連絡文書分析値を計算しましょう。
連絡文書分析の座標計算
個別値分解 (SVD)
最初のステップは、個別値分解 (SVD) を計算することです。SVD は、差異を計算し、行と列 (ブランドと属性) をプロットするための値を提供します。
標準残余 (Z) の SVD を計算します。Z = I * sqrt(E) (I はインデックス付き残余、E は期待される比率) です。E で乗算すると、SVD が加重されます。予測値が大きいセルには高い加重が与えられ、その逆も同様です。つまり、予想値がサンプルサイズに関連することが多いため、サンプリングエラーが大きいはずのテーブルの “小さい” セルが下加重されます。したがって、偶発事象テーブルを使用した連絡文書分析は、サンプリングエラーによる異常値に対して比較的堅牢です。
SVD に戻ると、SVD = svd(Z) になります。特異値分解は、3 つの出力を生成します。
特異値を含むベクトル d。
第一次元 | 第 2 次元 | 第 3 次元 |
2.65E-01 | 1.14E-01 | 4.21E-17 |
左単数ベクトル(ブランド)を含む行列u。
第一次元 | 第 2 次元 | 第 3 次元 | |
バタービール | -0.439 | -0.424 | -0.084 |
Squishee | -0.652 | 0.355 | -0.626 |
スラーム | 0.16 | -0.0672 | -0.424 |
フィジリフティングドリンク | 0.371 | 0.488 | -0.274 |
Brawndo | 0.469 | -0.06 | -0.588 |
右単数ベクトル (属性) を含む行列 v。
第一次元 | 第 2 次元 | 第 3 次元 | |
タスティ | -0.41 | -0.81 | -0.427 |
美学 | -0.489 | >0.59 | -0.643 |
経済 | 0.77 | -0.055 | -0.635 |
左単数ベクトルはテーブルの行のカテゴリに対応し、右の単数ベクトルは列に対応します。分散を計算するための特異値、および位置をプロットするための対応するベクトル (つまり、u と v の列) は、次元に対応します。連絡文書分析チャートの行カテゴリと列カテゴリのプロットに使用される座標は、最初の 2 つのディメンションから誘導されます。
ディメンションで表される分散
二乗特異値は、固有値 (d^2) と呼ばれます。この例での固有値は、0.0704、0.0129、および 0.0000 です。各固有値を合計の比率として表現すると、各ディメンションの個別値に基づいて、対応分析の各ディメンションで捕捉された分散の量がわかります。最初のディメンションで表される差異は 84.5%、2 番目のディメンションでは 15.5% になります (3 番目のディメンションは差異の 0% を示しています)。
標準連絡文書分析
現在、左右の単一ベクトルから計算された標準座標を使用して、連絡文書分析の基本的な形式を計算するためのリソースが備えられています。これまでは、SVD を実行する前に、インデックス残差を加重していました。インデックス残差を表す座標を取得するには、SVD の出力の加重を解除し、左単数ベクトルの各行を行ミサの平方根で割り、右単数ベクトルの各列を列ミサの平方根で除算して、プロットする行と列の標準座標を取得する必要があります。
ブランドの標準座標:
第一次元 | 第 2 次元 | 第 3 次元 | |
バタービール | -2.07 | -2 | -0.4 |
Squishee | -1.27 | 0.68 | -1.21 |
スラーム | 0.3 | -1.27 | -0.8 |
フィジリフティングドリンク | 0.65 | 0.86 | -0.48 |
Brawndo | 1.62 | -0.21 | -2.04 |
属性標準座標:
第一次元 | 第 2 次元 | 第 3 次元 | |
タスティ | -0.96 | -1.89 | -1 |
美学 | -0.76 | 0.92 | >-1 |
経済 | 1.21 | -0.09 | -1 |
プロットで捕捉された差異が最も大きい 2 つの次元、X 軸に表示される最初の次元、Y 軸の 2 番目の次元を使用して、標準連絡文書分析グラフを生成します。
標準連絡文書分析に必要な計算の基盤を構築しました。次のセクションでは、さまざまな形式の連絡文書分析の長所と短所と、ブランド認識の分析を支援するという目的に最も適した長所と短所について考察します。
連絡文書分析のタイプ
行/列主要連絡文書分析
標準対応分析は計算が容易で、そこから強い結果を引き出せる。ただし、標準的な対応は、当社のニーズにとって不十分な選択肢です。行座標と列座標の間の距離は誇張されており、行カテゴリと列カテゴリの間の関係の直接的な解釈はありません。行 (ブランド) 座標の関係を解釈し、行カテゴリと列カテゴリ間の関係を解釈するには、行の主要正規化が必要です (または、ブランドが列に存在する場合は、列の主要正規化)。
行の主要正規化のために、列 (属性) 値に対して上記で計算された標準座標を使用しますが、行 (ブランド) 値の主要座標を計算する必要があります。主座標の計算は標準座標をとり、それらに対応する特異値 (d) を掛けることと同じくらい単純である。そのため、行については、以下の表に示すように標準行座標に単一値 (d) を乗算します。列の主要正規化では、行ではなく単純に行に単一値 (d) を乗算します。
第一次元 | 第 2 次元 | 第 3 次元 | |
バタービール | -0.55 | -0.23 | 0 |
Squishee | -0.33 | 0.08 | 0 |
スラーム | 0.08 | -0.14 | 0 |
フィジリフティングドリンク | 0.17 | 0.1 | 0 |
Brawndo | 0.43 | -0.02 | 0 |
行(ブランド)の主座標を代用すると、:
となります。単一値でスケーリングしたため、行の主座標は元のテーブルの行プロファイル間の距離を表します。連絡文書分析チャートの行座標間の関係は、互いに近接することで解釈できます。
カラム座標間の距離は、標準座標に基づいているため、依然として誇張されています。また、2 つのカテゴリ (行/列) のいずれかのみの単一値によるスケーリングにより、行カテゴリと列カテゴリの関係を解釈する方法が得られました。Butterbeer (row) や Tasty (column) など、ロー値とカラム値を指定すると、オリジンまでの距離が長くなるほど、マップ上の他のポイントとの関連性が高くなります。また、2つの点(バタービールとタスティ)の間の角度が小さいほど、両者の相関関係が高くなる。
オリジンまでの距離と 2 つのポイント間の角度は、ドット積をとることと同等です。行値と列値の間のドット積は、2 つの間のアソシエーションの強さを測定します。実際、第 1 次元と第 2 次元がデータのすべての差異を説明すると (100% まで加算)、ドット積は 2 つのカテゴリのインデックス付き残余と直接等しくなります。ここで、ドット積は、2つの点の起点までの距離に、それらの間の角度のコサインを乗じたものである。丸めエラーを考慮すると、これは指数付残価の .95 と同じです。したがって、90 度より小さい角度は正の指数残差を表し、したがって正の連想を表し、90 度より大きい角度は負の指数残留または負の関係を表す。
スケールされた行の主要連絡文書分析
上のチャートで行の主要正規化を確認すると、見やすくなります。列 (特質) のポイントははるかに広がっており、行 (ブランド) に対するポイントは原点を中心にまとめられています。これにより、グラフを目で分析するのは難しく、直感的ではなく、行カテゴリがすべて重なり合っている場合は読み取ることができなくなる場合があります。幸いなことに、グラフをスケールして列を取り込むための簡単な方法がありますが、その一方で、ドット積 (起点からの距離およびポイント間の角度) を使用して、行ポイントと列ポイントの間の関係を分析する機能を保持することができます。これは、スケールされた行の主要正規化と呼ばれます。
スケーリングされた行主正規化は行主正規化を使用し、行座標の X 軸をスケーリングするのと同じ方法で列の座標をスケーリングします。つまり、列座標は単一値 (d) の最初の値で拡大/縮小されます。行の値は行の主体の正規化と同じままですが、列座標は一定係数で縮小されます。
第一次元 | 第 2 次元 | 第 3 次元 | |
タスティ | -0.2544 | -0.501 | -0.265 |
美学 | -0.201 | 0.2438 | -0.265 |
経済 | 0.321 | -0.02 | -0.265 |
つまり、列の座標が行座標により適合するように調整されるため、傾向の分析が大幅に容易になります。すべての列座標を同じ定数係数でスケーリングしたため、マップ上で列座標の散布を縮小しましたが、相対性に変更はありませんでした。それでもアソシエーションの強度を測定するためにドット積を利用しています。唯一の変化は、最初と 2 番目のディメンションがデータのすべての分散をカバーしている場合、インデックス付けされた残差が 2 つのカテゴリのドット積と等しくなるのではなく、2 つのカテゴリの位取りされたドット積に等しくなります。これは、最初の単一値 (d) の定数値でスケーリングされたドット積です。チャートの解釈は行主体の正規化と同じままです。
主要連絡文書分析
ここで言及する最後の形式の対応解析は、主要対応分析であり、対称マップ、フランス語スケーリング、または標準対応分析とも呼ばれます。行/列の主要連絡文書分析と同様に、標準行または標準列に単一値 (d) を乗算するだけでなく、これらの両方に単一値を乗算します。そのため、標準列の値に単一値を掛け合わせると、以下のようになります。
第一次元 | 第 2 次元 | 第 3 次元 | |
タスティ | -0.2544 | -0.215 | 0 |
美学 | -0.201 | 0.105 | 0 |
経済 | 0.321 | -0.01 | 0 |
行主体分析で計算された行値とともにこれらを結合すると、Canonical correspondence analysis は
、行座標と列座標の両方を単一値によってスケーリングします。つまり、行間の関係は、(近接性に基づく) 行での主要対応分析と同じように解釈することができ、列間の関係は、列の主要連絡文書分析と同様に解釈することができます。ブランド間の関係と属性間の関係を分析できます。また、行/列の主体の分析から、マップの中心にある行/列のクラスタリングも失われます。ただし、標準的な連絡文書分析によって失われるのは、ブランドと属性の関係を解釈する方法であり、ブランド認識において非常に役立ちます。
並列比較
標準連絡文書分析
SVD の左と右の単数ベクトルを行質量と列質量で割って計算する、最も簡単な形式の対応分析。行座標と列座標の間の距離は誇張され、行カテゴリと列カテゴリの間の関係は直接解釈されません。
行プリンシパル正規化連絡文書分析
上記の標準座標を使用しますが、行座標に単一値を乗算して正規化します。行 (ブランド) 間の関係は、相互の距離に基づいています。列 (属性) 距離は依然として大げさです。行と列の間の関係は、ドット積で解釈することができます。行(ブランド)は中心にしがみつく傾向にある。
スケール行プリンシパル正規化連絡文書分析
行の主体の正規化を取得し、最初の単一値の定数によって列の座標を拡大/縮小します。行の主体の正規化と同じ解釈が行われ、ドット積が位取りされたドット積に置き換えられます。中央の行の拍手をなくします。これは、好ましい連絡文書分析のスタイルです。
主要正規化連絡文書分析 (対称的、フランスマップ、標準)
行と列の両方で、正規化された主座標を使用したもう 1 つの一般的な形式の連絡文書分析。行 (ブランド) 間の関係は、相互の距離によって解釈することができます。列 (属性) についても同様です。行と列の間の関係に解釈を描画することはできません。
ラッピング・アップ
最終的には、連絡文書分析を使用して、2 つのグループ内のと間の相対関係を分析します。この例では、これらのグループはブランドおよび属性です。
連絡文書分析では、インデックス残差を活用することで、グループ間で異なる質量から結果の偏りを排除します。対応分析のブランド認識については、行主体(または、ブランドが列に配置されている場合は列主体)の正規化を利用しています。これにより、異なるブランド間の関係を互いに近接して分析することができ、また、ブランドと属性間の関係を起点からの距離と原点(ドット製品)の間の角度と結合して分析することもできます。これは、SAP が誇張した関係を持つ属性間の関係を誤って表現する犠牲で、距離が重視されないためです。拡張行/列プリンシパルの正規化を利用して、グラフの分析を低コストで容易にします。X 軸と Y 軸のラベル (1 番目と 2 番目のディメンション) から説明された差異を合計して、マップで捕捉された合計差異を表示することに注意してください。この数値が小さいほど、データ内の説明されていない差異が大きくなり、プロットが誤解を招く可能性が高くなります。
最後に覚えておくべきことは、データの大量係数が排除されたため、連絡文書分析では相対性のみが表示されるという点です。グラフには、どのブランドが属性の「最高」スコアを持っているかについて何も示されません。グラフの作成方法と分析方法を理解すると、連絡文書分析は、ブランドサイジングの効果を無視し、ブランド間およびブランド内の関係とその適用可能な属性に関する強力で解釈しやすいインサイトを提供する強力なツールです。