クラスタ分析
クラスタ分析について
データを分析する際には、さまざまな人口統計グループに関心があることが多く、収入、地域、年齢などによって回答者をセグメント化します。しかし、これらのラベルが還元的になることもあります。結局は、男性回答者が多数いることを知って、どのような広告キャンペーンを見たいのか教えてくれません。オーディエンスは主にミレニアム世代ですか?サッカーはどう? 両方ですか? マーケティング目的で分類できる用語に、個人の特性をどのように反映させていますか。
クラスタ分析は、アンケートのデータセットに自然に出現するグループを検出する手段です。これは、どの人口統計、行動、およびベリーフベースの資質が最も高い相関関係であるかを分析することによって行われます。
クラスタ分析のためのアンケートの準備
クラスタ分析を実行するには、アンケートの正しいデータを収集する必要があります。
- 適切な質問:
- 人口統計:年齢、収入の括弧、人種、性別などの基本的な説明情報を尋ねます。
- 行動:顧客が自社のブランドや製品とどのようにやり取りするか、または顧客の購買行動に関連する可能性のある行動について尋ねます。たとえば、顧客がショッピングに出かける頻度を尋ねることができます。
- オペレーショナル データ: Web サイトで費やされた時間、または会社の従業員の在職期間などの情報です。
ヒント:ページに費やされた時間の追跡に関心はありますか? 当社のウェブサイトフィードバック機能の使用に関心があるかもしれません。詳細については、営業担当にお問い合わせください。
- 態度と信念:回答者の基本的価値、態度、信念についてアンケートを実施します。これには宗教的信念や政治的信念が含まれますが、会社の仕組みに直接関連する信念について尋ねることもできます。たとえば、サポートインタラクションが対面でどの程度重要であるかを評価するよう依頼することができます。
- 質問の形式:行動と信念に関する質問をスケールとして書式設定します。スケールの範囲は、どの数値セットが相関しているのか、したがってほぼ同じクラスタ内にあるかを理解するのに役立ちます。はい/いいえおよび単一選択の質問は、クラスタ分析にはあまり役立ちません。
例:「どんなお買い物客ですか」と聞くと、「モールでのショッピングを好む」、「オンラインショッピングを好む」、「ブティックでのショッピングを好む」の各オプションを提供することで、クラスタリングアルゴリズムでは、回答者を回答者ごとに 1 つずつ、3 つのグループに分類します。その代わりに、一連の質問(「モールでのショッピングは好きですか」など)として質問した場合1 から 7 までの応答では、クラスタリングアルゴリズムによって、さまざまな買い物客が互いに区別されているものを見分けることがより効率的になります。ヒント:スカラデータの収集には、多肢選択式の質問が最適です。
- 変数タイプ: Stats iQで分析する準備ができたら、変数をカテゴリまたは数値として書式設定してください。日付がクラスタ分析と互換性がありません。
クラスタ分析の実行
- 質問の変数タイプが数値またはカテゴリに設定されていることを確認してください。
- 左側に沿って分析する変数を選択します。
- クラスタをクリックします。
クラスタ分析結果
強度と静的テーブル
テーブルには、サンプルサイズ(この分析に貢献した回答者の数)、クラスタの数、およびシルエットスコアが一覧表示されます。シルエットスコアは、上部の文で「非常に強く」のようなフレーズとして解釈されます。
クラスタ分析では、クラスタのきつさをさまざまな数で評価することで適切なクラスタ数の自動選択が試みられますが、多くのクラスタを処理しにくくなるため、多くのクラスタにペナルティが課されます。正しい数字を選ぶのは科学よりも芸術であり、さまざまな数字を試して最もうまくいくものを確認すべきだ。
場合によっては、アルゴリズムによって特定の数のクラスタが生成されず、それよりも少ない数に戻される場合があります。
クラスタの概要
クラスタの概要セクションにクラスタが一覧表示されます。これらは、クラスタのほとんどの回答メンバーに基づいて記述されます。
例: このスクリーンショットのクラスタ 1 には、
のユーザが含まれています。
- 既婚
- 修士号を持つ
- 自宅に住む人(直接家族や子供)がほとんどいない。
- Young
クラスタの名前を変更するには、クラスタの名前をクリックします。
クラスタ結果テーブル
クラスタの結果テーブルで、クラスタのメイン変数が強調表示されます。カテゴリ変数の場合、最も一般的なオプションと、この回答を提出したクラスタ内の回答者の割合が示されます。 数値変数の場合は、平均応答が表示されます。
例:このスクリーンショットでは、教育レベルがカテゴリ別であるため、学士号と博士号を比較した回答者の割合の内訳が示されています。高校時代の教育と比べると修士号。
ここでは経過時間が数値であるため、各クラスタの平均経過時間 (クラスタ 1 の場合は 32.4、クラスタ 2 の場合は 50.3) が表示されます。
クラスタからの変数の作成の詳細については、「クラスタから変数を作成」セクションを参照してください。
変数の重要度
変数の重要度テーブルには、各変数とクラスタの関係の強さが表示されます。より強い関係は、クラスタの登録において変数がより重要であったことを示します。
これを計算するために、変数ごとに回帰を実行します。たとえば、クラスタの結果に対して経過時間を実行したり、クラスタの結果に対して何時間も作業を行ったりします。
これらの回帰から生じる R二乗値は、最大R二乗が1に設定されるように拡大/縮小されます。
結果からの新しい変数の作成
回答者の中からクラスターを特定したら、これらのカテゴリをStats iQで分析できる新しい変数にできます。
まず、クラスタの名前をクリックして、クラスタの名前を変更してください。
クラスタ名が正しい場合は、[クラスタ結果] テーブルのクラスタから変数を作成をクリックします。これにより、カテゴリ変数が左側の変数の一覧に自動的に追加されます。
テクニカルノート
Stats iQのクラスタ分析は、LCA(潜在的クラス分析)を使用して、ユーザーが提供したデータを基盤となるクラスターに分割します。他のクラスタリングアルゴリズムとは異なり、Stats iQ LCAアルゴリズムでは、混在するデータ型(数値、カテゴリ、バイナリ)をクラスタ化できます。
複合タイプの潜在力クラス分析
潜在的クラス分析 (LCA) は、確率ベースのクラスタリングモデルです。各クラスタは、確率密度関数のコレクションによって定義されます。確率密度関数は、データポイントの変数の値に基づいて、特定のデータポイントがそのクラスタに属する可能性を返します。
例:現在の子供、親、祖父母など、ご家族を数世代に分けることができます。LCA モデルはこれらの 3 つのクラスタを表し、各クラスタは経過時間に基づく単一の確率関数によって定義されます。
クラスタ | 確率関数平均 | 確率関数標準偏差 |
現在の | 25 | 7 |
親 | 48 | 5 |
祖父母 | 75 | 3 |
クラスタに 30 であるユーザを割り当てるには、これらの確率密度関数を使用して、現在の発生可能性 44%、親にある可能性 1%、および祖父母にある可能性を 1% と計算します。この個人は、最も可能性の高いクラスタ Current に割り当てられます。
LCA モデルは、各変数に基づくクラスタにデータポイントが属している可能性を乗算することで、複数の変数に適用できます。モデルは、さまざまな確率密度関数を使用して、さまざまな変数タイプに適用することができます。
タイプ | 変換 | 確率密度関数 |
分類別 | ダミーエンコード済 (N-1) | ベルヌーイ |
バイナリ | ベルヌーイ | |
数字 | 標準 |
クラス数の決定
Stats iQでは、クラスの最適な数を決定するために、BIC スコアが使用されます。
モデル適合の評価
Stats iQでは、モデルの目的の「良さ」を評価するために、確率ベースのシルエットスコアを使用します。シルエットスコアは、各データポイントがクラスタ内にどの程度適しているかを示す指標です。シルエットスコアは、クラスタ内の他のすべてのポイントに対する特定のポイントの類似性を測定し、最も近いクラスタ内のすべてのポイントとの類似性を比較します。Stats iQでは、2つのデータ要素間の類似性を測定するため、ポイント間のガワー距離(バイナリ、カテゴリ、数値の各データに有効な距離測定基準)が計算されます。