回帰および相対的重要性
回帰および相対的重要性について
回帰は、複数の入力変数を合わせると、出力変数にどのように影響するかを示します。たとえば、”顧客としての年数” と “会社規模” の両方の入力が出力 “満足度” と相互相関している場合、回帰を使用して、”満足度” の作成にとって 2 つの入力のうちどちらがより重要であったかを判断することができます。
相対的重要性分析は、アンケートデータの回帰と、Stats iQで実行された回帰のデフォルト出力に対するベストプラクティスです。相対的重要性は、入力変数が互いに相関している状況を表す回帰の最新の拡張であり、アンケート調査では非常に一般的な問題です(「多重共線性」と呼ばれます)。相対的重要性は、Johnsonの相対的な重みとしても知られ、シャプレー分析のバリエーションであり、ドミナンス分析と密接に関連しています。
回帰の設定方法については、Stats iQを参照してください。回帰分析の分析部分の考察の詳細については、以下のページを参照してください。
線形回帰の場合、Stats iQ の相対的重要性は Lipovetsky, Stan & Conklin, Michael. (2001) で説明されている手法に従います。ゲーム理論アプローチにおける回帰の分析。Applied Stochastic Models in Business and Industry. 17. 319 – 330. 10.1002/asmb.446.
回帰カードの変数の選択
回帰カードを作成すると、データセット内の 1 つの変数の値が他の変数の値によってどのように影響を受けるかを把握できます。
変数を選択すると、1 つの変数にキーが設定されます。回帰の場合、キー変数は出力変数になります。キー変数の後に選択された他の変数は、それぞれ入力変数になります。つまり、出力変数の値が入力変数によってどのように制御されるのかを説明しようとしています。
回帰の変数を選択する際の考慮事項:
- キー変数を変更するには、変数ペインの任意の変数の横にあるキーアイコンをクリックします。
- 選択した変数が回答数よりも多い場合、回帰は実行されません。
- 最大 25 個の入力変数を選択できます。ただし、入力変数を 1 ~ 10 個選択しようとすると、結果が非常に複雑になる可能性があります。
分析に含める変数の数が多い場合は、以下のアプローチを考慮してください。
- いくつかの初期回帰を実行し、モデルにおける重要性が非常に低い変数を除外します。
- たとえば、変数を平均化することで、複数の変数を組み合わせます。
- データの構造で許可されている場合は、341 ページの説明に従って、2 ステップの相対的な重要性プロセスを使用することができます。
例: たとえば、従業員の自律性満足度が 10 メジャー、従業員報酬満足度が 10 メジャーであるとします。
- これらのグループを 2 つの異なるサマリー変数に平均化します。1 つは自律型で、もう 1 つは報酬用です。
- 全体の満足度を出力として 1 つの相対的重要度分析を実行し、入力として 2 つのサマリ変数を実行して、どのグループがより重要であるかを確認します。
- 次に、全体の満足度を出力として 1 つの相対的重要度分析を実行し、入力として 10 個の自律変数のみを実行して、そのグループ内で最も重要な変数を確認します。
- 全体満足度を出力として 1 つの相対的重要度分析を実行し、入力として 10 個の報酬変数のみを実行して、そのグループ内で最も重要なものを確認します。
変数を選択
したら[回帰]をクリックして回帰を実行します
ヒント:回帰カードの上部には緑(場合によっては赤)の線が表示されます。これをクリックすると、その特定のカードに対して「含まれる」または「不明」としてマークされた回答の数が表示されます。
- 含める:回帰分析で使用されるすべての質問またはデータポイントの質問に回答した回答者、または欠落している入力変数のデータを付加した回答者。このデータは、回帰分析で使用されます。
- 欠落:結果の従属変数の値がない回答者。このデータは、回帰分析では使用されません。
回帰のタイプ
Stats iQでは、主に2つのタイプの回帰実行があります。出力変数が数値変数である場合、Stats iQは線形回帰を実行します。出力変数がカテゴリ変数の場合、Stats iQはロジスティック回帰を実行します。
具体的には、Stats iQで実行される回帰のタイプは以下のとおりです。
線形回帰
相対的重要性は、最小二乗法 (OLS) と組み合わされます。出力は、以下の 2 つの分析を組み合わせたものです。
- 相対的重要性:このセクションのデータはすべて、OLS回帰から取得されるR二乗を除いて相対的重要性から取得されます。
- モデルを詳細に調査:このセクションのデータはすべて、データ自体から取得される分布を除き、相対的重要性から取得されます。
- OLSの回帰診断と残差を分析してモデルを改善します。このセクションのデータはすべて、OLS回帰から取得されます。
ロジスティック回帰
ロジスティック回帰は、バイナリ (例:Yes または No) の結果から、入力変数のセットが与えられます。3グループ以上の出力変数に対して回帰を実行すると、Stats iQはグループを選択して他のグループをバケットにまとめ、バイナリ回帰にします(回帰の実行後に分析されるグループを変更できます)。
相対的重要性
アンケートデータの入力変数は互いに高い相関関係を持つことがよくあります。これは「多重共線性」と呼ばれる問題です。これにより、回帰出力が発生し、ある変数の重要性が人為的に増加し、別の相関変数の重要性が低下する可能性があります。相対的重要性は、これを説明するためのベストプラクティスとして認識されます。
相対的重要性(特にジョンソンの相対的な重み)は、この問題の影響を受けず、どのタイプの回帰が実行されているかに関係なく、入力変数の重要性に十分なバランスを取ります。 また、各変数の相対的な重み (または相対的重要性)、その変数による出力における説明可能な変化の割合も計算されます。これは、100% に加算される一連のパーセンテージとして表示されます。
一連の回帰の実行に類似した結果 (入力変数のバリエーションごとに 1 つ) を返します。たとえば、2 つの変数がある場合、変数 A を持つリグレッション、変数 B を持つリグレッション、両方を使用するリグレッションの 3 つのリグレッションを実行することに相当します。これにより、各変数の重要性を定量化し、その定量化を回帰結果に適用することができます。
回帰出力
Stats iQで回帰を実行すると、分析結果には以下のセクションが含まれます。
数値集計
カードの上部には、回帰分析の概要が表示されます。選択した変数を確認すると、この要約では、プライマリドライバとセカンダリドライバのどちらであるのか、および累積的な影響が小さいドライバが説明されます。データテーブルには、サンプルサイズと R 二乗値が含まれます。
相対的重要性
- 低インパクト変数: 相対的重要度が 10% 以下の変数はグループ化されます。選択すると、影響度の低い各変数の相対的な重要性と統計的な有意性を説明するセクションがあります。
- 影響度の高い変数:影響度が高い変数はそれぞれ分離され、クリック可能です。変数が選択されると、棒グラフの下には、説明されているバリエーションと、モデルで他の変数を制御した場合に何が起こるかが表示されます。
追加モデル詳細
モデルを詳細に探索を選択すると、入力変数と出力変数が一覧に表示されます。入力変数には、以下の情報が含まれます。
- 相対的重要性:個々の変数によるR二乗の割合です。R二乗は、出力変数の変化のうち、このモデルの入力変数によって説明可能な変化の割合です。詳細については、「相対的重要性」を参照してください。
- オッズ比:ロジスティック回帰にのみ関連します。特定の入力変数のオッズ比は、各ユニットのオッズ変化が説明変数で増加する要因を示します。
例:マネージャーに対する満足度のオッズ比率が 1.1 で、出力変数のグループが「満足」および「不満」である場合、マネージャーへの満足度が 1 高い場合、出力変数の「満足」の確率は 1.1(10% 高い)になります。 データの行がカテゴリの場合(色[青]など)、カテゴリ変数が「ベースライン」グループ(赤、緑など)ではなくそのカテゴリ(青)である場合、係数は応答変数のオッズの変化を表します。
- 係数: 入力変数の 1 単位の増加は、出力変数の係数の増加に関連付けられます。これらの係数は、相対的重要性分析の結果に基づいて構成されるため、多重共線度に合わせて調整され、標準的な最小二乗回帰から生じる係数とは一致しません。
- 標準化係数:標準化係数は、係数を入力変数の分散で割ったものです。これにより、各変数が同じスケールになるため、係数をより直接比較できます。
- P値:P値は統計的有意性の尺度です。低い値は、関係が偶然である可能性が低いことに関連付けられます。カテゴリ変数の場合、P値はグループとその変数の「ベースライン」グループとの差異の統計的有意性を示します。
- トランスフォーム: 変数の変換を参照してください。
OLS 回帰の分析
線形回帰
の場合は、[OLS 回帰診断および残差の分析] をクリックして、キー/出力変数の下のモデルを改善し、[予測と実績] および [残差] プロットを表示します。詳細については、「回帰を改善するための残存プロットの解釈」を参照してください。
含まれる変数
回帰カードの一番上のヘッダに沿って、回帰で使用される変数が表示されます。
をクリックすると、新しいウィンドウが開き、識別値を割り当てたり、バケット値を割り当てたりできます。矢印をクリックして、分析の入力変数と出力変数を切り替えます。関連する変数が多すぎてヘッダーに表示
できない場合は、[説明変数]ドロップダウンが表示され、識別値を割り当てる変数から選択できます。
変数の追加および削除
回帰カードを作成したら、以下の手順に従って追加の変数を分析に追加できます。
- モデルを詳細に探索をクリックします。
- カードの下部にあるモデルに変数を追加を選択します。これにより、回帰にまだ使用されていない変数のリストが表示されます。
- この一覧から変数を選択します。
- 適用をクリックし、インクルードされた新しい変数を使用して分析を再実行します。
回帰から変数
を削除するには、目的の変数にカーソルを合わせ、テーブルの右端にある青い X をクリックします。追加または削除する変数を選択したら、”適用” を選択して新しいモデルを実行してください。
変数の影響
回帰では、すべての入力変数にデータがある行のみが考慮されます。ただし、多くの場合、アンケートデータの収集でデータが欠落しているため、回帰分析とモデルに悪影響を及ぼす可能性があります。欠損データがない行のみを回帰に含めると、サンプルがデータセット全体を表さないため、分析結果に偏りが生じる可能性があります。
Imputationでは、Stats iQによって欠損データに予測値が自動的に入力されます。欠損データが入力されると、より多くの元データを回帰分析に含めることができ、結果としてバイアスが少ない回帰モデルになり、目的の結果変数の変化をより適切に説明することができます。
付加は自動であるため、値のないデータセットに対して回帰分析を実行すると、計算が実行される前にデータセットが付加されます。
- ここをクリックして、変数の注入の前後にデータセットの例を表示します。
- 帰属前:
この回帰では、「データ使用」が出力変数で、「年齢」、「インターネットサービス」、「画面時間の分」が入力変数です。行 ID データ使用 年齢 インターネットサービス 画面時間 (分) 1 75 39 衛星 503 2 19 41 光ファイバー 52 3 87 434 4回 54 23 衛星 5 14 101 6 75 衛星 7 81 57 DSL 329 注意: 欠損値を入力せずに回帰を実行した場合は、行 1、2、および 7 のみが含まれます。付加後:
行 ID データ使用 年齢 インターネットサービス 画面時間 (分) 1 75 39 衛星 503 2 19 41 光ファイバー 52 3 87 50.9 不明 434 4回 54 23 衛星 359.0 5 14 50.9 不明 101 6 75 50.9 衛星 359.0 7 81 57 DSL 329 ヒント:「インターネットサービス」はカテゴリ変数であり、数値変数ではないため、欠落している値は「MISSING」として入力されます。
付加メソッド
Stats iQは現在、次の注入方法を使用しています。
- デフォルトカテゴリ:Stats iQは、不足しているデータを入力するための新しい「MISSING」カテゴリ値を作成します。このメソッドは、カテゴリ変数に使用されます。
- 平均:Stats iQが数値変数の分布に外れ値を検出しなかった場合、変数の欠損データは平均(平均)値で入力されます。このメソッドは、数値変数に使用されます。
- 中央値:Stats iQが数値変数の分布の外れ値を検出すると、変数の欠損データに中央値が入力されます。このメソッドは、数値変数に使用されます。
付加区分
データセットに対して回帰分析を実行すると、回帰カードの上部に付加のインジケータが表示されます。
帰属方法の横にある情報シンボル ( i ) をクリックすると、
帰属に関する詳細を参照することができます。
付加の無効化
Stats iQは、すべての回帰カードに自動的に付加を適用します。自動付加を無効化するには、回帰カードの上部にあるサンプルの欠落データを自動的に付加をクリックします。
付加警告
変数の変換
Stats iQで回帰分析を実行するときには、モデルの改善が必要な場合があります。モデルを改善する最も一般的な方法は、1 つ以上の変数を変換することです。通常は、”ログ” またはその他の機能変換を使用します。
変数の変換によって、変数の分布の形が変わります。一般的に、回帰モデルは、より対称的でベル型の分布でより適切に機能します。このような分布を示す変換が見つかるまで、さまざまな種類の変換を試してください。
- モデルを詳細に探索オプションで、変換列にスクロールします。
- 変換する変数の関数 (f(x)) ボタンをクリックします。
- リストから適用する機能を選択すると、Stats iQは新しい変換された変数を使用してカードを再計算します。
Stats iQでは、次の変換を使用できます。
最も一般的な変換は log(x) です。より小さな値と小さな値を持つ “累乗” 分布 (市区町村人口サイズなど) が、大部分の値が中央に向かってクラスタ化されるベル型の “正規分布” (高さなど) に変換されます。
log(x) は、変換される変数の値がゼロの場合に log(x+1) を使用します。これは、x が 0 の場合、log(x) を計算できないためです。変数を変換するタイミング
の詳細については、「線形回帰を改善するための残存プロットの解釈」
を参照してください。
Stats iQで使用できるその他の線形回帰テクニック
相対的重要性と最小二乗を合わせると、線形回帰のデフォルト出力になります。ただし、他のオプションも使用できます。
M推定、最小二乗法、リッジ回帰にアクセスするには、回帰カードの右上隅にある設定歯車をクリックします。回帰メソッドで回帰手法の名前をクリックすると、回帰カードに使用される回帰手法を変更できます。これは、線形回帰に対してのみ実行できます。
- M推定: 出力変数の外れ値を最小二乗法 (OLS) よりも適切に処理するように設計されています。
- 普通最小二乗法: 普通最小二乗 (OLS) は古典的な回帰技法である。これは、その仮定で異常値やその他の違反に敏感であるため、M 推定のようなより堅牢な方法をお奨めします。OLS はデフォルトの相対的重要性出力で使用されるため、このオプションは、相対的重要性の出力にまだ適合していない機能 (結果の予測とインタラクション条件の追加) に関心がある場合にのみ選択する必要があります。
- リッジ回帰:リッジ回帰は、標準OLS回帰と同様の技術だが、アルファチューニングパラメータを持つ。このアルファパラメータは、高い分散と、多重共線性に苦しむデータの処理に役立ちます。尾根回帰が適切に調整されると、バイアスと分散の妥協点が高くなるため、一般的にOLSよりも優れた予測が得られる。Stats iQでは、リッジ回帰を使用するときにアルファパラメータを選択できます。
M 推定、最小二乗法、または Ridge Regression を選択すると、出力を表示できます。[Regression Methods] セクションの下に出力が表示されます。
- 数値集計: カードの上部には、回帰分析の概要が表示されます。これには、サンプルサイズ、見つからないケース、方法、R二乗値、標準誤差、変動係数、モデル適合が含まれます。
- 係数詳細: 回帰の一次結果である数学方程式は要約の下にあります。出力/キー変数は方程式の左側にあります。入力変数は右側にあります。変数にカーソルを合わせると、その変数が出力変数にどのように寄与するかを簡潔に説明したツールヒントが表示されます。ここでは、出力変数の値を推定する数学方程式に値を入力することもできます。詳細については、下記の出力変数の推定に関するセクションを参照してください。
- 診断と残差:Stats iQでは、モデルの正確性と有効性の評価に役立つ診断が提供されています。詳細については、線形回帰を改善するための残存プロットの解釈またはコンフュージョンマトリクスおよびロジスティック回帰の精度リコールのトレードオフを参照してください。
出力変数値を見積もる
回帰を実行すると、係数詳細セクションの数式を使用して、選択した入力値に基づいて出力変数値を見積もることができます。方程式の右側に、入力変数が表示されます。入力変数ごとに値を設定することができます。方程式の左側は、出力変数です。入力変数の値を入力した後、方程式では回帰モデルに基づいて出力変数の推定が計算されます。
結果の予測
通常、入力変数と出力変数の関係を理解するには、Stats iQの回帰分析を使用します。ただし、回帰モデルが作成されると、入力値があるデータの行の出力値を予測するためにも使用できます。
インタラクション条件およびその他の高度な懸念
インタラクション用語の追加
回帰モデルの改善を試みるときに、既存の入力変数に加えてインタラクション条件を追加することもできます。入力変数のいずれかの値によって、異なる入力変数が出力変数に与える影響が変化することが疑われる場合は、インタラクション用語が追加されます。
例えば、ホテル滞在中に子どもがいる人の場合、年配の人よりも年下の方が満足しているかもしれませんが、子供がいない人にとっては年少の人は満足していません。それは、「子どもプレゼント」と「年齢」のやり取りがあるということでしょう。カードの入力変数一覧の下部にあるインタラクションを追加で 2 つの変数
を選択すると、インタラクション条件が回帰に追加されます。この機能は、最小二乗法、M-Estimation、および Ridge Regression でのみ使用できます。
相対的重要性分析のカテゴリ変数に対して同じ効果を得
るには、この 2 つを組み合わせた新しい変数を作成します。たとえば、色 (赤および緑のグループを含む) という変数とサイズ (大きいグループと小さいグループ) を組み合わせて、ColorSize という変数を作成します (グループ BigRed、BigGreen、SmallRed、SmallGreen)。
多共線性
多重共線性は、回帰コンテキストにおいて、2 つ以上の入力変数が互いに高い相関関係を持つ場合に発生します。
2つの変数の相関性が高い場合、回帰の数学は通常、1つの変数にできるだけ多くの値を加え、もう一方の変数には入れない。これは、その変数のより大きな係数で表される。ただし、(フィルタの追加などによって) 少量でもモデルが変更された場合、ほとんどの値が配置された変数は変化する可能性があります。つまり、小さな変更でも、回帰モデルに劇的な影響を及ぼす可能性があります。
相対的重要性の分析によってこの問題が処理されるため、心配する必要はありません。他の方法のいずれかを使用し、モデルにこの問題がある場合、(“差異インフレ係数” で測定される) 多重共線性の存在によって警告がトリガされ、変数を削除するか、変数を平均化して変数を組み合わせることなどが提案されます。
警告メッセージ
回帰結果に問題がある可能性がある場合は、Stats iQから警告が表示されます。これには、以下の状況が含まれます。