データの関連付け
データ関係について
相関では、変数間の関係を調べます。2つの変数を選択してから[関連]を選択すると、Stats iQはデータの構造に基づいて適切な統計テストを選択し、そのテストを実行してから、結果をシンプルかつ明確な説明に変換します。
3つ以上の変数を選択すると、Stats iQは各変数をキーを持つ1変数に関連付けてから、最も強い関係を一番上に移動します。一度に何十もの変数を選択できるため、多くの関係を素早くふるい分けることができます。
キー変数
変数ペインから最初に選択された変数がキー変数になります。キー変数は、以下の 2 つの機能を提供します。
- (上記のように) 2 つ以上の変数が選択されている場合、各非キー変数は 1 つのキー変数に関連付けられます (たとえば、10 個の変数を選択すると、1 つのキー変数が他の 9 つの変数に関連付けられ、9 つの別々の関連カードが生成されます)。
- キー変数は、デフォルトで “output” 変数です。たとえば、”年齢” と “場所” を選択すると、”年齢” (入力) が “場所” (出力) に影響する可能性がありますが、”場所” が “年齢” に影響する場合には意味がありません。この場合、”場所” によってキーを配置します。(多くの分析では、この区別は重要ではありませんが、入力変数と出力変数はカードの作成後に常に交換できます。)キー変数を出力変数の代わりに入力変数にする場合は、Relate ボタンの右側にある小さな矢印を選択します。
数値と数値変数の関連付け
2つの数値変数(識別されたカテゴリを含む)を関連付ける場合、Stats iQは通常、相関関係を実行して散布図を作成し、2つの変数間の関係を視覚的に表示します。
散布図で変数が重複する点が多い場合、Stats iQでは代わりに「結合された」散布図が表示されます。この散布図は、濃い長方形は結果のクラスタリングが大きいことを示します。データがその行が有用であることを示している場合(特に、データに行を消す可能性がある外れ値がない場合)、Stats iQによって最適な線が表示されます。
「関連」分析結果の統計詳細を表示するには、[統計テスト結果を表示]をクリックします。2 つの数値変数を関連付ける場合、Stats iQはP値を計算し、(効果量については)ピアソンの r またはスピアマンの rho を計算します。Stats iQが統計テストを選択する方法の詳細については、「統計テストの前提事項と技術詳細」ページを参照してください。
変数が相関しているかどうか、およびどの変数が平均で高いかにより関心が高いかどうかに関心がない可能性があります。2つの変数が類似するスケールにある場合、Stats iQは上部で相関関係からペアリングされた差分に切り替えるオプションを提供し、平均を比較できます。
数値変数とカテゴリ変数の関連付け
数値変数とカテゴリ変数を関連付けると、Stats iQは統計テストを実行し、数値変数の各カテゴリの件数、平均、中央値、分布を表示するテーブルを作成します。
たとえば、子供がいるホテルの宿泊客や、子供のない宿泊客の方が平均的に満足度が高いかどうかを判断することができます。この場合、「Children Present」変数はカテゴリ別で、「満足度」変数は数値です。
この統計検定の出力は、カードの[統計テスト結果を表示]をクリックすると表示されます。カテゴリ変数に2
カテゴリしかない場合、Stats iQはt検定または順位に基づくt検定を実行します。さらに多くの場合、Stats iQはANOVAまたは順位に基づくANOVAと、Games-Howellのアドホック後テストを実行します。Stats iQが統計テストを選択する方法の詳細については、「統計テストの前提事項と技術詳細」ページを参照してください。
カテゴリとカテゴリ変数の関係
カテゴリ変数とカテゴリ変数を関連付けると、Stats iQは統計テストを実行し、クロスタブを作成します。
クロスタブの各列の合計は 100% になります。以下の例では、「USA」の回答者の 69% が「リターン」で、31% が「新規」でした。行の合計を 100% にするには Row % を選択し、各セルに未加工の数を表示するには Count を選択します。テーブル全体の合計を 100% にするには、All % を選択します。または、分析結果の上部にある ← を選択して、列を含む行を完全に反転することもできます。
以下の例では、列の合計が 100% になるため、質問は「米国の回答者がゲストを戻していた割合はどの程度ですか?」です。行 % を選択した場合 (または列と行を入れ替えた場合)、”アメリカに戻った宿泊客の割合はどのくらいですか” と尋ねられます。この場合、これらの質問のいずれかが役に立ちます。実際の意味があるのは 1 つの質問のみです。
セル内の緑と赤の矢印は、変数間の関係がない場合に、セルの値が統計的に高いか、または低いかを示します。列 % が選択されている場合、矢印は、その行の他の数字とセルの番号を比較します。その他の矢印は、統計的有意性が高いことを示しています。数値が大きいセルは、他のセルよりも濃い色で表示されます。
下の例では、その列の他の数字の集計よりも75.2%高いので、英国は典型的な帰省客の割合よりも高い。
統計検定の出力は、カードの[統計テスト結果を表示]をクリックすると表示されます。Stats iQは、2つのカテゴリ変数が関連する場合に、FisherのExact Test、またはChi二乗検定を実行します。セルの調整済残差から計算された P 値に応じて、最大 3 つの矢印がセルに表示されます。Stats iQが統計テストを選択する方法の詳細については、「統計テストの前提事項と技術詳細」ページを参照してください。
Stats iQでは、一般的なクロスタブに加えて、特定の行のカテゴリのペアの値を比較するペア比較テーブルも生成されます。 たとえば、以下のクロスタブは、さまざまな場所から訪問者を返信しているクライアントの割合を示しています。ペアワイズ比較テーブルには、たとえば、英国では、帰国訪問者の比率が USA よりも 6 パーセント高いことが示されます。セルの緑と赤の矢印は、統計的に有意な差異を示しています。
チェックボックスと数値変数の関連付け
チェックボックス変数と数値変数を関連付けると、Stats iQは統計テストを実行し、集計テーブルを作成します。
Stats iQには、チェックボックスごとに2つの行(ボックスにチェックが付けられた場合は1行、それ以外の場合は1行)を含むテーブルが表示されます。たとえば、いずれかのチェックボックスが回答者がプールを使用したかどうかを表す場合、プールを使用(チェック)して使用しない(チェックを外す)行と、これら 2 つのグループのいずれかに該当する回答者の平均満足度スコアが表示されます。
この表は、Stats iQのほとんどの場合と同様に並べ替えることができます。たとえば、平均またはボックスがチェックされているかどうかでソートすることができます。列ヘッダ (Average など) をクリックして、その列の値でテーブルをソートします。
テーブルには中央値と平均値などの統計情報が表示されますが、この状況では統計検定は実行されません。プールを使用したユーザと使用しなかったユーザの平均を比較する個別の分析を実行するには、以下の手順に従います。
チェックボックスとカテゴリ変数の関係
チェックボックス変数とカテゴリ変数を関連付けると、Stats iQは統計テストを実行し、概要テーブルを作成します。
キーを持つ変数に応じて、最初の 2 つの列のいずれかにカテゴリ変数オプションが含まれ、もう 1 つの列にはチェックボックスオプションが含まれます。”%” 列は、2 番目の列グループを選択した最初の列グループの比率を示します。
以下の例では、最初の行が以下を示しています。
- 新規顧客である回答者は1663人だった。
- 1663人の回答者のうち、359人がプールを利用した。
- つまり、1663人の回答者の21.6%がこのプールを利用した。
- 最後の列の赤い矢印は、これが通常の比率を下回っていることを示します。
最後の列の矢印は、前述のカテゴリ変数のクロスタブと同じ方法で計算されます。
数値と時間の変数の関連
数値変数と時間変数を関連付けると、Stats iQは時間の経過に伴う数値変数の変化を示すチャートを作成します。ビンサイズ (日数から週数など) を変更するには、チャートの上にあるビンサイズをクリックします。
Stats iQには、日付ビンに加えて、経時的な特定の統計値の線が表示されます。デフォルト値は平均です。チャートの上部で別のオプション (中央値、最小値、または最大値) を選択すると、チャートで折れ線として表示される値が変更されます。グラフの下のスライダを調整すると、表示される日付範囲が絞り込まれます。
この統計検定の出力は、カードの[統計テスト結果を表示]をクリックすると表示されます。統計テスト「Stats iQ runs」は、「時間」変数が数値変数であった場合に実行されるものと同じです。これは特に、Stats iQが変数間の相関関係を実行することを意味します。
時間とカテゴリ変数の関係
時間変数とカテゴリ変数を関連付けると、Stats iQは、それらのカテゴリの数が時間の経過とともにどのように変化したのかを示すチャートを作成します。ビンサイズ (日数から週数など) を変更するには、チャートの上にあるビンサイズをクリックします。
このタイプのカードには、表示されるチャートのタイプを選択するオプションがあります。別のオプション (棒、折れ線、または面) がチャートの上で選択されると、チャートタイプが変更されます。チャートの上部で選択されているオプションに応じて、チャートにデータがパーセントまたは件数で表示されます。パーセントは、時間の経過とともにグループの分布がどのように変化したかを確認する場合に特に役立ちます。このタイプのカードに対して統計テストは実行されません。
Stats iQの統計テスト
Stats iQは、分析する列の変数タイプと構造に基づいて統計検定を選択します。参考までに、これはStats iQの非回帰統計検定と効果量のメジャーの完全なリストです。
- t検定(2カテゴリー対数字)
- ANOVA(3 つ以上のカテゴリーと数字)
- Games-Howell のアドホック後テスト(3 つ以上のカテゴリーと数字)
- コーエンの f
- 相関関係 (数値と数字)
- ピアソンの相関関係
- スピアマン相関関係
- ポイントバイサルの相関関係
- コーエンの d
- ペアリング済t検定(数値と数字)
- フィッシャーの正確なテスト(2 つのカテゴリーと 2 つのカテゴリー)
- カイ二乗 (3+ カテゴリ対カテゴリ)
- Cramer’s V
- Z テスト (カテゴリとカテゴリ)
- 時系列分析
- 差異 (DID、DD)
統計テストの選択
Stats iQは、データの理解(変数が数値変数かカテゴリ変数かなど)を考慮して、正しい統計検定を選択します。ただし、変数タイプを変更して、別の結果をトリガすることができます。
たとえば、1/0 スケールを 1-7 スケールに関連付けることができます。1/0 がカテゴリ別とみなされる場合、結果は t 検定です。数値とみなされる場合、結果は相関関係になります (これら 2 つの分析の結果は非常に類似しています)。
数値データが通常分布していない場合や、数値データに外れ値がある場合、Stats iQは「ランク付けされた」関係を実行します。「順位に基づかない」関係(またはその逆)を確認したい場合は、統計テスト結果でそのオプションを使用できます。ランク付けされたテストの詳細については、「統計テストの前提事項と技術詳細」ページを参照してください。
複数比較の問題
選択された多数の非キー変数で “関連” 分析を使用すると、複数比較の問題が発生する可能性があります。この分析では、約5件の結果が、純粋な運によって統計的に有意であると示される可能性が高く、必ずしも有意義な関係であるとは限りません。これは、統計分析の仕組みの必要な結果です。
Stats iQでは、一度に多くの分析を実行し、p値がわずかに(0.00004ではなく0.03など)有意な結果を確認すると、これらの相関関係が必ずしも重要ではないことが良い指標となります。
統計のセンテンスへの変換
Stats iQは、統計に関する専門知識がなくても、理解しやすい方法で相関分析の結果を説明します。
P値が統計的有意性のしきい値を下回っていない場合(Stats iQでのデフォルトは 0.05です)、統計的に有意な関係がないことが文で説明されます。
p値がしきい値を下回る場合、Stats iQは効果量を確認します。効果の大きさに応じて、Stats iQは関係性を特徴付けるために「弱」や「強」などの単語を文に追加します。影響サイズと P 値の解釈方法の詳細については、統計テスト結果表示で情報 (i) ボタンをクリックしてください。
以下の表に、効果量に基づく t 検定に対する変数関係の概要を示します。
効果量 | 効果サイズの解釈 | Stats iQ言語 |
0.2 未満 | 軽微または影響なし | 変数間に統計的に有意な関係はありません。 |
0.2 から 0.5 の間 | 小さな効果 | 変数は統計的に関連付けられます。彼らの関係を特徴づけるのに余分な形容詞を使わないだろう。 |
0.5 から 0.8 の間 | 中程度の効果 | 変数は統計的に関連付けられます。彼らの関係を特徴づけるのに余分な形容詞を使わないだろう。 |
0.8 超 | 大きな効果 | 変数は “強力” に関連しています。 |
使用する統計テストのタイプに応じて、効果量のしきい値は若干異なります。ただし、同じ一般的なパターンが適用されます。