統計テストの前提事項と技術的詳細
Stats iQでは、統計テストを直感的でエラーのないものにすることを目的として、統計検定が選択されます。
このページでは、Stats iQのアプローチの全体的なテーマと、特定のテストに関する特定の決定事項について説明します。
基本的な前提事項
Stats iQでは、可能な限り、前提を少なくしてテストするようにデフォルトで設定されています。たとえば、独立サンプル t 検定は、等サイズのサンプルまたは差異が想定されているかどうかに応じて、複数の方法で計算することができます。Stats iQは最小限の前提でテストを実行します。
さらに、Stats iQは統計的テストの前提の違反をインテリジェントに軽減します。たとえば、比較的小さいサンプルでの t 検定では、正規に分散されたデータが正確である必要がある。異常値または非正規分布は、誤解を招く結果をもたらします。
[1, 2, 3, 3, 3, 4, 5, 5, 6, 6, 7, 7, 8, 9, 10]
のすべてのデータポイントは、
[11, 12, 13, 13, 14, 14, 15, 15, 15, 15, 16, 16, 17, 17, 17, 18, 19, 2000]
のすべてのデータポイントよりも低いですが、2000 個の独立サンプル t-test は統計的に異常値に違反するわけではありません。これは、これらのグループに対する独立した t-test が統計的に低下しないためです。Stats iQは外れ値を認識し、代わりにランク付けされたt検定を推奨します。これにより、グループ間の差異が非常に明確になります。
ランク変換
Stats iQは、パラメータテストの条件の違反が検出された場合に、非パラメータテストの実行にrank トランスフォームメソッドを頻繁に使用します。Stats iQのランク変換は、値をランク順に置換します。たとえば、
[86, 95, 40] は [2, 3, 1]
に変換されます。次に、変換されたデータに対して一般的なパラメータテストを実行します。同値には、結合された値の平均ランクが与えられるため、
[11, 35, 35, 52] は [1, 2.5, 2.5, 4] になります。
ピアソン相関とスピアマン相関の違いで最も一般的に見られるのは、ランク変換テストは非正規分布や異常値に対して頑健であり、概念的にはやや一般的な非パラメトリックテストを使用するよりも単純である。
ANOVA
ユーザーが3つ以上のグループを含む1つのカテゴリ変数と、1つの連続変数または離散変数を選択した場合、Stats iQは一方向の ANOVA(Welch の F テスト)と一連のペアワイズ「ポストアドホック」テスト(Games-Howellテスト)を実行します。一方向 ANOVA では、2 つの変数間の全体的な関係がテストされ、ペアワイズテストでは、1 つのグループが他のグループよりも高い値を持つ傾向があるかどうかを確認するために、可能な各グループのペアがテストされます。
Welch の F テスト ANOVA の前提事項
Stats iQでは、データに関する複数の仮定がある場合、順位に基づかないWelchのFテストを推奨します。
- サンプルサイズは計算のグループ数の 10 倍より大きいため (値が 1 つしかないグループは除外されます)、そのため、共通限度定理は正規分布データの要件を満たします。
- 連続/離散データに外れ値がほとんどないか、またはまったくありません。
均等差異に対するやや一般的なF検定とは異なり、WelchのF検定では、比較されるグループの差異が等しいとはみなされない。等分散によって結果が低くなるのは、差異が実際には等しくなく、その結果が実際に等しい場合に非常に似ていると仮定します (Tomarken と Serlin, 1986)。
順位に基づいたANOVA
想定に違反した場合、順位に基づかない ANOVA は有効でなくなる可能性があります。その場合、Stats iQはランク付けされたANOVA(「ランク上のANOVA」とも呼ばれます)を推奨します。Stats iQは、データを変換し(値をランク順に置き換えます)、その変換されたデータに対して同じANOVAを実行します。
ランク付けされたANOVAは、外れ値と正規分布でないデータに強調です。ランク変換は、仮定違反から保護するための確立された方法(「非パラメータ型」方式)であり、ピアソン相関関係とスピアマンの相関関係の違いで最もよく見られる。ランク変換はWelchのFテストとKruskal-Wallis Test (Zimmerman, 2012)と同様である。
効果量は、グループの平均値の差が、統計的に有意であるかどうかに関係なく、実用的な意味を持つのに十分な大きさであるかどうかを示します。Stats iQの順位と順位に基づかないANOVA効果サイズ(Cohen’s f)は、F 検定の F 値を使用して等しい差異を計算します。
Games-Howell ペアワイズテストの前提事項
Stats iQは、ANOVAテストの結果に関係なく、Games-Howellテストを実行します(2010年Zimmermanによると)。Stats iQでは、順位付けされたANOVAとランク付けされていないANOVAに使用された条件と同じ基準に基づいて、順位付けされていないテストまたはランク付けされたGames-Howellペアワイズテストが表示されます。そのため、高度な出力に「ランク付けされたANOVA」が表示されている場合は、ペアワイズテストもランク付けされます。
Games-Howell は基本的に、不等差の t 検定であり、多くのペアワイズテストを実行するときに統計的に有意な結果が偶然見つかる可能性が高くなることを説明しています。やや一般的なTukeyのb検定とは異なり、Games-Howellテストでは、比較されるグループの分散が等しいとは想定されない。等差を仮定すると、差異が等しくなく、差異が実際に等しいと結果が非常に類似している場合、結果の精度は低くなります (Howell, 2012)。
2 つのグループの手段の同等性に対する順位に基づかないペアワイズ検定では、ランク付けされたペアワイズ検定では、グループの平均または中間体間の差異は明示的にテストされません。むしろ、あるグループがもう片方よりも大きな値を持つという一般的な傾向がテストされる。
また、Stats iQでは4値未満のグループのペアワイズテストの結果は表示されませんが、それらのグループはその他のペアワイズテストの自由度の計算に含まれます。
ANOVAの追加の考慮事項
- サンプルサイズが小さい場合でも、データを視覚的に検査して、実際に正規分布であるかどうかを判断できます。正規分布である場合、順位に基づかない t 検定の結果は小さいサンプルでも有効です。実際には、このアセスメントは難しい場合があるため、Stats iQではデフォルトで小さいサンプルに対してランク付けされたt検定を推奨しています。
- サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
- マラソンの完了済み教育の最高レベルや終了順序などのデータは、明確な序数です。リッカート尺度(1が非常に不満足、7が非常に満足)が序数であるが、社会科学では連続的(つまり順位に基づかないt検定)として扱われるのが一般的である。
Stats iQ偶発事象テーブル
ユーザーが2つのカテゴリ変数を選択すると、Stats iQはこれら2つの変数が統計的に関連しているかどうかを評価します。Stats iQは、可能な場合はFisherの正確なテストを実行し、それ以外の場合はピアソンのカイ二乗検定を実行します(通常は「カイ二乗」と呼ばれます)。
カイ二乗vs. フィッシャーの正確な検定
フィッシャーの正確な検定は、実行できるときはいつでも偏らないが、テーブルが 2 x 2 より大きいか、サンプルサイズが 10,000 より大きい場合(現代のコンピューティングでも)、実行は計算的に困難である。カイ二乗検定は、サンプルサイズが小さい場合(技術的には、予想されるセル数が 5 を下回る場合)に偏った結果になる可能性があります。
幸いなことに、フィッシャーの正確な検定は、カイ二乗検査が偏っているとき(小サンプル)、フィッシャーの正確な検査を計算するのが難しいとき、カイ二乗は偏らない(大きなサンプル)傾向にあるという点で、2つの検査は補完的である。小さなサンプルを含む大きなテーブルほど問題が生じる可能性があります(Stats iQではFisherの正確なテストを実行できません)。Stats iQは、潜在的な複雑さについてユーザーに警告します。
調整済残差
Stats iQは、他の統計ソフトウェアと同様に、調整された残差を使用して、個々のセルが統計的に予想を大幅に上回っているか、下回っているかを評価します。基本的に、調整された残差は、「このセルには、これら 2 つの変数間の関係がない場合に予想するよりも多くの値が含まれていますか」と尋ねられます。
各列の合計が 100% になるようなデータを表示している場合は、「他の業種の回答者と比較して、「自分の仕事を愛している」と回答した金融/銀行の回答者の割合は、通常よりも低くなっています」と言えます。
Stats iQでは、調整された残差から計算されたP値に応じて、最大3個の矢印が表示されます。Stats iQでは、結果の重要度に応じて異なる数の矢印が表示されます。具体的には、P 値がアルファより小さい場合は 1 つの矢印 (1 – 信頼水準)、P 値がアルファ/5 未満の場合は 2 つの矢印、P 値がアルファ/50 未満の場合は 3 つの矢印が表示されます。たとえば、信頼水準が 95% に設定されている場合:
- p-値 <= .05: 1 矢印
- p値 <= .01: 2 つの矢印
- p-値 <= .001: 3 つの矢印
調整された残余の計算、および特定のアルファレベルとの比較には、”z-test” または “z-test for a sample percentage” というラベルを付けることができます。文学は一般に、結論は調整された残差に基づいていたと単純に言っている。
信頼区間
Stats iQは、偶発事象表やCategory Describe棒チャートを含むすべての二項信頼区間について、Wilson Score Intervalを使用して信頼区間を計算します。
Stats iQの相関
ユーザーが2つの連続変数または離散変数を選択すると、Stats iQは相関関係を実行して、これら2つのグループが統計的に関連しているかどうかを評価します。Stats iQのデフォルトは、最も一般的な相関関係タイプであるPearsonのrを計算することです。このテストの前提が満たされない場合、Stats iQはSpearmanのrhoを計算して、同じテストのランク付けされたバージョンを推奨します。さらに、Stats iQはFisher変換を使用して相関係数の信頼区間を計算します。
ピアソンの R の前提事項
Stats iQでは、データに関する特定の仮定が満たされた場合、有効な相関関係指標としてピアソンのrを推奨します。
- 連続/離散データに外れ値がありません。
- 変数間の関係は線形です(例:y = 2x, not y = x^2)。
Stats iQは、これらの想定違反を検出した場合、最適な線を表示しません。
ランク付けされた相関関係(スピアマンズ・リョ)
仮定に違反した場合、ピアソンの r は有効な相関測度ではなくなることがある。その場合、Stats iQはSpearmanのrhoを推奨しています。Stats iQはデータを変換し(値をランク順に置き換えます)、通常の相関関係を実行します。ランク変換は仮定違反から守るための確立された手法であり(「非パラメトリック方式」方式)、ピアソンからスピアマンへのランク変換が最も一般的である (Conover and Iman, 1981)。なお、スピアマンのリョウは、やはり変数間の関係は単調であると仮定している。
相関関係に関するその他の考慮事項
- サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
- Stats iQは、Spearmanのrho >が統計的に有意な場合に、関係性を非線形として特定します。1.1 * ピアソンの r と Spearman の rho は統計的に有意です。
- リッカート尺度(1 が「非常に不満」、「7」が「非常に満足」の 1~7 尺度)は技術的な序数ですが、社会科学では連続的であるかのように扱うのが一般的です(つまり、ピアソンの r を使用します)。
独立サンプル t検定
この順位に基づかないt検定はt検定の最も一般的な形式である。t検定の統計的有意性は、2 つのグループの平均が、グループがサンプリングされた母集団の「実際の」差異を反映している可能性が最も高いかどうかを示します。
統計的に有意なt検定結果は、2つのグループ間の差が偶然またはランダムに発生した可能性が低い結果です。統計的重要性は、グループ平均の差、サンプルサイズ、およびグループの標準偏差の大きさによって決まります。実用的な意味で、統計的意義は、標本する2つの母集団が実際は異なることを示唆している。
例:平均的なアメリカ人が月平均カナダ人よりも多く映画に費やすかどうかに関心があるとします。各国の 3 人のサンプルに映画の支出について尋ねます。これらの平均値の差は観測できますが、その差は統計的に有意ではありません。ランダムにサンプリングした人がランダムに運が良く、一方のグループが他のグループよりもお金を使っているように見える可能性があります。代わりに、300 人のアメリカ人と 300 人のカナダ人に尋ねて、それでも大きな違いが見られる場合は、サンプルが非代表であることによってその違いが生じる可能性は低くなります。
なお、30万人のアメリカ人と30万人のカナダ人に質問した場合、グループ間の差がわずか1銭でも統計的に有意になる可能性が高い。t検定の効果量は、統計的有意性を補完するもので、その差が統計的に有意であるかどうかに関係なく、差の大きさを表します。
ウェルチの t検定
ユーザーがバイナリ変数を連続変数または離散変数に関連付ける場合、Stats iQは二尾のt検定を実行し(該当する場合はQualtricsでのすべての統計テストは2つのテールテストです)、2つのグループのいずれかが連続/離散変数よりも高い値を持つ傾向があるかどうかを評価します。Stats iQのデフォルトは、Welchのt検定です。不等分散のt検定とも呼ばれます。このテストの仮定が満たされない場合、Stats iQは同じテストの順位付けバージョンを推奨します。
ウェルチの T 検定の前提
Stats iQでは、データに関するいくつかの仮定がある場合、Welchのt検定(以下「t検定」)を推奨します。
- 各群の標本サイズは 15 以上である(したがって、中央極限定理は正規分布データの要件を満たす)。
- 連続/離散データに外れ値がほとんどないか、またはまったくありません。
均等差異に対するやや一般的な t 検定とは異なり、Welch の t 検定では、比較される 2 つのグループの差異が等しいとは見なされません。現代のコンピューティングは、その仮定を不要にした。さらに、差異が等しくなく、実際に差異が等しいと結果が正確でなくなると、均等差異が結果の精度を低下させると仮定します (Ruxton, 2006)。
順位に基づいたt検定
仮定に違反した場合、t 検定は有効でなくなる可能性があります。その場合、Stats iQはランク付けされたt検定を推奨します。Stats iQランクは、データを変換し(値をランク順に置き換えます)、変換したデータに対して同じWelchのtテストを実行します。ランク付けされたt検定は、外れ値と正規分布でないデータに強固です。ランク変換は、仮定違反から保護するための確立された方法 (非パラメータ方式) であり、ピアソン相関と Spearman 相関関係の違いで最もよく見られます (Conover and Iman, 1981)。ランク変換後のWelchのt検定は、実質的にはMann-Whitney Uテストと同様であるが、やや効率的である(Ruxton, 2006; Zimmerman, 2012)。
なお、t検定では2つのグループの手段が等しいかどうかがテストされるが、ランクされたt検定はグループ間の違いを明示的にはテストしない。むしろ、あるグループがもう片方よりも大きな値を持つという一般的な傾向がテストされる。
t検定に関するその他の考慮事項
- サンプルサイズが 15 未満の場合でも、データを視覚的に検査して、正規分布であるかどうかを判断することができます。正規分布である場合、順位に基づかない t 検定の結果は小さいサンプルでも有効です。実際には、このアセスメントは難しい場合があるため、Stats iQではデフォルトで小さいサンプルに対してランク付けされたt検定を推奨しています。
- サンプルサイズが大きい場合、外れ値は結果に悪影響を及ぼす可能性が低くなります。Stats iQでは、Tukeyの「外部フェンス」を使用して、25パーセンタイル点を上回るか25パーセンタイルポイントを下回る四分位範囲に3倍を超えるポイントとして外れ値を定義します。
- 「完了した教育の最高レベル」や「マラソンでの順序の終結」などのデータは、明確に順序付けされます。リッカート尺度(1が非常に不満足、7が非常に満足)が序数であるが、社会科学では連続的(つまり順位に基づかないt検定)として扱われるのが一般的である。
回帰分析
Stats iQには、主に2つのタイプの回帰実行があります。出力変数が数値変数である場合、Stats iQは線形回帰を実行します。出力変数がカテゴリ変数の場合、Stats iQはロジスティック回帰を実行します。線形回帰のデフォルト出力は、相対的重要性 (特に、Johnson の相対的な重み) と通常の最小二乗の組み合わせです。Stats iQは「最小二乗の普通」回帰を実行するとき、「M推定」と呼ばれるバリエーションを使用します。これは、外れ値の効果を抑制し、より正確な結果を得るための最新手法です。
詳細については、「回帰および相対的重要性」を参照してください。