Qualtrics Platform
Customer Journey Optimizer
XM Discover
Qualtrics Social Connect

統計的検定の前提条件と技術的詳細

Stats iQは、統計検定を直感的でミスのないものにすることを目標に統計検定を選択します。

このページでは、Stats iqのアプローチにおける包括的なテーマについて説明し、以下では特定の検査における具体的な決定について説明します：

基本的前提条件

Stats iQは、可能な限り、より仮定が少ないテストをデフォルトとします。例えば、独立標本T検定は、サンプルサイズが等しいか、分散が等しいと仮定するかによって、いくつかの方法で計算することができる。Stats iQは最小限の仮定でテストを実行する。

さらに、Stats iQは統計検定の仮定違反をインテリジェントに緩和します。例えば、比較的小さなサンプルに対するT検定は、正確であるためには正規分布のデータが必要である。外れ値や正規分布でない分布は、誤解を招く結果を生む。

[1, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 9, 10]

のすべてのデータポイントは、

[11, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

のすべてのデータポイントよりも低いが、これらのグループについて独立サンプルのT検定を行っても、外れ値2000がt検定の仮定に違反するため、統計的に有意な差は得られない。Stats iqはこの異常値に気づき、代わりにランクt検定を推奨していますが、これはグループ間に非常に明確な差をもたらします。

ランク変換

Stats iqは、パラメトリック検定の仮定違反が検出された場合に、ノンパラメトリック検定を実行するための順位変換法を頻繁に使用します。例えば、

[86, 95, 40] は [2, 3, 1]

に変換され、変換されたデータに対して典型的なパラメトリック検定が実行されます。同点の値には同点の値の平均順位が与えられるので、

[11, 35, 35, 52]は[1, 2.5, 2.5, 4]となる。

Pearson相関とSpearman相関の差で最もよく遭遇するランク変換検定は、非正規配信や外れ値にロバストであり、少し一般的なノンパラメトリック検定を使用するよりも概念的に単純である。

ANOVA

ユーザーが、3つ以上のグループを持つ一元配置分散分析と、1つの連続変数または離散変数を選択すると、Stats iQは、一元配置分散分析（WelchのF検定）と一連のペアホック検定（Games-Howellのペアワイズ検定）を実行します。一元配置分散分析は、2つの変数の間の全体的な関係を検定し、一組検定は、1つのグループがもう1つのグループよりも高い値を持つ傾向があるかどうかを見るために、グループの可能な各組を検定します。

WelchのF検定分散分析の仮定

Stats iqは、データに関するいくつかの仮定が成り立つ場合、ランクなしのWelchのF検定を推奨します：

サンプルサイズは、計算上のグループ数の10倍より大きい（値が1つだけのグループは除外される）ので、中心極限定理は正規分布データの条件を満たす。
連続／離散データに外れ値がほとんどない。

分散が等しい場合のより一般的なF検定とは異なり、ウェルチのF検定は比較されるグループの分散が等しいとは仮定していない。分散が等しいと仮定すると、実際には分散が等しくない場合に正確な結果が得られず、実際に分散が等しい場合には、その結果は非常によく似ている（Tomarken and Serlin, 1986）。

順位に基づいたANOVA

仮定が違反されると，順位なしANOVAはもはや検証できないかもしれない．その場合、Stats iQは、順位付け分散分析（”順位付け分散分析 “ともいう）を推奨します； Stats iQ は、データを順位付け変換し（値をそれらの順位付けに置き換えます）、そして、その変換されたデータで同じANOVAを実行します。

順位付け分散分析は，はずれ値や正規分布でないデータに対してロバストである．順位変換は、仮定違反から保護するための確立された方法（「ノンパラメトリック」方法）であり、ピアソン相関とスピアマン相関の違いで最もよく見られる。順位変換に続くウェルチのF検定は、Kruskal-Wallis検定（Zimmerman, 2012）と同様の効果がある。

エフェクト・サイズとは、グループ間の平均値の差が、統計的に有意かどうかという実用的な意味を持つほど大きいかどうかを示す。Stats iQの順位付け分散分析と順位付け分散分析の効果量（Cohenのf）は，等分散のF検定からのF値を用いて計算されることに注意．

Games-Howellのペアワイズ検定の仮定

Stats iQは、ANOVA検定の結果に関係なく、Games-Howell検定を実行します（Zimmerman, 2010による）。Stats iQ は，順位付けされたANOVAと順位付けされていないANOVAで使用されるのと同じ基準で，順位付けされていないまたは順位付けされたGames-howellのペアワイズ検定を表示します; したがって，高度な出力で “順位付け分散分析” が表示された場合，ペアワイズ検定も順位付けされます．

Games-Howellのペアワイズ検定は、基本的に不等分散のt検定であり、多くのペアワイズ検定を実行するときに、偶然に統計的に有意な結果が得られる可能性が高くなることをアカウントします。少し一般的なTukeyのb検定とは異なり、Games-Howell検定は比較されるグループの分散が等しいことを仮定していない。分散が等しいと仮定すると、実際には分散が等しくない場合に正確な結果が得られなくなり、実際に分散が等しい場合には結果は非常によく似ている(Howell, 2012)。

非順位ペアワイズ検定が2群の平均値の等しさを検定するのに対して、順位ペアワイズ検定は、群の平均値や中央値の差を明示的に検定しないことに注意。そうではなく、一方のグループの値が他方のグループより大きいという一般的な傾向をテストするのである。

さらに、Stats iQは値が4未満のグループの一対検定の結果を表示しませんが、それらのグループは他の一対検定の自由度の計算に含まれます。

その他のANOVAに関する考察

サンプル・サイズが小さくても、データが実際に正規分布しているかどうかを視覚的に検査することができる；正規分布していれば、順位なしのT検定結果は小さなサンプルでも有効である。実際には、このアセスメントを行うことは困難であるため、Stats iQは、少人数のサンプルに対してはデフォルトでランク付けT検定を推奨している。
サンプルサイズが大きければ、外れ値が結果に悪影響を及ぼす可能性は低くなる。Stats iQは、Tukeyの “アウター・フェンス “を使用して、75パーセンタイル点以上または25パーセンタイル点以下の四分位範囲内の3倍以上のポイントを外れ値と定義します。
最高教育修了レベルやマラソンの完走順のようなデータは、曖昧さのない順序データである。段階評価（1が非常に不満で7が非常に満足のようなもの）は厳密には順序尺度であるが、社会科学では連続尺度であるかのように扱うのが一般的である（すなわち、順位なしのt検定）。

Stats iQ コンティンジェンシー・テーブルズ

ユーザーが2つのカテゴリー変数を選択すると、Stats iQはその2つの変数が統計的に関連しているかどうかをアセスメントします。Stats iQは、可能な場合はFisherの正確検定を実行し、そうでない場合はPearsonのカイ2乗検定（通常、単に「カイ2乗」と呼ばれる）を実行します。

カイ二乗対. フィッシャーの正確検定

フィッシャーの正確検定は、実行できるときはいつでも不偏であるが、表が2 x 2より大きかったり、サンプルサイズが10,000より大きかったりすると（最新の計算機でも）実行するのは計算上困難である。カイ2乗検定は、サンプルサイズが小さいとき（厳密には、予想細胞数が5以下のとき）、結果にバイアスがかかることがある。

幸いなことに、この2つの検定は補完的で、カイ2乗検定がバイアス（小さなサンプル）であるとき、フィッシャーの正確検定は一般的に計算しやすく、フィッシャーの正確検定が計算しにくいとき、カイ2乗検定はバイアス（大きなサンプル）でない傾向がある。サンプルが少ない大きな表でも問題が発生する可能性があるため（STATS iQはFisherの正確検定を実行できません）、Stats iQは潜在的な問題をユーザーに警告します。

調整残差

他の統計ソフトと同様、Stats iQは、個々のセルが統計的に有意に期待値を上回っているか下回っているかを評価するために、修正残差を使用します。基本的に、調整残差は、”このセルは、これらの2つの変数の間に関係がない場合に予想されるよりも、より多くの値を持っているか？” と尋ねます。

各列の合計が100％になるようにデータを表示させれば、「『仕事が好き』と答えた金融/銀行業界の回答者の割合は、他業界の回答者と比較して、一般的な割合よりも低い」と言うことができる。

Stats iQは、調整残差から計算されたP値に応じて、最大3つの矢印を表示します。Stats iQは、結果の重要度に応じて異なる数の矢印を表示します。具体的には、P値がα（1-信頼水準）より小さい場合は1つの矢印、P値がα/5より小さい場合は2つの矢印、P値がα/50より小さい場合は3つの矢印を示す。例えば、信頼水準が95％に設定されていた場合：

P値 <= .05: 1矢印
P値 <= .01: 2本の矢印
P値 <= .001: 3本の矢印

修正残差の計算と特定のアルファ・レベルとの比較は、”z検定 “または “サンプル・パーセンテージのz検定 “と呼ばれる。より一般的な文献では、結論は単に調整残差に基づいていると書かれている。

信頼区間

分割表やスコアリングカテゴリ棒グラフを含むすべての二項信頼区間について、Stats iQはWilsonスコアリング区間を使用して信頼区間を計算します。

Stats iQ相関図

ユーザーが2つの連続変数または離散変数を選択すると、Stats iQは相関を実行し、それらの2つのグループが統計的に関連しているかどうかをアセスメントします。Stats iQは、相関の最も一般的なタイプであるPearsonのrをデフォルトで計算します。この検定の仮定が満たされない場合、Stats iQは同じ検定のランク付けされたバージョンであるSpearmanのrhoの計算を推奨します。さらに、Stats iQはフィッシャー変換を用いて相関係数の信頼区間を計算します。

ピアソンのrの仮定

Stats iqは、データに関する特定の仮定が満たされている場合、相関の検証としてピアソンのrを推奨しています：

連続／離散データに外れ値はない。
変数間の関係は線形である（例えば、y = x^2ではなく、y = 2x）。

Stats iQは、これらの仮定違反を検出した場合、ベストフィットの線を表示しません。

順位相関（スピアマンのRho）

仮定に違反した場合、ピアソンのrはもはや相関の有効な尺度ではないかもしれない。その場合、Stats iQはSpearmanのrhoを推奨します。Stats iQはデータをランク変換（値をランキングに置き換える）し、典型的な相関を実行します。順位変換は、仮定違反から保護するための確立された手法（「ノンパラメトリック」手法）であり、PearsonからSpearmanへの順位変換が最も一般的である（Conover and Iman, 1981）。スピアマンの rho は、変数間の関係が単調であることを仮定していることに注意してください。

相関に関するその他の考慮事項

サンプルサイズが大きければ、外れ値が結果に悪影響を及ぼす可能性は低くなる。Stats iQは、Tukeyの “アウター・フェンス “を用いて、75パーセンタイル点以上または25パーセンタイル点以下の四分位範囲内の3倍以上のポイントを外れ値と定義する。
Stats iq は、スピアマンの rho > 1.1 * ピアソンの r とスピアマンの rho が統計的に有意である場合、関係を非線形と識別します。
段階評価（1が非常に不満で7が非常に満足のようなもの）は厳密には順序尺度であるが、社会科学では連続尺度であるかのように扱うのが一般的である（つまりピアソンのrを使う）。

独立サンプルT検定

この順位なしのt検定は、t検定の最も一般的な形式である。T検定の統計的有意性は、2つのグループの平均の差が、そのグループがサンプリングされた母集団における「本当の」差を反映している可能性が最も高いかどうかを示します。

統計的に有意なt検定結果とは、2群間の差が偶然またはランダムで発生したとは考えにくいものである。統計的有意性は、グループの平均、サンプルサイズ、標準偏差の差の大きさによって決定される。実用的な目的のために、統計的有意性は、サンプリングした2つの集団が実際に異なることを示唆している。

例例えば、平均的なアメリカ人が平均的なカナダ人よりも1ヶ月あたりの映画代が高いかどうかに興味があるとします。それぞれの国から3人のサンプルに映画への出費について尋ねます。平均値に差があっても、その差は統計的に有意なものではない。無作為にサンプリングした人のランダム化機能によって、一方のグループが他方のグループよりもお金を使うように見えるだけかもしれない。その代わりに、300人のアメリカ人と300人のカナダ人に聞いてみて、それでも大きな差が出るのであれば、その差はサンプルが代表的でないことが原因である可能性は低い。

30万人のアメリカ人と30万人のカナダ人に質問した場合、グループ間の差がわずか1円であったとしても、結果は統計的に有意になる可能性が高いことに注意されたい。T検定の効果量は、統計的有意性を補完し、差が統計的に有意であるかどうかにかかわらず、差の大きさを記述する。

ウェルチのT検定

バイナリ変数と連続変数または離散変数の関連付けを行う場合、Stats iQは両側t検定（クアルトリクスの統計検定はすべて両側検定）を実行し、連続/離散変数について、2つのグループのどちらかが他方より高い値をとる傾向があるかどうかをアセスメントします。Stats iQのデフォルトは、不等分散のt検定としても知られるWelchのt検定で、この検定の仮定が満たされない場合、Stats iQは同じ検定のランク付けバージョンを推奨します。

ウェルチのT検定の前提条件

Stats iqは、データに関するいくつかの仮定が成り立つ場合、Welchのt検定（以下「t検定」）を推奨します：

各グループのサンプルサイズは15以上である（したがって、中心極限定理は正規分布データの条件を満たす）。
連続／離散データに外れ値がほとんどない。

分散が等しい場合の少し一般的なt検定とは異なり、ウェルチのt検定は比較される2群の分散が等しいとは仮定していません。現代のコンピューティングはその仮定を不要にした。さらに、分散が等しいと仮定すると、分散が等しくないときの結果の精度が低くなり、実際に分散が等しいときの結果の精度は高くならない(Ruxton, 2006)。

順位に基づいたt検定

仮定に違反すると、t検定が検証できなくなることがある。その場合、Stats iQはランクt検定を推奨します。Stats iQはデータをランク変換し（値をランク順に置き換える）、その変換されたデータに対して同じWelchのt検定を実行します。順位付きt検定は、外れ値や正規分布でないデータに対して頑健である。順位変換は、仮定違反から保護するための確立された手法（「ノンパラメトリック」手法）であり、ピアソン相関とスピアマン相関の違いに最もよく見られる（Conover and Iman, 1981）。順位変換の後にWelchのt検定を行う方法は、Mann-WhitneyのU検定と効果は似ているが、やや効率的である（Ruxton, 2006; Zimmerman, 2012）。

T検定が2群の平均の等しさを検定するのに対して、順位t検定は群の平均や中央値の差を明確に検定しないことに注意。そうではなく、一方のグループの値が他方のグループより大きいという一般的な傾向をテストするのである。

T検定に関するその他の考慮事項

サンプルサイズが15以下であれば、データが正規分布しているかどうかを視覚的に検査することができる；正規分布していれば、順位なしのT検定結果は、小さなサンプルでも有効である。実際には、このアセスメントを行うことは困難であるため、Stats iQは、少人数のサンプルに対してはデフォルトでランク付けT検定を推奨している。
サンプルサイズが大きければ、外れ値が結果に悪影響を及ぼす可能性は低くなる。Stats iQは、Tukeyの “アウター・フェンス “を使用して、75パーセンタイル点以上または25パーセンタイル点以下の四分位範囲内の3倍以上のポイントを外れ値と定義します。
修了した最高教育レベル」や「マラソンの完走順位」のようなデータは、曖昧さのない順序データである。段階評価（1が非常に不満で7が非常に満足のようなもの）は厳密には順序尺度であるが、社会科学では連続尺度であるかのように扱うのが一般的である（すなわち、順位なしのt検定）。

回帰分析

Stats iQで実行される回帰には、主に2つのタイプがあります。出力変数が数値変数の場合、Stats iQは線形回帰を実行します。出力変数がカテゴリー変数の場合、Stats iQはロジスティック回帰を実行します。線形回帰のデフォルト出力は，相対重要度（具体的には，ジョンソンの相対重み設定）と最小2乗法の組み合わせである．普通最小二乗法」回帰を実行する際、Stats iqは「M推定」と呼ばれるバリエーションを使用します。これは、外れ値の影響を緩和し、より正確な結果を導く、より近代的な手法です。

詳しくはRegression & Relative Importance をご覧ください。