統計的有意性とは何ですか?定義されたP値とその計算方法

P値は、統計分析で最も広く使用されている概念の1つです。これらは、研究者、アナリスト、統計学者がデータから洞察を引き出し、情報に基づいた意思決定を行うために使用されます。

統計的有意性とともに、それらは統計分析で最も広く誤用され誤解されている概念の1つでもあります。

この記事では説明します:

  • 統計的有意性を推測するためにP値がどのように使用されるか
  • P値の計算方法
  • いくつかの一般的な誤解を回避する方法

要約:仮説検定

仮説検定は、データから洞察を引き出すための標準的なアプローチです。事実上すべての量的分野で使用されており、100年以上の歴史があります。

仮説検定への通常のアプローチは、関心のある変数の観点から質問を定義することです。次に、2つの反対の仮説を立ててそれに答えることができます。

  • 帰無仮説は、変数間の統計的に有意な関係があると主張します
  • 対立仮説は、変数間の統計的に有意な関係があると主張します

たとえば、カフェインがプログラミングの生産性に影響を与えるかどうかをテストしているとします。あなたが興味を持っている2つの変数があります-カフェインの投与量とソフトウェア開発者のグループの生産性です。

帰無仮説は次のようになります。

  • 「カフェインの摂取はプログラミングの生産性に大きな影響を与えません」。

対立仮説は次のようになります。

  • 「カフェインの摂取は生産性に大きな影響を及ぼします」。

ここで「重要」という言葉は非常に具体的な意味を持っています。それは、偶然だけではない何かのために存在する変数間の関係を指します。

代わりに、変数間の「実際の」違いまたは影響のために、関係が(少なくとも部分的に)存在します。

次のステップは、仮説をテストするためにいくつかのデータを収集することです。これは、実験や調査から、またはアクセスできるデータのセットから収集できます。

最後のステップは、データから検定統計量を計算することです。これは、データのいくつかの特性を表す単一の数値です。例としては、t検定、カイ2乗検定、クラスカル・ウォリス検定などがあります。

どちらを計算するかは、質問、データの構造、およびデータの分布によって異なります。

参考までに、便利なチートシートを次に示します。

カフェインの例では、適切な検定は2標本のt検定です。

最終的に、データから単一の検定統計量が得られます。あとは、この結果を解釈して、帰無仮説を支持するか拒否するかを決定するだけです。

ここでP値が作用します。

この統計はどのくらいありそうもないですか?

データのいくつかの特性を表す検定統計量を計算したことを思い出してください。帰無仮説を支持するか拒否するかを理解する必要があります。

採用されたアプローチは、帰無仮説が真であると仮定することです。つまり、関心のある変数間に有意な関係がないと仮定します。

次に、収集したデータを確認します。帰無仮説が実際に真である場合、検定統計量はどの程度ありそうですか?

以前のカフェイン摂取例を振り返ってみましょう。

  • カフェインを飲んだかどうかに関係なく、生産性レベルは開発者間でほぼ均等に分割されたと言います(グラフA)。帰無仮説が真である場合、この結果は偶然に発生する可能性があります。
  • ただし、カフェインを飲んだ開発者で最も高い生産性のほとんどすべてが見られたと仮定します(グラフB)。これはより「極端な」結果であり、ヌル仮説が真である場合に偶然に発生する可能性はほとんどありません

しかし、帰無仮説を支持する可能性が低すぎると見なされる前に、結果はどのように「極端」である必要がありますか?

これは、P値で推定できるものです。これは、「帰無仮説が真である場合、結果がこの極端またはより極端になる確率はどれくらいか」という質問に対する数値的な答えを提供します。

P値は確率であるため、常に0から1の間です。

  • 高いP値が観測された結果があることを示し偶然に発生する可能性が高い帰無仮説の下で。
  • 低P値は結果があることを示して偶然発生しにくい帰無仮説の下で。

通常、統計的有意性を判断するためにしきい値が選択されます。このしきい値はしばしばαで表されます。

P値がしきい値を下回っている場合、結果は「統計的に有意」です。これは、帰無仮説を棄却できる(そして対立仮説を受け入れる)ことができることを意味します。

すべてのアプリケーションに適した万能のしきい値はありません。通常、コンテキストに適した任意のしきい値が使用されます。

たとえば、生態学や進化論などの分野では、多くの要因が結果に影響を与える可能性があるため、実験条件を制御することは困難です。非常に大きなサンプルサイズを収集することも難しい場合があります。これらのフィールドでは、0.05のしきい値がよく使用されます。

物理学や工学などの他のコンテキストでは、0.01以下のしきい値がより適切です。

カイ二乗の例

この例では、地域と政党のメンバーシップという2つの(架空の)変数があります。カイ二乗検定を使用して、地域と政党のメンバーシップの間に関係があるかどうかを確認します。

各パーティのメンバー数を変更できます。

  • 帰無仮説:「地域と政党のメンバーシップの間に有意な関係はありません
  • 対立仮説:「地域と政党のメンバーシップの間には重要な関係があります

「再実行」ボタンを押して、さまざまなシナリオを試してください。

一般的な誤解とそれらを回避する方法

経験豊富な開業医でさえ、P値の使用と仮説検定についてよく犯すいくつかの間違いがあります。このセクションでは、それらをクリアすることを目的としています。

帰無仮説は興味深いものではありません。データが良好で、分析が正しく行われている場合、それ自体が有効な結論です。

答える価値のある質問には、結果がどうであれ、興味深い答えが必要です。

❌P値は、帰無仮説が真である確率です。P値は、「帰無仮説が真である場合の結果の確率」を表します。これは、「結果が与えられた場合に、帰無仮説が真である確率」と同じではありません。

P(データ|仮説)≠P(仮説|データ)

これは、低いP値が、「帰無仮説が真である場合、これらの結果はありそうもない」ことを示していることを意味します。「これらの結果が真である場合、帰無仮説はありそうにない」とは言えませ

多重比較に同じ有意性しきい値を使用できます-P値の定義を覚えておいてください。これは、偶然だけで特定の検定統計量を観測する確率です。

α= 0.05(または20分の1)のしきい値を使用し、たとえば20の統計テストを実行すると、偶然だけで低いP値が見つかると予想される場合があります。

多重比較を実行する場合は、より低いしきい値を使用する必要があります。しきい値をどれだけ低くするかを計算できる修正方法があります。

有意性のしきい値は、すべてを意味します-それは完全に任意です。0.05は単なる慣例です。p = 0.049とp = 0.051の違いは、p = 0.039とp = 0.041の違いとほとんど同じです。

これは、この方法で検証する仮説の最大の弱点の1つです。簡単に線を引くことはできませんが、砂に線を引く必要があります。

したがって、それらが何であるかについての重要性のしきい値を常に考慮してください-完全に恣意的です。

統計的有意性は、チャンスが何の役割も果たさないことを意味します-それから遠く離れています。多くの場合、特定の結果には多くの原因があります。ランダムなものもあれば、それほどランダムでないものもあります。

ランダムでない原因を1つ見つけても、それが変数間のすべての違いを説明しているわけではありません。統計的有意性を「効果量」と間違えないことが重要です。

❌P値は統計的有意性を決定する唯一の方法です-時にはより良い他のアプローチがあります。

古典的な仮説検定と同様に、ベイズ因子や偽陽性リスクを代わりに使用するなど、他のアプローチを検討してください。