回帰テーブルの読み方

回帰とは何ですか?

回帰は、最も重要で一般的に使用されるデータ分析プロセスの1つです。簡単に言えば、これは従属変数と1つ以上の独立変数の間の関係の強さを説明する統計的方法です。

従属変数は、予測または理解しようとしている変数またはフィールドである可能性があります。独立変数は、従属変数に影響を与える可能性があると思われるフィールドまたはデータポイントである可能性があります。

そうすることで、それはいくつかの重要な質問に答えます—

  • どの変数が重要ですか?
  • これらの変数はどの程度重要ですか?
  • これらの変数についてどの程度自信がありますか?

例を見てみましょう…

回帰表の数値をよりよく説明するために、サンプルデータセットを使用して、数値とその重要性を確認すると便利だと思いました。

私は、500人の学生のGRE(学生が米国の大学院への入学を検討するために取るテスト)スコアと大学への入学の可能性を含む小さなデータセットを使用しています。

chance of admittance依存するためGRE scorechance of admittanceは従属変数でGRE scoreあり、は独立変数です。

回帰直線

学生のGREスコアとアドミタンスの可能性との関係を最もよく表す直線を描くと、線形回帰線が得られます。これは、さまざまなBIツールのトレンドラインとして知られています。この線の描画の背後にある基本的な考え方は、特定のx座標と回帰直線が通過するy座標でのデータポイント間の距離を最小化することです。

回帰直線を使用すると、関係を簡単に表すことができます。これは、x係数とy切片を関連付ける数式に基づいています。

Y切片は、線がx = 0でy軸と交差する点です。これは、xが0のときにモデルが取るまたは予測する値でもあります。

係数は、モデル全体に​​対する変数の影響または重みを提供します。言い換えると、独立変数の単位変化に対する従属変数の変化量を提供します。

回帰直線方程式の計算

モデルのy切片を見つけるために、回帰直線をx = 0でy軸と交差するまで十分に延長します。これがy切片であり、約-2.5です。この数値は、私たちが取り組んでいるデータセットにとって実際には意味がないかもしれませんが、意図はy切片の計算のみを示すことです。

このモデルの係数は回帰直線の傾きであり、GREスコアの変化に対するアドミタンスの変化を取得することで計算できます。

上記の例では、係数は次のようになります。

m =(y2-y1)/(x2-x1)

そしてこの場合、それは0.01に近いでしょう。

式y = m * x + bは、回帰直線の数式を計算するのに役立ちます。回帰直線の延長から得られたy切片と傾きの値を代入すると、次の式を定式化できます。

y = 0.01x — 2.48

-2.48は、この投稿の後半に示すように、回帰テーブルから取得したより正確なy切片の値です。

この方程式により、学生のGREスコアがわかっている場合に、学生が入学する可能性を予測および予測できます。

基本がわかったので、回帰テーブルの読み取りと解釈に移りましょう。

回帰表を読む

回帰表は大きく3つの要素に分けることができます

  • 分散分析(ANOVA):名前が示すように、モデルの分散分析を提供します。
  • 回帰統計:変動に関する数値情報と、モデルが特定のデータ/観測値の変動をどの程度説明しているかを提供します。
  • 残余出力:モデルによって予測された値と、従属変数の実際の観測値と各データポイントの回帰モデルによる予測値との差を提供します。

分散分析(ANOVA)

自由度(df)

回帰dfは、回帰モデルの独立変数の数です。この例ではGREスコアのみを考慮しているため、1です。

残差dfは、データセットの観測値(行)の総数から推定される変数の数を引いたものです。この例では、GREスコア係数と定数の両方が推定されます。

残差df = 500 — 2 = 498

Total df —回帰と残りの自由度の合計であり、データセットのサイズから1を引いたものに等しくなります。

二乗和(SS)

回帰SSは、回帰モデルによって説明される従属変数の全変動です。これは、予測値とすべてのデータポイントの値の平均との差の2乗の合計です。

∑(ŷ—ӯ)²

ANOVA表から、回帰SSは6.5であり、合計SSは9.9です。これは、回帰モデルがデータセット内のすべての変動の約6.5 / 9.9(約65%)を説明していることを意味します。

残差SS—回帰モデルによって説明されないままになっている従属変数の全変動です。これは、誤差二乗和とも呼ばれ、すべてのデータポイントの実際の値と予測値の差の二乗和です。

∑(y —ŷ)²

ANOVA表から、残差SSは約3.4です。一般に、エラーが小さいほど、回帰モデルはデータセットの変動をより適切に説明するため、通常、このエラーを最小限に抑える必要があります。

合計SS—回帰SSと残差SSの両方の合計、またはGREスコアが考慮されていない場合にアドミタンスの可能性がどの程度変化するかを示します。

平均二乗誤差(MS) —二乗の合計または二乗の合計を回帰と残差の両方の自由度で割った平均です。

回帰MS = ∑(ŷ—ӯ)²/ Reg。dfResidual MS = ∑(y —ŷ)²/ Res。df

F —独立変数の傾きがゼロであるという仮説を検定するために使用されます。数学的には、次のように計算することもできます。

F =回帰MS /残余MS

それ以外の場合、これは、F統計量を分子度の回帰dfと分母度の残差dfを持つF分布と比較することによって計算されます。

有意性F—独立変数の係数がゼロであるという帰無仮説のp値に他なりません。他のp値と同様に、低いp値は、従属変数と独立変数の間に有意な関係が存在することを示します。

標準誤差—係数の分布の推定標準偏差を提供します。これは、係数がさまざまなケースで変化する量です。標準誤差よりもはるかに大きい係数は、係数が0でない確率を意味します。

t-Stat —テストのt統計量またはt値であり、その値は係数を標準誤差で割った値に等しくなります。

t-Stat =係数/標準誤差

この場合も、標準誤差に対する係数が大きいほど、t-Statが大きくなり、係数が0から離れる確率が高くなります。

p値— t統計量をt分布と比較して、p値を決定します。通常、独立変数のp値のみを考慮して、回帰方程式の導出に使用されるサンプルに近いサンプルを取得する可能性を提供し、回帰直線の傾きが実際にゼロであるか、係数が得られた係数。

0.05未満のp値は、回帰直線の傾きがゼロではなく、したがって従属変数と独立変数の間に有意な線形関係があるという95%の信頼度を示します。

0.05より大きいp値は、回帰直線の傾きがゼロである可能性があり、従属変数と独立変数の間に有意な線形関係が存在するという95%の信頼水準での十分な証拠がないことを示します。

独立変数のGREスコアのp値は0に非常に近いため、GREスコアとアドミタンスの可能性の間には有意な線形関係があると非常に確信できます。

下限と上限95% —ほとんどの場合、データのサンプルを使用して回帰直線とその係数を推定するため、これらはほとんどの場合、真の係数、ひいては真の回帰直線の近似値です。95%の下限と上限は、各係数の下限と上限の95番目の信頼区間を示します。

GREスコアの95%信頼区間は0.009と0.01であるため、境界にはゼロが含まれていません。したがって、GREスコアとアドミタンスの可能性の間に有意な線形関係があることを95%確信できます。

95%の信頼水準が広く使用されていることに注意してください。ただし、95%以外のレベルも可能であり、回帰分析中に設定できます。

回帰統計

R²(R Square) —モデルの検出力を表します。これは、独立変数が説明する従属変数の変動量を示し、常に値0と1の間にあります。R²が増加すると、データの変動がモデルによって説明され、モデルの予測が向上します。R²が低い場合は、モデルがデータにうまく適合しておらず、独立変数が従属変数の変動をうまく説明していないことを示します。

R²=回帰二乗和/総平方和

ただし、R二乗で、係数の推定と予測にバイアスがかかっているかどうかを判断できません。そのため、この記事の後半で説明する残余プロットを評価する必要があります。

R-squareは、回帰モデルが適切かどうかも示しません。良好なモデルの場合はR-squared値を低くするか、データに適合しないモデルのR-squared値を高くすることができます。

この場合、R²は65%です。これは、GREスコアがアドミタンスの可能性の変動の65%を説明できることを意味します。

調整済みR² —R²に調整係数を掛けたものです。これは、さまざまな回帰モデルをさまざまな独立変数と比較するときに使用されます。この数値は、重回帰モデルで適切な独立変数を決定する際に役立ちます。

複数のR —R²の正の平方根です

標準誤差—係数の標準誤差とは異なります。これは、回帰方程式の誤差の推定標準偏差であり、回帰直線の精度の優れた尺度です。これは、残余平均二乗誤差の平方根です。

標準 エラー=√(Res.MS)

残余出力

残余は、​​回帰モデルの実際の値と予測値の差であり、残余出力は、回帰モデルによる従属変数の予測値と各データポイントの残差です。

そして、名前が示すように、残差プロットは、残差と独立変数の間の散布図であり、この場合は、各学生のGREスコアです。

残留プロットはのようなものを検出する上で重要である不均一非直線性、および外れ値を。それらを検出するプロセスについては、この記事の一部として説明していませんが、この例の残差プロットにランダムに分散したデータがあるという事実は、このモデルの変数間の関係が線形であるという事実を確立するのに役立ちます。

意図

この記事の目的は、実用的な回帰モデルを構築することではなく、回帰テーブルのサンプルデータセットを使用して、必要に応じてすべての回帰変数とその重要性のウォークスルーを提供することです。

この記事では、例として単一変数の線形回帰を使用して説明しますが、これらの変数の一部は、多変数またはその他の状況の場合により重要になる可能性があることに注意してください。

参考文献

  • 大学院入学データセット
  • 回帰表の読み取りに関する10のこと
  • 回帰分析の復習