データサイエンス-回帰表:決定係数


R-二乗

R-SquaredおよびAdjustedR-Squaredは、線形回帰モデルがデータポイントにどの程度適合しているかを示します。

回帰表-係数の統計

R-Squaredの値は、常に0から1(0%から100%)の間です。

  • 決定係数の値が高いということは、多くのデータポイントが線形回帰関数の線に近いことを意味します。
  • 決定係数の値が低いということは、線形回帰関数の線がデータにうまく適合していないことを意味します。

低い決定係数の視覚的な例-二乗値(0.00)

私たちの回帰モデルは、ゼロのR-Squared値を示しています。これは、線形回帰関数の線がデータにうまく適合していないことを意味します。

これは、Average_PulseとCalorie_Burnageのデータポイントを介して線形回帰関数をプロットすると視覚化できます。

低R-二乗値(0.00)

高い決定係数の視覚的な例-二乗値(0.79)

ただし、DurationCalorie_Burnageをプロットすると、決定係数が増加します。ここでは、データポイントが線形回帰関数の線に近いことがわかります。

低R-二乗値(0.00)

Pythonのコードは次のとおりです。

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

概要-Average_Pulseを使用したCalorie_Burnageの予測

説明変数としてAverage_Pulseを使用して線形回帰関数を要約するにはどうすればよいですか?

  • 0.3296の係数。これは、Average_PulseがCalorie_Burnageに与える影響が非常に小さいことを意味します。
  • 高いP値(0.824)。これは、Average_PulseとCalorie_Burnageの関係を結論付けることができないことを意味します。
  • R-二乗値0。これは、線形回帰関数の線がデータにうまく適合しないことを意味します。