ヒトの体重はガンマ分布に従うのか

統計分析

いくつかのサイトで体重はガンマ分布に従うという記述を見ました。

待ち時間の分布がガンマ分布になるのは指数分布の一般化であることから理解ができるのですが、体重の分布を実際に確認しているサイトがなかったので自分で確認してみました。

また、身長が正規分布に従っているかどうかもついで確認してみます。

データは、政府統計の総合窓口e-Statから取得します。

www.e-stat.go.jp

2019年度の「学校保健統計調査 / 令和元年度/ 全国表/ 2019年度」より、「1年齢別 設置者別 身長・体重の平均値及び標準偏差」「2身長の年齢別分布」「3体重の年齢別分布」をダウンロードしました。

身長の分布

まずは身長から確認します。男女それぞれで、5歳から17歳までのデータがそれぞれありますが、適当に10歳の男で分布をヒストグラムで可視化してみます。

f:id:dataspirits:20200704222635p:plain

なんとなく正規分布になっていそうです。

正規分布の確率密度関数と重ねてみましょう。

平均\mu、標準偏差\sigmaを持つ正規分布の確率密度関数は次の通りです。

10歳男の身長の平均、標準偏差はそれぞれ140.2、6.80 です。

正規分布の場合はこれがそのまま確率密度関数のパラメータになります。

先程のヒストグラムと重ねてみましょう。

f:id:dataspirits:20200704223750p:plain

イイ感じに重なりました。

同様に、5歳から17歳までを確認します。

f:id:dataspirits:20200704224715p:plain

綺麗にに正規分布となっているようです。

体重の分布

続いて、体重の分布を見てみます。同じく手始めは10歳の男で。

f:id:dataspirits:20200704230227p:plain

先程より少し中央が左に偏り、右の裾が長いです。正規分布ではなさそう。ガンマ分布かもしれません。

ガンマ分布の確率密度関数は次の通りです。

パラメータはshape:kとscale:\thetaです。

これらのパラメータの直感的な意味はこちらのブログが非常にわかりやすいです。

mfavoritey.hatenablog.com

当然、政府統計にこれらの値はないのですが、ガンマ分布の平均と分散はそれぞれk\thetak\theta^{2}となります。

したがって体重がガンマ分布に従うと仮定すると、体重の平均と分散からガンマ分布のパラメータが計算できます。

各年齢のパラメータを計算すると次のようになりました。

f:id:dataspirits:20200705000035p:plain

では、10歳の男のヒストグラムに確率密度関数を重ねてみます。

f:id:dataspirits:20200704234221p:plain

ちょっと重なっていないようです。

他の年齢も見てみましょう。

f:id:dataspirits:20200704235313p:plain

微妙ですね。身長と比べると明らかに当てはまりは悪いようです。

先程のブログによるとshapeパラメータが10の時点でけっこう正規分布に近くなってるようにみえます。

今回のデータはshapeパラメータが少なくとも20程度あるので、ほぼ正規分布に近い分布と言えるかもしれません。

実データはやや歪みのある分布だったため、あてはまりが悪く見えたのでした。

というわけで、2019年度の調査結果によると、小学生から高校生の男において、身長は正規分布に従うが体重はガンマ分布に従わない、ということがわかりました。

コメント

運営者

データ分析やモデル等の仕事をしてる人々。週に1回程度のペースで金融や統計に関する記事を更新しています。
C++/Python/R/SAS/HTML/VBA/PHP/SQL

naruseをフォローする
タイトルとURLをコピーしました