いくつかのサイトで体重はガンマ分布に従うという記述を見ました。
待ち時間の分布がガンマ分布になるのは指数分布の一般化であることから理解ができるのですが、体重の分布を実際に確認しているサイトがなかったので自分で確認してみました。
また、身長が正規分布に従っているかどうかもついで確認してみます。
データは、政府統計の総合窓口e-Statから取得します。
2019年度の「学校保健統計調査 / 令和元年度/ 全国表/ 2019年度」より、「1年齢別 設置者別 身長・体重の平均値及び標準偏差」「2身長の年齢別分布」「3体重の年齢別分布」をダウンロードしました。
身長の分布
まずは身長から確認します。男女それぞれで、5歳から17歳までのデータがそれぞれありますが、適当に10歳の男で分布をヒストグラムで可視化してみます。

なんとなく正規分布になっていそうです。
正規分布の確率密度関数と重ねてみましょう。
平均、標準偏差
を持つ正規分布の確率密度関数は次の通りです。
$$ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ |
正規分布の場合はこれがそのまま確率密度関数のパラメータになります。
先程のヒストグラムと重ねてみましょう。

イイ感じに重なりました。
同様に、5歳から17歳までを確認します。

綺麗にに正規分布となっているようです。
体重の分布
続いて、体重の分布を見てみます。同じく手始めは10歳の男で。

先程より少し中央が左に偏り、右の裾が長いです。正規分布ではなさそう。ガンマ分布かもしれません。
ガンマ分布の確率密度関数は次の通りです。
$$ f(x)= \frac{1}{\Gamma(k)\theta^k}x^{k-1}e^{-x/\theta} $$ |
パラメータはshape:とscale:
です。
これらのパラメータの直感的な意味はこちらのブログが非常にわかりやすいです。
当然、政府統計にこれらの値はないのですが、ガンマ分布の平均と分散はそれぞれ、
となります。
したがって体重がガンマ分布に従うと仮定すると、体重の平均と分散からガンマ分布のパラメータが計算できます。
各年齢のパラメータを計算すると次のようになりました。

では、10歳の男のヒストグラムに確率密度関数を重ねてみます。

ちょっと重なっていないようです。
他の年齢も見てみましょう。

微妙ですね。身長と比べると明らかに当てはまりは悪いようです。
先程のブログによるとshapeパラメータが10の時点でけっこう正規分布に近くなってるようにみえます。
今回のデータはshapeパラメータが少なくとも20程度あるので、ほぼ正規分布に近い分布と言えるかもしれません。
実データはやや歪みのある分布だったため、あてはまりが悪く見えたのでした。
というわけで、2019年度の調査結果によると、小学生から高校生の男において、身長は正規分布に従うが体重はガンマ分布に従わない、ということがわかりました。
コメント