正規分布していなやつを、正規分布の形に近づける操作を一般化しているbox-cox変換のやりかたです。
社会事象は正規分布しておらず、対数変換などで強引に近い形にすることもあると思われます。
もちろん正規分布が仮定されないモデルを使うというてもありますが、この変換を一般化したbox-cox変換のやり方も覚えておくことにします。
コード
sklearnのPowerTransformer
とscipyのboxcox
があります。前者はちょっと制約がキツかったので、まず後者だけ試します。
この記事でつかったワイブル分布で生成したデータをbox-cox変換します。 esu-ko.hatenablog.com
#データの生成 import numpy as np a = 1.5 s = np.random.weibull(a, 1000000) #可視化 import matplotlib.pyplot as plt plt.hist(s) #boxcox変換 from scipy.stats import boxcox d = boxcox(s) plt.hist(d)
左から右に変換されました。