Pythonでデータ分析
データ分析の仕事をしていると、基本的な表形式のデータ以外では表現しにくい現実事象が存在します。要素と関係性で表現されるネットワークもその一つです。 個人的にはこの形式のデータは、示唆までたどり着きにくいため、ビジネス的な分析とは言いにくいな…
ビジネスの現場では、縦軸に発生日、横軸に経過日の表での残存をみる俗にいうコホート分析が使われることがよくあります。 これはビジネスのデータは日々更新され、始点が異なることが多いのと、終点がはっきりしないことが多いためです。 ロジスティック回…
時系列データはどこの現場にも存在します。 ただし、説明変数が存在しないことも多いです。 その場合、1変量から構造を取り出す手法が存在します。 基本的なパターンはトレンド + 周期性 + ノイズに分割することです。今回利用するホルトウィンターズもその…
時系列のクラスタリングの場合、tslearnに実装されているのでそれを用います。 時系列と非時系列のクラスタリングの違い 非時系列の場合、1行がidとなり、列が変数でその変数でidをクラスタ化します。対して時系列の場合、(よく見る形は)行が時間であり、列…
ランダムフォレストは決定木と同様に、回帰にも使用可能です。 と言うわけで重回帰分析と比較してみます。 ▼重回帰分析はこちら esu-ko.hatenablog.com ランダムフォレスト回帰を試す 分類に使うときのコードは以下に書いていますが、ランダムフォレスト回帰…
かつてこの記事を書いた時にOrangeというパッケージを使っていたのですが、もっぱらstatsmodelsなので、 書き直します。 esu-ko.hatenablog.com 当時とおなじく、用いるのはこの本のデータです。 本の中ではR実装です。 コード import pandas as pd df = #い…
パッケージを使った検定に関しては前に書きました。 esu-ko.hatenablog.com これら、パラメトリックな検定と異なった、並び替え検定を試してみます。 参考はカニ本です。(本の中ではRによる実装) ※クリックするとamazonにとびます。 並び替え検定について カ…
Rでモデルを作る時に使うフォーミュラのstatsmodels版です。 しょっちゅう、書き方を忘れるので、、、 基本 importします。 まず何をimportするのかを忘れます、、、 #たいてい.apiをつけ忘れる import statsmodels.formula.api as smf #こっちも使うんだけ…
RFM分析は、過去に書いたデシル分析の拡張です。 金額、行動頻度、最近行動タイミングの3つの属性から、ユーザーをセグメント分けします。 esu-ko.hatenablog.com 分析と言っても、ここから示唆を出すのは難しいですが、、、 たいていの使い方としては、先に…
デシル分析は、施策の範囲や打ち分けを決める際にシンプルにできる手法です。 現状では、デジタルでは、施策を全体にうってもコストが変わらなかったり、 初めからidと紐づいたデータが取れることも増えたので、あまり使うことはなかもしれませんが、 それで…
統計処理や機械学習でカテゴリ変数を扱う場合、 そのままでは使えないことが多く、数値変換やフラグ変換が必要です。 pandas.get_dummiesはフラグ変換をかなり簡単にしてくれますが、 引数の渡し方で挙動が変わるので注意が必要です。 カテゴリ変数の扱い方 …
過去にアソシエーション分析を書いたときはOrangeを用いました。 このパッケージ内からアソシエーション分析が消えたため、代替を探してみました。 esu-ko.hatenablog.com apyoriの基本 導入 !pip install apyori 基本的な使い方 from apyori import apriori…
Pythonでanova この本をPythonで書き直すシリーズです。(クリックするとアマゾンに飛びます) 後半戦が重くてなかなか進んでません。 (そろそろ本格的に統計をやらなければいけない気がしてきた) 今回はanova(analysis of variance:分散分析)です。 あまりP…
前回から大分、間があいてしまいましたが、 Pythonでデータサイエンス続き編です。 前回のアソシエーションルールまでで、 本編は一通り終了しました。 残りは10章に載っている、 様々な手法に触れてみよう編です。 手を動かしながら学ぶ ビジネスに活かすデ…
今回はアソシエーションルールを扱います。 データマイニングで有名な「おむつとビール」の逸話を生み出した手法ですね。 Pythonでは以外とアソシエーションルールの利用例がなかったので、 調べるのが大変でした・・・。 (一瞬自分で実装することになるか…
今回はSVMとランダムフォレストです。 どちらも機械学習の花型ですね。 今回は教科書でも、分類がメインなので、 Orangeではなく、いよいよsklearnを使用してみます。 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: …
今回はこの本の第七章の決定木です。 (クリックするとamazonに飛びます) とうとう機械学習パートに入りました!
今回は第六章のロジスティック回帰分析です。 参考にしているのは毎度おなじみのこちらの書籍です。(書籍内のコードはRです) 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: …
引き続き、この本を基にデータサイエンスの手法を勉強します。 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行本(ソフトカバー)この商品を含むブログ (6件) を見る 今回…
この本のRのコードを基に、 Pythonに書きなおして勉強をしています。 ※クリックするとamazonに飛びます 今回は第四章:重回帰分析を行います。
そろそろ本腰をいれて、Pythonでデータ分析を始めることにしました。 教科書は以下の本を使用します。(クリックするとamazonに飛びます) 元の本はRでデータ分析を行っているので、 それをPythonでやるにはどうやるのか? を何回かに分けてノートとして公開し…