Pythonでデータ分析

Pythonでネットワーク構造のデータを扱いたい(networkxを扱う)

データ分析の仕事をしていると、基本的な表形式のデータ以外では表現しにくい現実事象が存在します。要素と関係性で表現されるネットワークもその一つです。 個人的にはこの形式のデータは、示唆までたどり着きにくいため、ビジネス的な分析とは言いにくいな…

Pythonでデータサイエンス(生存時間解析)

ビジネスの現場では、縦軸に発生日、横軸に経過日の表での残存をみる俗にいうコホート分析が使われることがよくあります。 これはビジネスのデータは日々更新され、始点が異なることが多いのと、終点がはっきりしないことが多いためです。 ロジスティック回…

Pythonで時系列解析をする(ホルトウィンターズ)

時系列データはどこの現場にも存在します。 ただし、説明変数が存在しないことも多いです。 その場合、1変量から構造を取り出す手法が存在します。 基本的なパターンはトレンド + 周期性 + ノイズに分割することです。今回利用するホルトウィンターズもその…

Pythonで時系列解析をしたい(時系列クラスタリング)

時系列のクラスタリングの場合、tslearnに実装されているのでそれを用います。 時系列と非時系列のクラスタリングの違い 非時系列の場合、1行がidとなり、列が変数でその変数でidをクラスタ化します。対して時系列の場合、(よく見る形は)行が時間であり、列…

Pythonでデータサイエンスを試す(回帰をランダムフォレストで)

ランダムフォレストは決定木と同様に、回帰にも使用可能です。 と言うわけで重回帰分析と比較してみます。 ▼重回帰分析はこちら esu-ko.hatenablog.com ランダムフォレスト回帰を試す 分類に使うときのコードは以下に書いていますが、ランダムフォレスト回帰…

Pythonでデータサイエンスを試す(重回帰2)

かつてこの記事を書いた時にOrangeというパッケージを使っていたのですが、もっぱらstatsmodelsなので、 書き直します。 esu-ko.hatenablog.com 当時とおなじく、用いるのはこの本のデータです。 本の中ではR実装です。 コード import pandas as pd df = #い…

Pythonでデータサイエンスを試す(並び替え検定/ブートストラップ検定)

パッケージを使った検定に関しては前に書きました。 esu-ko.hatenablog.com これら、パラメトリックな検定と異なった、並び替え検定を試してみます。 参考はカニ本です。(本の中ではRによる実装) ※クリックするとamazonにとびます。 並び替え検定について カ…

Pythonでフォーミュラを用いてGLMしたい(statsmodels.formulaを使う)

Rでモデルを作る時に使うフォーミュラのstatsmodels版です。 しょっちゅう、書き方を忘れるので、、、 基本 importします。 まず何をimportするのかを忘れます、、、 #たいてい.apiをつけ忘れる import statsmodels.formula.api as smf #こっちも使うんだけ…

PythonでRFM分析を行いたい

RFM分析は、過去に書いたデシル分析の拡張です。 金額、行動頻度、最近行動タイミングの3つの属性から、ユーザーをセグメント分けします。 esu-ko.hatenablog.com 分析と言っても、ここから示唆を出すのは難しいですが、、、 たいていの使い方としては、先に…

Pandasでデシル分析をしたい(qcutを使う)

デシル分析は、施策の範囲や打ち分けを決める際にシンプルにできる手法です。 現状では、デジタルでは、施策を全体にうってもコストが変わらなかったり、 初めからidと紐づいたデータが取れることも増えたので、あまり使うことはなかもしれませんが、 それで…

Pythonの統計処理や機械学習でカテゴリ変数を扱いたい(get_dummiesを使う)

統計処理や機械学習でカテゴリ変数を扱う場合、 そのままでは使えないことが多く、数値変換やフラグ変換が必要です。 pandas.get_dummiesはフラグ変換をかなり簡単にしてくれますが、 引数の渡し方で挙動が変わるので注意が必要です。 カテゴリ変数の扱い方 …

Pythonでアソシエーション分析を行う(apyoriを使う)

過去にアソシエーション分析を書いたときはOrangeを用いました。 このパッケージ内からアソシエーション分析が消えたため、代替を探してみました。 esu-ko.hatenablog.com apyoriの基本 導入 !pip install apyori 基本的な使い方 from apyori import apriori…

Pythonでデータサイエンスを試す(9_Anova)

Pythonでanova この本をPythonで書き直すシリーズです。(クリックするとアマゾンに飛びます) 後半戦が重くてなかなか進んでません。 (そろそろ本格的に統計をやらなければいけない気がしてきた) 今回はanova(analysis of variance:分散分析)です。 あまりP…

Pythonでデータサイエンスを試す(8_MCMC)

前回から大分、間があいてしまいましたが、 Pythonでデータサイエンス続き編です。 前回のアソシエーションルールまでで、 本編は一通り終了しました。 残りは10章に載っている、 様々な手法に触れてみよう編です。 手を動かしながら学ぶ ビジネスに活かすデ…

Pythonでデータサイエンスを試す(7_アソシエーションルール)

今回はアソシエーションルールを扱います。 データマイニングで有名な「おむつとビール」の逸話を生み出した手法ですね。 Pythonでは以外とアソシエーションルールの利用例がなかったので、 調べるのが大変でした・・・。 (一瞬自分で実装することになるか…

データサイエンスをPythonで試す(6_SVMとランダムフォレスト)

今回はSVMとランダムフォレストです。 どちらも機械学習の花型ですね。 今回は教科書でも、分類がメインなので、 Orangeではなく、いよいよsklearnを使用してみます。 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: …

データサイエンスをPythonで試す(5_決定木)

今回はこの本の第七章の決定木です。 (クリックするとamazonに飛びます) とうとう機械学習パートに入りました!

データサイエンスをPythonで試す(4_ロジスティック回帰)

今回は第六章のロジスティック回帰分析です。 参考にしているのは毎度おなじみのこちらの書籍です。(書籍内のコードはRです) 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: …

データサイエンスをPythonで試す(3_クラスタリング)

引き続き、この本を基にデータサイエンスの手法を勉強します。 手を動かしながら学ぶ ビジネスに活かすデータマイニング作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行本(ソフトカバー)この商品を含むブログ (6件) を見る 今回…

データサイエンスをPythonで試す(2_重回帰分析)

この本のRのコードを基に、 Pythonに書きなおして勉強をしています。 ※クリックするとamazonに飛びます 今回は第四章:重回帰分析を行います。

データサイエンスをPythonで試す(1_検定)

そろそろ本腰をいれて、Pythonでデータ分析を始めることにしました。 教科書は以下の本を使用します。(クリックするとamazonに飛びます) 元の本はRでデータ分析を行っているので、 それをPythonでやるにはどうやるのか? を何回かに分けてノートとして公開し…