あれもPython,これもPython

Pythonメモ※本サイトはアフィリエイトを利用しています

分析用にファイルを読み込みたい(pd.read_csvを使う)

Python自体でcsvファイルを読み込むなら、 csvモジュールを使うのが基本です。

参考: esu-ko.hatenablog.com

ただし、分析などの際は、ファイルを読み込んで最終的にデータフレームにすることがほとんどです。 そういった場合、pandas.read_csv()を使うと手間が少なくなります。

import pandas as pd

#読み込んで直接データフレームにする
df = pd.read_csv("file/path")
df.head()

仮にcsvモジュールを使う場合

pythonの配列として読み込む場合は、 こうなってしまい、少々めんどくさいですね。

import pandas as pd
import csv

with open("file/path","r") as f:
    csv_reader = csv.reader(f)
    
    #格納するリストの初期化
    read_data = []
    for row in csv_reader:
        read_data.append(row)

#カラムとデータに分けてデータフレームに変換
df = pd.DataFrame(data = read_data[1:],columns = read_data[0])

csv以外の読み込みメソッド

pandasは外部のデータを読み込んで、DataFrameにするためのメソッドをたくさん持っています。 read_htmlだけ複数帰ってくるので注意が必要です。

入力したいもの メソッド 返り値
Jsonファイル read_json データフレーム
表構造のファイル read_table データフレーム
html内の表構造系タグ read_html データフレームのリスト
pickleファイル read_pickle データフレーム
エクセル read_excel データフレーム
クリップボードにコピーされている表 read_clipboard データフレーム
等幅ファイル read_fwf データフレーム
DBのテーブル read_sql_table データフレーム
SQLのクエリ結果 read_sql_query データフレーム
DBテーブルまたはSQLクエリ read_sql データフレーム