Python自体でcsvファイルを読み込むなら、 csvモジュールを使うのが基本です。
ただし、分析などの際は、ファイルを読み込んで最終的にデータフレームにすることがほとんどです。
そういった場合、pandas.read_csv()
を使うと手間が少なくなります。
import pandas as pd #読み込んで直接データフレームにする df = pd.read_csv("file/path") df.head()
仮にcsvモジュールを使う場合
pythonの配列として読み込む場合は、 こうなってしまい、少々めんどくさいですね。
import pandas as pd import csv with open("file/path","r") as f: csv_reader = csv.reader(f) #格納するリストの初期化 read_data = [] for row in csv_reader: read_data.append(row) #カラムとデータに分けてデータフレームに変換 df = pd.DataFrame(data = read_data[1:],columns = read_data[0])
csv以外の読み込みメソッド
pandasは外部のデータを読み込んで、DataFrameにするためのメソッドをたくさん持っています。
read_html
だけ複数帰ってくるので注意が必要です。
入力したいもの | メソッド | 返り値 |
---|---|---|
Jsonファイル | read_json | データフレーム |
表構造のファイル | read_table | データフレーム |
html内の表構造系タグ | read_html | データフレームのリスト |
pickleファイル | read_pickle | データフレーム |
エクセル | read_excel | データフレーム |
クリップボードにコピーされている表 | read_clipboard | データフレーム |
等幅ファイル | read_fwf | データフレーム |
DBのテーブル | read_sql_table | データフレーム |
SQLのクエリ結果 | read_sql_query | データフレーム |
DBテーブルまたはSQLクエリ | read_sql | データフレーム |