pandas.DataFrame, Seriesのインデックスを振り直すreset_index

reset_index()メソッドを使うと、pandas.DataFrame, pandas.Seriesのインデックス(行名、行ラベル)を0始まりの連番(行番号)に振り直すことができます。

pandas.DataFrame.reset_index — pandas 0.22.0 documentation

行番号をインデックスとして使っている場合、ソートして行の順番が変わったときや行を削除して欠番が出たときなどはインデックスを振り直したほうが使いやすい。 また、行名・行ラベルをインデックスとして使っている場合に、現在のインデックスを削除したりデータ列に戻すためにも使います。set_index()とreset_index()を使うことで、インデックスを別の列に変更(再設定)することができます。 ここでは、

reset_index()でインデックスを連番に振り直し reset_index()とset_index()でインデックスを別の列に変更(再設定)

について説明します。 例として以下のデータを使用します。

import pandas as pd

df = pd.read_csv('data/src/sample_pandas_normal.csv')
print(df)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

サンプルのcsvファイルはコチラ。

sample_pandas_normal.csv

例はpandas.DataFrameだが、pandas.Seriesでもreset_index()が用意されています。引数など、使い方はどちらも同じ。

reset_index()でインデックスを連番に振り直し

説明のためsort_values()で行を並び替える。ソート(sort_values(), sort_index())についての詳細は以下の記事参照。

df.sort_values('state', inplace=True)
print(df)
#       name  age state  point
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 4    Ellen   24    CA     88
# 0    Alice   24    NY     64
# 5    Frank   30    NY     57
# 3     Dave   68    TX     70

indexがバラバラになってしまったので、これを0始まりの連番に振り直す。 引数に何も指定せずreset_index()を使うと、元のindexが新たな列として追加される。

df_r = df.reset_index()
print(df_r)
#    index     name  age state  point
# 0      1      Bob   42    CA     92
# 1      2  Charlie   18    CA     70
# 2      4    Ellen   24    CA     88
# 3      0    Alice   24    NY     64
# 4      5    Frank   30    NY     57
# 5      3     Dave   68    TX     70

元のindexを削除(引数drop) 引数dropをTrueとすると、元のindexは削除され、新たなindex(連番)で上書きされる。

df_r = df.reset_index(drop=True)
print(df_r)
#       name  age state  point
# 0      Bob   42    CA     92
# 1  Charlie   18    CA     70
# 2    Ellen   24    CA     88
# 3    Alice   24    NY     64
# 4    Frank   30    NY     57
# 5     Dave   68    TX     70

元のオブジェクトを変更(引数inplace) デフォルトでは元のオブジェクトは変更されず、新たなオブジェクトが返されるが、引数inplaceをTrueとすると元のオブジェクトが変更される。

df.reset_index(inplace=True, drop=True)
print(df)
#       name  age state  point
# 0      Bob   42    CA     92
# 1  Charlie   18    CA     70
# 2    Ellen   24    CA     88
# 3    Alice   24    NY     64
# 4    Frank   30    NY     57
# 5     Dave   68    TX     70

reset_index()とset_index()でインデックスを別の列に変更(再設定)

インデックスとして番号ではなく行名が設定されている場合。

df = pd.read_csv('data/src/sample_pandas_normal.csv', index_col=0)
print(df)
#          age state  point
# name                     
# Alice     24    NY     64
# Bob       42    CA     92
# Charlie   18    CA     70
# Dave      68    TX     70
# Ellen     24    CA     88
# Frank     30    NY     57

reset_index()メソッドを使うと、連番がインデックスに設定され元のインデックスがデータ列に追加される。

df_r = df.reset_index()
print(df_r)
#       name  age state  point
# 0    Alice   24    NY     64
# 1      Bob   42    CA     92
# 2  Charlie   18    CA     70
# 3     Dave   68    TX     70
# 4    Ellen   24    CA     88
# 5    Frank   30    NY     57

別の列をインデックスに変更(再設定)するためにはset_index()メソッドを使います。

元のDataFrameにset_index()を適用すると元のインデックスが削除される。

df_s = df.set_index('state')
print(df_s)
#        age  point
# state            
# NY      24     64
# CA      42     92
# CA      18     70
# TX      68     70
# CA      24     88
# NY      30     57

元のインデックスをデータ列として残しておきたい場合は、reset_index()してからset_index()を用いればよい。

df_rs = df.reset_index().set_index('state')
print(df_rs)
#           name  age  point
# state                     
# NY       Alice   24     64
# CA         Bob   42     92
# CA     Charlie   18     70
# TX        Dave   68     70
# CA       Ellen   24     88
# NY       Frank   30     57

シェア

関連カテゴリー

Python pandas

pandasでstack, unstack, pivotを使ってデータを整形 pandasのMultiindexで階層ごとの統計量・サンプル数を算出 『Python Data Science Handbook』(英語の無料オンライン版あり) pandasのplotメソッドでグラフを作成しデータを可視化 pandas.DataFrame, Seriesを順位付けするrank pandasのMultiindexの指定・追加・解除・ソート・レベル変更 pandas.DataFrame, SeriesとNumPy配列ndarrayを相互に変換 pandasの時系列データのタイムゾーンを処理(tz_convert, tz_localize) pandasのMultiIndexから任意の行・列を選択、抽出 pandas.Seriesのmapメソッドで列の要素を置換 pandasでcsvファイルの書き出し・追記(to_csv) pandas.DataFrameから特定の型dtypeの列を抽出(選択) pandas参考書『Pythonによるデータ分析入門』の注意点 pandas.DataFrame, Seriesを辞書に変換(to_dict) pandasで行数、列数、全要素数(サイズ)を取得

Last Updated: 6/26/2019, 10:34:03 PM