본문 바로가기
Computer Science/[21-22] ML & DL

[FE] 시계열 데이터 lag feature 추가하기

by gojw 2022. 4. 15.

EDA를 통해서 어떤 feature들을 선택하거나 추가할지 정할 수 있다.

시계열 데이터를 다룰 때 lag feature을 추가할 수 있다. lag feature는 이전 타임스텝의 데이터를 뜻한다.

lag value가 1이면 한개 전 타임스텝의 데이터, 2이면 두개 전 타임스텝의 데이터이다.

타임스텝별로 어떤 트렌드가 있다면 그만큼을 lag value로 정해준다. 예를들어 일주일마다 어떤 트렌드가 있으면 lag value을 7로 정해줄 수 있다.

또 이전 타임스텝의 데이터가 존재하지 않을 때 Nan값이 들어가기 때문에 pandas fillna()를 이용해서 0으로 바꿔준다.

 

# lag value = 1
# sequence라는 컬럼을 groupby

df[feature + '_lag1'] = df.groupby('sequence')[feature].shift(1)
df.fillna(0, inplace=True)

 

댓글