EDA를 통해서 어떤 feature들을 선택하거나 추가할지 정할 수 있다.
시계열 데이터를 다룰 때 lag feature을 추가할 수 있다. lag feature는 이전 타임스텝의 데이터를 뜻한다.
lag value가 1이면 한개 전 타임스텝의 데이터, 2이면 두개 전 타임스텝의 데이터이다.
타임스텝별로 어떤 트렌드가 있다면 그만큼을 lag value로 정해준다. 예를들어 일주일마다 어떤 트렌드가 있으면 lag value을 7로 정해줄 수 있다.
또 이전 타임스텝의 데이터가 존재하지 않을 때 Nan값이 들어가기 때문에 pandas fillna()를 이용해서 0으로 바꿔준다.
# lag value = 1
# sequence라는 컬럼을 groupby
df[feature + '_lag1'] = df.groupby('sequence')[feature].shift(1)
df.fillna(0, inplace=True)
'Computer Science > [21-22] ML & DL' 카테고리의 다른 글
[CNN] Conv1D의 causal padding이란 (0) | 2022.04.22 |
---|---|
[cv] 시계열 데이터 Cross Validation - GroupKFold (0) | 2022.04.16 |
[LSTM] LSTM unit, cell, layer에 대한 이해 (0) | 2022.04.13 |
[LSTM] keras.layers.LSTM()의 input_shape (0) | 2022.04.10 |
[DL] Andrew Ng 교수님의 논문 읽는 법 (0) | 2022.01.05 |
댓글