본문 바로가기
Computer Science/[21-하] Projects

[캐글] Tabular Playground Series - October 회고

by gojw 2021. 11. 5.

  TBS 10월은 continuous, categorical 이 섞인 상당히 큰 데이터셋이였다. feature 개수만 287개였고, row도 길어서 한번 학습하는데 시간이 오래 걸렸다. 나는 XGBoost를 주로 시도해보고 다른 방법(LGBM, Catboost, NN 등)은 못해봤는데, feature이 287개여서 여러가지 feature engineering + XGBoost를 사용했다. feature engineering은 KMeans로 클러스터를 만들어서 추가해주거나 categorical feature을 인코딩하는 방법들을 배웠다. 어떻게 스코어를 올릴 수 있을지 고민하기보다 새로운 것들을 이해하고 배우는데에 시간을 더 많이 썼다. Datacamp 강의에서 배운건 진짜 기초였고, 캐글에 있는 Notebook들 읽으면서 정말 많이 배웠다. 상금이 걸린 대회가 아니기 때문에, 캐글러들이 활발하게 디스커션이나 코드에서 자신의 아이디어를 공유해준다! 또 월별로 열리는 대회기 때문에, 저번 달이나 저저번달 노트북을 읽으면서 인사이트를 얻어갈 수 있다.

 

  TBS 11월은 XGBoost 말고 새로운 모델들 만드는걸 해보고싶고, 여태 나온 노트북들 보니까 이번달에는 사람들이 NN을 많이 썼던데, coursera 들으면서 병행해보는걸로..!

댓글