TBS 10월은 continuous, categorical 이 섞인 상당히 큰 데이터셋이였다. feature 개수만 287개였고, row도 길어서 한번 학습하는데 시간이 오래 걸렸다. 나는 XGBoost를 주로 시도해보고 다른 방법(LGBM, Catboost, NN 등)은 못해봤는데, feature이 287개여서 여러가지 feature engineering + XGBoost를 사용했다. feature engineering은 KMeans로 클러스터를 만들어서 추가해주거나 categorical feature을 인코딩하는 방법들을 배웠다. 어떻게 스코어를 올릴 수 있을지 고민하기보다 새로운 것들을 이해하고 배우는데에 시간을 더 많이 썼다. Datacamp 강의에서 배운건 진짜 기초였고, 캐글에 있는 Notebook들 읽으면서 정말 많이 배웠다. 상금이 걸린 대회가 아니기 때문에, 캐글러들이 활발하게 디스커션이나 코드에서 자신의 아이디어를 공유해준다! 또 월별로 열리는 대회기 때문에, 저번 달이나 저저번달 노트북을 읽으면서 인사이트를 얻어갈 수 있다.
TBS 11월은 XGBoost 말고 새로운 모델들 만드는걸 해보고싶고, 여태 나온 노트북들 보니까 이번달에는 사람들이 NN을 많이 썼던데, coursera 들으면서 병행해보는걸로..!
'Computer Science > [21-하] Projects' 카테고리의 다른 글
[Bioinfo] RNA-seq project 1 - (2) data cleaning, indexing (0) | 2022.08.12 |
---|---|
[Bioinfo] RNA-seq project 1 - (1) data download (0) | 2022.07.25 |
[캐글] Tabular Playground Series - April 회고 (0) | 2022.05.01 |
[캐글] Tabular Playground Series - November 회고 (0) | 2021.12.01 |
[캐글] 첫번째 노트북 발행 - Fish Market (0) | 2021.09.05 |
댓글