본문 바로가기

분류 전체보기75

[Algorithm] Top 75 LeetCode https://www.teamblind.com/post/New-Year-Gift---Curated-List-of-Top-75-LeetCode-Questions-to-Save-Your-Time-OaM1orEU New Year Gift - Curated List of Top 75 LeetCode Questions to Save Your Time New Year Gift to every fellow time-constrained engineer out there looking for a job, here's a list of the best LeetCode questions that teach you core concepts and techniques for each category/type of proble.. 2022. 2. 21.
[DL] Andrew Ng 교수님의 논문 읽는 법 - Compile a list of papers: try to create a list of research papers, posts and whatever text or learning resource you have. - Skip around the list: basically, you should read research papers in a parallel fashion; meaning try to tackle more than one paper at a time. Concretely, try to quickly skim and understand each of these paper and do not read it all, maybe you read 10–20% of each one and pr.. 2022. 1. 5.
[WEEK13] Feature Engineering for NLP in Python WEEK 12에 이어서 두번째 NLP 관련 강의였다. 1. Basic features and readability scores - Readability test = 얼마나 쉽게 읽히는 글인지? => Flesch reading ease, Gunning fog index, Simble Measure of Gobbledygook (SOMG), Dale-Chall score - Flesch reading ease => 가정 1. 길이가 길수록, 2. average number of syllables 가 클수록 읽기 어려운 글 2. Text preprocessing, POS tagging and NER - Tokenization and Lemmatization - Part-of-speech tagging (POS.. 2021. 12. 6.
[캐글] Tabular Playground Series - November 회고 11월 TBS 끝났다. 10월이 탑 19%라 더 높이 들어가는게 목표였는데 이루지 못했다 😅 대회 시작 처음에는 머신러닝 알고리즘으로 여러개를 해봤다. catboost, xgboost, lgbm, knn 그리고 앙상블했다. 여기서 모델을 더 만들어서 앙상블할까 하다가 방향을 틀어서 NN을 이용해서 모델을 만들었다. 이건 다른 캐글러가 올린 노트북을 참고해서 했고 마침 코세라 강의도 딱 CNN 전까지 끝나서 개념은 정리된 상태였다. 그리고 월말에는 거의 못해서 NN을 살짝 건드리고 대회가 끝이 났다. 디스커션에 있던 페이퍼들도 읽고 그러려고 했는데, 후반부가 흐지부지돼서 아쉽다. 12월에는 아예 tabular data + NN만 집중해서 풀어봐야겠다. 2021. 12. 1.
[WEEK12] Introduction to Natural Language Processing in Python DataCamp 스터디 새로운 토픽 NLP에 들어갔다. 포스팅하지 않은 주에는 주로 Feature Engineering, Preprocessing, Model Validation 에 관한 내용을 다뤘다. NLP는 이 강의를 통해서 아예 처음 배웠는데 주로 텍스트를 어떻게 전처리할지에 관한 내용이였다. 그리고 여러 NLP library를 import해서 사용해봤다. 1. Regular expressions & word tokenization - Regular expressions (regex) -> import re re.search(), re.match(), re.findall() - Introduction to tokenization - Word tokenization with NLTK 2. Simpl.. 2021. 11. 29.
[cv] LOOCV vs K-Fold and bias-variance trade-off - LOOCV (Leave-One-Out Cross Validation) vs K-Fold? 일단 두가지 모두 다 Cross-validation 기법이다. 데이터의 양은 정해져있고, (더 많은 데이터셋을 구하는건 더 어려운 일) overfitting 문제를 줄이기 위해서 Cross-validation를 한다. LOOCV: 한개의 관측값을 validation set으로 이용. 당연히 계산양이 많아지고, overfitting 되기 쉬워 데이터셋의 크기가 작을 때 사용함. K-Fold: fold의 개수에 따라서 데이터셋을 나누고, 그 중 하나를 validation set으로 이용. - Bias-variance trade-off LOOCV: low bias, high variance. 전체 n개의 데이터라고 하.. 2021. 11. 22.
[EDA] Pandas.skew() 가 skewness를 계산하는 방법 pandas .skew()는 bias default = False, 반대로 scipy skew()는 bias default = True 2021. 11. 19.
[캐글] Tabular Playground Series - October 회고 TBS 10월은 continuous, categorical 이 섞인 상당히 큰 데이터셋이였다. feature 개수만 287개였고, row도 길어서 한번 학습하는데 시간이 오래 걸렸다. 나는 XGBoost를 주로 시도해보고 다른 방법(LGBM, Catboost, NN 등)은 못해봤는데, feature이 287개여서 여러가지 feature engineering + XGBoost를 사용했다. feature engineering은 KMeans로 클러스터를 만들어서 추가해주거나 categorical feature을 인코딩하는 방법들을 배웠다. 어떻게 스코어를 올릴 수 있을지 고민하기보다 새로운 것들을 이해하고 배우는데에 시간을 더 많이 썼다. Datacamp 강의에서 배운건 진짜 기초였고, 캐글에 있는 Noteb.. 2021. 11. 5.