본문 바로가기

Computer Science/[21-22] DataCamp ML, R7

[R] ggplot으로 linear regression 시각화 ggplot(dataframe, aes(x-axis, y-axis)) + geom_point(alpha = 0.5) + geom_smooth(method='lm', se=FALSE) alpha = scatter plot의 점을 불투명하게 method = smoothing method (lm, glm, loess, gam) se = confidence ribbon을 나타나게 할지 (default TRUE) 2022. 5. 30.
[WEEK1] Introduction to Statistics in R - Datacamp Career Track "R Statistician" 를 시작했다. 1. Summary Statistics - Measures of center = mean, median: - left skewed, right skewed = skewed data일수록 median 사용 - Measures of spread = quartiles, quantiles and quintiles = Box plot uses quartiles - Variance and standard deviation - Interquartile range (IQR) = Height of the box quantile(0.75) - quantile(0.25) - IQR 이용해서 outlier 구별 가능 < Q1 - 1.5*I.. 2022. 5. 19.
[WEEK13] Feature Engineering for NLP in Python WEEK 12에 이어서 두번째 NLP 관련 강의였다. 1. Basic features and readability scores - Readability test = 얼마나 쉽게 읽히는 글인지? => Flesch reading ease, Gunning fog index, Simble Measure of Gobbledygook (SOMG), Dale-Chall score - Flesch reading ease => 가정 1. 길이가 길수록, 2. average number of syllables 가 클수록 읽기 어려운 글 2. Text preprocessing, POS tagging and NER - Tokenization and Lemmatization - Part-of-speech tagging (POS.. 2021. 12. 6.
[WEEK12] Introduction to Natural Language Processing in Python DataCamp 스터디 새로운 토픽 NLP에 들어갔다. 포스팅하지 않은 주에는 주로 Feature Engineering, Preprocessing, Model Validation 에 관한 내용을 다뤘다. NLP는 이 강의를 통해서 아예 처음 배웠는데 주로 텍스트를 어떻게 전처리할지에 관한 내용이였다. 그리고 여러 NLP library를 import해서 사용해봤다. 1. Regular expressions & word tokenization - Regular expressions (regex) -> import re re.search(), re.match(), re.findall() - Introduction to tokenization - Word tokenization with NLTK 2. Simpl.. 2021. 11. 29.
[WEEK2] Unsupervised Learning in Python 두번째 주가 끝났다. 비지도학습과 클러스터링, 차원 축소 방법에 대해서 배웠다. 수학적인 내용이 많아서 '역시 수학이..' 싶었던 일주일이였고, 마지막에 추천시스템까지 다뤄서 쉽지 않은 코스였다. 수학 공부해야지 + 이번주는 NMF 적용할 수 있는 데이터셋 찾아서 연습. (아마도 영화 줄거리 위키..?) 1. Clustering for dataset exploration - Unsupervised learning, clustering (K Means) - Evaluating a clustering - Transforming features for better clustering 2. Visualization with hierarchical clustering and t-SNE - Visualizing h.. 2021. 9. 7.
DataCamp ML Scientist 참고 자료 DataCamp의 ML Scientist 과정을 들으면서, Andrew Ng Deeplearning.ai 코스를 함께 듣고 있다. ML Scientist에서 다루는 내용이 되게 많은데, 원리에 대한 설명이 부족한 경우가 있어서 구글링이나 유튜브로 개념을 더해줘야 한다. 참고해서 공부한 링크들을 나중에 찾아보기 편하도록 정리해두었다. https://docs.google.com/document/d/1Y6pr4eNQRj8EuCLW94j58edu7HQeRLuQRwou2TtQDDs/edit?usp=sharing DataCamp_ML Scientist Syllabus WEEK1 Supervised Learning with sklearn About sklearn train_test_split module https:.. 2021. 9. 2.
[WEEK1] Supervised Learning with scikit-learn 스터디 첫 주가 끝났다. 지도학습의 전반적인 내용과 sklearn 사용법에 대해 배웠다. 1. Classification: classification problems using supervised learning techniques. - Supervised Learing = using already labeled data - Numerical / Visual EDA = pandas, seaborn - k-Nearest Neighbors Algorithm = setting a decision boundary - Measuring model performance - Train/test split = split data for training the model, testing - Overfitting and .. 2021. 8. 31.