Computer Science/[21-하] Projects6 [Bioinfo] RNA-seq project 1 - (2) data cleaning, indexing - data download - data transformation - data cleaning - data mapping - mapped read counting - DEGs(Statistical analysis) - Gene expression pattern - data visualization Read cleaning 데이터를 다운받은 후에 raw read cleaning을 진행한다. read cleaning을 하는 이유는 에러가 있는 nucleotide를 제거하고, 중복 read를 제거하기 위함이다. Duplicates를 다루는 방법? 이론적으로 기존 라이브러리의 각각의 template에 대해 하나의 read를 사용해야하는데, NGS의 과정 중 PCR amplification이 있기 때문에 여러개.. 2022. 8. 12. [Bioinfo] RNA-seq project 1 - (1) data download - data download - data transformation - data cleaning - data mapping - mapped read counting - DEGs(Statistical analysis) - Gene expression pattern - data visualization 분석을 시작하기 전 데이터를 생산해야하는데, 이미 시퀀싱이 끝난 데이터를 다운로드 받아와서 분석을 진행했다. https://www.ncbi.nlm.nih.gov/sra Home - SRA - NCBI www.ncbi.nlm.nih.gov 1. BioProject를 선택하고 원하는 종과 시퀀싱 방법을 적는다. 2. 원하는 프로젝트를 고른다. Accession 번호 (PRJNA806646)을 이용해서 검색이 가능.. 2022. 7. 25. [캐글] Tabular Playground Series - April 회고 2022년 다시 참가한 TPS 4월이 끝났다. 106/816 (13%) Multivariable Time Series Classification 문제였고, 처음에는 CNN, LSTM 모델 만들어보고, 나중에 XGBoost, LGBM 모델 만들어서 대회 끝나기 이틀 전부터 앙상블했다. 앙상블은 그냥 점수보면서 weighted averaging했다. 모델은 xgboost, lgbm, bi-lstm, lstm, cnn-lstm 이렇게 다섯개 사용했다. 이번 대회에서 가장 많이 시간을 쓴건 LSTM인데, 전에 코세라 딥러닝에서 내용만 들어봤고 써보는건 처음이였다. 그 외에, - Pandas가 복잡해지면 어려웠음. ➡️ kaggle course Pandas - EDA할 때 통계적인 부분이 모자란게 FE까지 영향을.. 2022. 5. 1. [캐글] Tabular Playground Series - November 회고 11월 TBS 끝났다. 10월이 탑 19%라 더 높이 들어가는게 목표였는데 이루지 못했다 😅 대회 시작 처음에는 머신러닝 알고리즘으로 여러개를 해봤다. catboost, xgboost, lgbm, knn 그리고 앙상블했다. 여기서 모델을 더 만들어서 앙상블할까 하다가 방향을 틀어서 NN을 이용해서 모델을 만들었다. 이건 다른 캐글러가 올린 노트북을 참고해서 했고 마침 코세라 강의도 딱 CNN 전까지 끝나서 개념은 정리된 상태였다. 그리고 월말에는 거의 못해서 NN을 살짝 건드리고 대회가 끝이 났다. 디스커션에 있던 페이퍼들도 읽고 그러려고 했는데, 후반부가 흐지부지돼서 아쉽다. 12월에는 아예 tabular data + NN만 집중해서 풀어봐야겠다. 2021. 12. 1. [캐글] Tabular Playground Series - October 회고 TBS 10월은 continuous, categorical 이 섞인 상당히 큰 데이터셋이였다. feature 개수만 287개였고, row도 길어서 한번 학습하는데 시간이 오래 걸렸다. 나는 XGBoost를 주로 시도해보고 다른 방법(LGBM, Catboost, NN 등)은 못해봤는데, feature이 287개여서 여러가지 feature engineering + XGBoost를 사용했다. feature engineering은 KMeans로 클러스터를 만들어서 추가해주거나 categorical feature을 인코딩하는 방법들을 배웠다. 어떻게 스코어를 올릴 수 있을지 고민하기보다 새로운 것들을 이해하고 배우는데에 시간을 더 많이 썼다. Datacamp 강의에서 배운건 진짜 기초였고, 캐글에 있는 Noteb.. 2021. 11. 5. [캐글] 첫번째 노트북 발행 - Fish Market 캐글에 있는 Fish Market이라는 데이터셋으로 생애 첫번째 노트북을 썼다. 이 데이터셋과 연관된 Task는 두개였는데, 물고기의 무게 예측이랑 물고기 종 예측 중 난 무게 예측을 해봤다. 비록 간단한 회귀문제였지만, 처음으로 스스로 score을 낸 문제라서 기쁨 😙 이번주에 배운 데이터캠프 내용으로 다음주도 새로운 데이터셋을 풀어봐야겠다. - EDA 매우 중요한 것 같은데, 통계적 베이스가 너무 부족하다는 것을 느꼈다. - 어떻게 하면 score을 더 올릴 수 있을지 고민했다. (현재 95%) - Outlier data를 어떻게 처리할 수 있을까? = 혼자만 다른 경향을 갖고있는 물고기 종류. 2021. 9. 5. 이전 1 다음