본문 바로가기

Computer Science74

[Bioinfo] RNA-seq project 1 - (2) data cleaning, indexing - data download - data transformation - data cleaning - data mapping - mapped read counting - DEGs(Statistical analysis) - Gene expression pattern - data visualization Read cleaning 데이터를 다운받은 후에 raw read cleaning을 진행한다. read cleaning을 하는 이유는 에러가 있는 nucleotide를 제거하고, 중복 read를 제거하기 위함이다. Duplicates를 다루는 방법? 이론적으로 기존 라이브러리의 각각의 template에 대해 하나의 read를 사용해야하는데, NGS의 과정 중 PCR amplification이 있기 때문에 여러개.. 2022. 8. 12.
[Bioinfo] RNA-seq project 1 - (1) data download - data download - data transformation - data cleaning - data mapping - mapped read counting - DEGs(Statistical analysis) - Gene expression pattern - data visualization 분석을 시작하기 전 데이터를 생산해야하는데, 이미 시퀀싱이 끝난 데이터를 다운로드 받아와서 분석을 진행했다. https://www.ncbi.nlm.nih.gov/sra Home - SRA - NCBI www.ncbi.nlm.nih.gov 1. BioProject를 선택하고 원하는 종과 시퀀싱 방법을 적는다. 2. 원하는 프로젝트를 고른다. Accession 번호 (PRJNA806646)을 이용해서 검색이 가능.. 2022. 7. 25.
[Algorithm] Sliding Window + 1695. Maximum Erasure Value array에서 특정 구간의 최대 합을 찾을 때, 인덱스 0부터 모든 subarray의 합을 구해볼 수 있을 것이다. 이 때 시간복잡도는 O(n^2)으로, Sliding Window기법을 통해 시간복잡도를 O(n)으로 낮출 수 있다. 리트코드 1695. Maximum Erasure Value = unique한 값만 존재하는 subarray의 합 중 가장 큰 합 찾기 [4, 2, 1, 2, 6] 1. 인덱스 0부터 윈도우 크기를 키우다가, 중복되는 값이 나오면 (=2) 앞에서부터 윈도우 크기를 줄임 [4] = 4 [4, 2] = 6 [4, 2, 1] = 7 [2, 1, 2] [1, 2] 2. 윈도우에 unique한 값만 존재하면, 합이 얼마인지 찾기 [1, 2] = 3 [1, 2, 6] = 9 class S.. 2022. 6. 12.
[Algorithm] Binary Tree + 530. Minimum Absolute Difference in BST 리트코드 530. Minimum Absolute Difference in BST Binary Search Tree에 있는 전체 노드의 차이 중 가장 적은 숫자를 리턴한다. (서로 부모-자식 관계인 노드가 아니여도 됨) 115ms가 걸린 내 코드랑 디스커션에 있는 55ms 걸린 코드를 비교해보려고 한다. 나는 단순하게 전체 노드를 저장해서 가장 작은 차이를 골랐는데, BST의 성질을 이용하지 못했다. 디스커션의 코드는 왼쪽 자식 노드가 항상 부모 노드보다 작고, 오른쪽 자식 노드가 항상 부모 노드보다 크다는 것을 이용했다. 55ms class Solution: def getMinimumDifference(self, root: Optional[TreeNode]) -> int: d.. 2022. 6. 1.
[R] ggplot으로 linear regression 시각화 ggplot(dataframe, aes(x-axis, y-axis)) + geom_point(alpha = 0.5) + geom_smooth(method='lm', se=FALSE) alpha = scatter plot의 점을 불투명하게 method = smoothing method (lm, glm, loess, gam) se = confidence ribbon을 나타나게 할지 (default TRUE) 2022. 5. 30.
[WEEK1] Introduction to Statistics in R - Datacamp Career Track "R Statistician" 를 시작했다. 1. Summary Statistics - Measures of center = mean, median: - left skewed, right skewed = skewed data일수록 median 사용 - Measures of spread = quartiles, quantiles and quintiles = Box plot uses quartiles - Variance and standard deviation - Interquartile range (IQR) = Height of the box quantile(0.75) - quantile(0.25) - IQR 이용해서 outlier 구별 가능 < Q1 - 1.5*I.. 2022. 5. 19.
[Autoencoder] Denoising Autoencoder란? 이번 캐글 TPS의 일등 리더보드 솔루션은 Denoising Autoencoder을 사용했다. Autoencoder Autoencoder란 feature selection, feature extraction에 사용되는 Feedforward 뉴럴넷이다. 인풋 데이터를 인코더를 이용해서 압축해 코드를 만들고, 코드를 디코더를 통해 아웃풋으로 만든다. 이 과정에서 인풋의 중요한 특성들을 뽑아내게 된다. Autoencoder를 만드는데 3가지가 필요한데, 1. 어떻게 encoding? 2. 어떻게 decoding? 3. 아웃풋과 타겟을 비교할 loss function Autoencoder은 fully connected NN이고, 4개의 하이퍼파라미터를 갖는다. 학습 방법은 기존 NN과 동일하게 backpropa.. 2022. 5. 2.
[캐글] Tabular Playground Series - April 회고 2022년 다시 참가한 TPS 4월이 끝났다. 106/816 (13%) Multivariable Time Series Classification 문제였고, 처음에는 CNN, LSTM 모델 만들어보고, 나중에 XGBoost, LGBM 모델 만들어서 대회 끝나기 이틀 전부터 앙상블했다. 앙상블은 그냥 점수보면서 weighted averaging했다. 모델은 xgboost, lgbm, bi-lstm, lstm, cnn-lstm 이렇게 다섯개 사용했다. 이번 대회에서 가장 많이 시간을 쓴건 LSTM인데, 전에 코세라 딥러닝에서 내용만 들어봤고 써보는건 처음이였다. 그 외에, - Pandas가 복잡해지면 어려웠음. ➡️ kaggle course Pandas - EDA할 때 통계적인 부분이 모자란게 FE까지 영향을.. 2022. 5. 1.