질량분석기를 데이타를 얻은후 데이타베이스 검색을 수행하면 기본적인 통계처리가 적용된후 결과 값이 나옵니다. 생물통계정보학 전공자가 아닌 나로써는 추가적인 분석은 하지 못합니다. 필요할 경우 적절한 사람에게 부탁하면 되기 때문에서 특별히 통계를 더 배워야 할 동기가 부족한것 같습니다. 지금와서 수학적인 공식등을 외우면서 공부하기도 어렵습니다. 하지만 분석서비스를 하다보면 통계에 관한 기본적인 질문들을 받게 되는데 이러한 일에 대비해서 조금씩 정리하며 공부하면 좋을것 같다는 생각을 해봅니다.
사실 통계자체가 쉬운 분야는아니기 때문에 쉽게 이해할수 있는 강의자료를 찾기가 쉽지 않습니다. 용어자체도 한자로 만들어진것이 많아서 더 어렵습니다.
아래는 통계분석 프로그램회사인 Graphpad Prism에서 제공하는 간단한 통계 강의를 공부하면서 요약한것입니다.
모든 데이타가 무조건 통계분석에 사용될수 없습니다. 일단 통계분석을 진행하기 위해서는 얻어진 데이타가 통계분석에 적절한지 여부를 확인해야 됩니다. 통계분석에 적합한 형태가 따로 입니다. 하지만 보통 그런걸 생각하지 않습니다.
통계분석전에 분석할 데이타가 Normality (정규성)와 분산의 이질성(heterogeneity of variance)에 항목에 적합해야 된다.
또한 이것을 표현 할 수 있도록 적절한 그래프를 사용해야 된다. 무조건 막대그래프는 안된다!
Parametric statistics (모수 통계) : 모집단의 특성이 정규분포를 이루고 있을 것이라는 가정 하에 샘플의 데이타로부터 모집단의 측정을 추정하는 것입니다. 서로 다른 두집단이 정규분포를 가질 경우 각 집단들의 평균을 비교함으로서 차이를 밝혀내는 통계방법 (Student's T-test, ANOVA....)
모수 통계 분석을 위해서 "Assumptions (가정)"이 적절한지 확인해야 합니다.
1) Central Tendency: Normality (정규성)- 데이타의 정규분포도 여부
아래와 같이 표본집단이 정규분포를 가져야 합니다. 즉 샘플에서 얻어진 데이타 값이 정규분포를 가져야만 통계분석을 위해 다음 단계로 넘어 갈 수 있습니다.
그렇다면 정규분포를 가지지 않는 형태는 어떤형태가 있을까요? 위의 정규분포모양이 아닌 한쪽으로 치우친 (Skewness) 모양입니다. 아래 분포도가 그 예입니다.
2) 분산의 동질성(Homogeneity of variance)
분산의 동질성은 t 검정과 F 검정(분산의 분석, 분산 분석) 모두에 기초하고 있는 가정으로서, 두 개 이상의 표본의 모집단 분산이 동일하다고 간주되는것입니다. 만약 이것에 만족하지 못한다면 T-test나 ANOVA 검증이 아닌 다른 검증법을 사용해야 합니다.
만약 암컷과 수컷 코요테의 몸집 길이에 대한 차이를 알아보는 실험을 할 경우 " 암컷과 수컷의 코요테의 몸길이에 대한 차이가 있는가?"를 검증해야 합니다. 보통 우리는 두 그룹에서 얻어진 값들을 이용하여 바 (bar)그래프를 그립니다. 하지만 이 그래프는 앞에서 설명한 두 Assuptions (가정) 성질을 반영하지 못함으로 적절한 그래프가 되지 못합니다. 이 그래프는 두 그룹에서 얻어진 값의 차이를 표현하고 있지만 개별적으로 얻어진 값들의 분포들을 알 수가 없습니다.
아래 3가지의 그래프는 위에서 말한 두가지 성질(정규성 와 분산의 이질성 )을 잘 표현하고 있습니다. 즉 아래 3가지는 그래프는 Parametric data 분석에 적절합니다.
Q-Q Plot
정규성 가정(Normality assumption) 을 측정하는 또 다른 방법: Q-Q plot (Quantile-Quantile Plot)를 통해 확인 할 수 있 수 있습니다. GraphPad Prism 프로그램에서는 아래와 같은 순서로 간단히 그래프를 만들 수 있습니다.
2개의 확률 분포를 시각적으로 나타내는 분석방법으로 직선에 가까울수록 정규성이 높습니다.
'프로테오믹스(단백체학)' 카테고리의 다른 글
N-linked glycopeptides 가 C18 Chromatography에서 상호작용하는 원리 (0) | 2020.06.28 |
---|---|
[초보생물통계] T-TEST (t-검정)에 대해서 알아보기 (0) | 2020.06.22 |
p 값에 대해 간단한 해석 (0) | 2020.06.22 |
Formic acid(F.A) 와 trifluoroacetic acid (TFA)의 Trap-column에 대한 펩타이드 결합력 비교 (0) | 2020.06.21 |
Q-Exactive (Thermo Scientific) Benchmark data (0) | 2020.06.20 |
댓글