[초보생물통계] T-TEST (t-검정)에 대해서 알아보기
본문 바로가기
프로테오믹스(단백체학)

[초보생물통계] T-TEST (t-검정)에 대해서 알아보기

by Hyoungjoo 2020. 6. 22.
반응형

고감도 질량분석기를 이용하여 단백질 정량분석을 수행하면 대략 수천개의 단백질이 검출됩니다. 이러한 수천개의 단백질 중에 많은 수의 단백질이 증감을 보입니다. 하지만 질량분석기기의 데이타 특성상 False-positive 결과를 완전히 제거하는것은 불가능합니다. 얻어진 스펙트럼과 데이타베이스에서의 스펙트럼과의 매칭을 통한 검출과정에서 많은 요소들이 포함됩니다.   하지만 이 단계에서  어떤 단백질을 선택해서 다음 단계로 넘어가야 하는지 결정하는것은 쉬운 일은 아닙니다.

 

사실 너무 많은 수의 단백질이 차이를 나타내기 때문에 오히려 더 분석이 어렵다고 합니다.  어떤 때는  차이나는 단백질중 보기에 좋은(?) 단백질을 취사선택하는 경우도 종종 있습니다.  일일이 다 확인 할 수 없기때문이다. 하지만 잘못된 결정은 차후 Antibody등을 이용하는 실험에서 많은 시간과 돈이 낭비될수 있습니다.  이러한 이유로 분석후 이차 통계분석은 다음 단계로 넘어가기전에 거쳐야 아주 중요한 단계입니다.

 

 

 

 다행히도 요즘 상용화 된 프로그램들은 이러한 작업을 자동으로 수행되기 때문에 질량분석기에만 익숙한 나같은 사람에게는 큰 도움이 됩니다.  그래도 데이타에서 보여주는 여러 통계학적인 용어나 개념을 어느정도 알고 있어야 되지 않을까 생각해 봅니다.

 

자신이 직접 분석한 두 그룹에서 측정된 특정 단백질의 양의 차이가 유의적인지 측정할때 기본적으로 쓰는 방법이 T-test입니다.   즉 T-Test는 두 그룹간의 평균이 유의적인 차이를 갖는지를 확인할때 쓰이는 통계분석 법입니다.

 

T-Test를 위한 통계적 추론(statistical inference)

T-test를 하는 근본적인 이유는 시료군에서 측정한 값이 실제 모집단의 특성을 잘 대변하고 있는지 확인하는 것입니다. 우리가 취한 시료가 모든 경우를 잘 대변할 수 있어야 합니다.  예를 들면 100명의 간암환자의 시료를 분석하여 얻은 결과가 이 세상의 모든 간암환자에서 얻은 결과를 잘 대변할수 있어야 합니다. 이러한 통계적 추론을 기반으로 T-TEST가 이루어집니다.   예를 들면 얻어진 결과중에 양적으로 변화를 많이 가지는 단백질 확인한후 이 단백질과 그 값이 흥미가 있을지를 확인합니다.  만약 그렇다면 차이나는 값이 실제로 진짜 인지를 확인하기 위해서 통계분석을 수행합니다. 통계분석을 수행후 얻어진 값을 근거로 결과의 유의미성을 판단하게 됩니다.  또한 T-Test 분석으로 얻어지는 최종값은 보통 p-value로 나타냅니다.  즉 이 p-value가 의미하는것이 아는것이 무엇보다도 중요합니다.

 

 

 

다시말하자면 Signal 이 noise보다 크면 통계적으로 유의하고 반대의 경우는 유의적인 않다고 말할 수 있습니다.

종종 두 그룹간의 비교결과를 바(bar) 그래프로 나타냅니다. 하지만 바 그래프 (왼쪽)의 경우 각 그룹에서 측정된 값의 분산도(Variablity) 를 확인 할 수 가 없습니다.  이 분산도는 T-TEST에서 아주 중요한 요소이기 때문에 이 분산도를 반드시 고려해야 됩니다.

 

 

Variability의 중요성

통계분석을 하는 이유중 하나는 실험에서 얻어진 두 시료간의 차이가 진짜인지 확인하는것입니다.

예를 들면 개의 실험군에서 차이를 발견하였습니다.  뭔가 의미가 있게 느껴집니다. 하지만 이것이 진짜인지 가짜인지 확인이 필요합니다. 이때 필요한것이 통계분석입니다. 그 결과를 보여주는것이 t, F값들입니다. 차이가는것이 충분히 큰 차이인지를 알려줍니다. 하지만 이때 각각의 시료군에서의 variability가 중요합니다. 한개의 시료군에서도 차이가 많이 나게 되면 문제가 됩니다.  아래의 그림과 같이 두 실험(위 와 아래)에서 얻어진 차이값은 동일합니다.  하지만 각각의 실험에서 얻어진 값들의 분포도가 확연히 다릅니다.  즉 동일한 차이값을 보이더라도 아래 그림에서 보여지듯이 high variability를 가지는 실험에서 얻어진 값은 유의적이지 않게 됩니다.

 

 

 

즉 T-TEST는 각각의 그룹에서 얻어진 측정치값들의 분포를 고려하여 실제 값 (Signal)이 유의한지를 나타냅니다.  그룹간의  평균값과 각 그룹의 변수를 모두 고려한 것입니다.  이러한 분포도 그래프는 측정된 시료수에 따라 크게 변할수 있습니다. 보통 30개 이상의 시료의 경우 정규분포도 모양을 나타내지만, 시료의 수가 적으면 양쪽 꼬리가 보다 더 크게 퍼지게 됩니다.  그러므로 적은 시료의 수로 분석한 결과는 불확실성이 더 커지게 됩니다.  최대한 많은 시료의 수를 확보하는것이 중요한 이유입니다.

 

그러므로 이러한 실험에서 얻어진 결과를 보여주기 위해서는 아래와 같은 그래프가 적절합니다. 이 3가지 그래프는 Normality (정규분포) 와 Homogeneity of variance (분산의 이질성)을 적절히 표현해 낼수 있습니다. 바 그래프는 이러한 차이점을 보여주지 못합니다. 

 

GraphPad Prism 프로그램을 예로  t-test를 수행하는 방법은 아래와 같습니다.  아래 그림에서 보듯이  데이타를 기입한후  메뉴에서 Analysis- Analyze Data-Column Analyses-t-test를 클릭합니다. 

 

Experimental Design에서 unpaired 와 paired 중에 선택한다. unpaired 의 경우 두 그룹에서 사용한 시료(환자,동물 등)가 서로 다른 경우이며 (예, 동일한 약물을 서로 사람에 주입)  paired 는 동일한 시료(환자)에 적용된 경우이다(예, 동일한 환자에 한 약물은 서로 다른 시간에 따라 주입).

 

또 하나 중요한 요소가 p 값의 계산시  one-tailed 와 two-tailed 를 선택하는 것입니다. 

(아주 아주 간단히 이해한 바로는) 두 그룹간의 차이를 비교 할때 양수, 혹은 음수가 나올 수 있는 경우에는 two-tailed 을 사용합니다.  예를 들면 두 환자 그룹간의 특정 단백질의 상대적인 변화를 관측할때  증가되거나 감소 될 수 있는 경우 입니다. One-tailed 의 경우 한쪽 방향으로의 측정일 경우에 사용합니다.  One-tailed 와 two-tailed의 선택 여부는 실험의 디자인에 따라 결정되어야 합니다.

 

 

참고: https://academy.graphpad.com/

댓글