Canonical vs Canonical & Isoform fasta file
본문 바로가기
프로테오믹스(단백체학)

Canonical vs Canonical & Isoform fasta file

by Hyoungjoo 2022. 5. 14.
반응형

Mouse liver 에서 단백질을 검출한후 Proteome Discover에서 MSFragger 를 사용하여 검색을 하였습니다.

2hr LC gradient에서 8,000여개의 단백질이 검출이 되어서 대박이 났구나 생각했습니다. 알고 보니 검색설정을 제대로 하지 않아서 Proteingroup 표시되지 않았기 때문입니다.  

 

 

Uniprot에서 fasta file 다운받게 되면  Canonical과 Canonical & isoform 보이게 됩니다.

https://www.uniprot.org/help/canonical_and_isoforms

 

 

쉽게 생각해서 Isoform 포함된 Sequence 단백질을 검색하면 많은 단백질이 검출이 될것이라 예상이 됩니다. 하지만 Proteome discoverer 같은 프로그램은 유사한 단백질을 한개로 묶어서 group으로 표시합니다. 1개의 단백질로 표시됩니다. Proteome Discoverer 경우는  isoform 대표적인 단백질 한개를 Master 표시합니다. 정확히는 잘모르겠지만 Master 정하는 기준은 프로그램마다 다른것으로 알고 있습니다.  많은 Sequence 서로 공유하는 isoform 경우 동일한 부분의 sequence 검출되면 어느 isoform에서 검출된것이 알지 못하기 때문에  모두 검출된것으로 표시될수도 있습니다.  이렇한 이유로  이전에는 감도가 낮은 질량분석기임에도 많은 수의 단백질을 찾은 논문들이 있었습니다.

 

Data-Dependent Acquisition with non-Isoform and Isoform Fasta

아래는 Isoform 포함되지 않은 fasta파일과 Isoform 포함된 fasta파일을 이용하여 Proteome Discover  검색을 해보았습니다. Non-isoform에서는 4369, isoform fasta 에서는 4410개의 단백질이 검색이 되었습니다. Isoform 포함된 fasta파일로 검색하였을때 조금더 많은 단백질이 검출이 되었지만 그다지 차이는 없습니다.

 

Proteingroup으로 포함된 단백질의 수의 분포도를 비교해보면 아래와 같습니다.Isoform fasta 파일에서는 약 3,000개의 단백질이 1개의 proteingroup으로 검출이 된 반면 non-isoform fasta파일에서는 약 4,000개의 단백질이 1개의 proteingroup으로 검출이 되었습니다. 즉 Non-Isoform fasta파일에서 검출된 단백질중 약 1,000개의 단백질이 Isoform fasta file에서는 2개이상의 단백질로 검출이 되었습니다. Proteome discoverer와 같은 프로그램은 이러한 isoform  한개의 단백질로 생각하기 때문에 실제 protein group의 수는  차이가 없습니다.

 

 

 

예를 들면  A-kinase anchor protein non-Isoform fasta에서 1 개의 단백질로 표시되었고 isoform fasta에서는 6개의 단백질로 검출이 되었습니다. 하지만 실제 proteingroup 수는 1개로 표시가 됩니다.

 

 

Isoform에서 조금더 많은 단백질이 찾아진 이유는 아마 특정 isoform 단백질에만 존재하는 펩타이드가 검출이 되었기 때문일듯합니다.

 

Data-Independent Acquisition with non-Isoform and Isoform Fasta 

Biognosys의 Spectronaut에서도 유사하게 적용되니다. proteins 수에서 Isoform fasta 파일에서 더 많은 수가 나왔지만 Proteingroups 의 수는 거의 차이가 나지 않습니다. DDA분석에서와 유사한 패턴을 보입니다.

 

댓글