[Cell Systems] Exploring dark-matter protein folds using deep learning

Why This Paper? Weekly Study에서 두 번째로 다루어 볼 논문은 Exploring “dark-matter” protein folds using deep learning이다. 이 논문은 연구실 인턴을 하면서 듣게 된 protein fold space라는 개념에 대한 궁금증을 풀고, deep learning을 이용해서 어떤 방식으로 무엇을 연구하고 있는지 알기 위해서 선정했다. About Paper Exploring “dark-matter” protein folds using deep learning이라는 논문은 Cell Systems에 게재된 논문이다. 교신저자인 Bruno E. Correia 교수님은 스위스 로잔 연방 공과대학 소속으로 immunoprotein에 중점을 두어 protein design, drug discovery, bioengineering 분야의 연구를 계속 하고 계신다. 주요 저자들인 Zonder Harteveld와 Alexandra Van Hall-Beauvais도 역시 동일한 대학과 Swiss Institute of Bioinformatics (SIB)라는 곳에 소속되어 있고, AI-based protein engineering 분야의 논문을 계속 내고 있어서 이 분야에 대해 알아보는 데 좋은 논문으로 생각된다. Main Points 1) De novo protein design은 진화에 의해 생성되지 않은 새로운 protein을 만들기 위해서 아직 기록되고 구별되지 않은 sequence & structure space를 탐색하는 것이다. 2) 주요한 문제는 target structure에 맞는 서열을 찾기 위해서 guide가 될 수 있는 “designable” structural template이 필요하다는 것인데, 저자들은 convolutional VAE (named Genesis)로 단백질 구조의 패턴을 학습하고, trRosetta와 함께 여러 fold에 대한 sequence를 design하였다. 3) Genesis는 native folds는 물론, “dark-matter” folds에 관해서도 일반화되게 distance and angle distribution을 잘 구성하였다 (proteases resistance를 이용해 안정성 검증). 4) Small neural network가 protein structural pattern을 효과적으로 학습하고, backbone design problem을 해결할 수 있음을 보였다. Main Texts Introduction 직관적으로 protein sequence space라는 것을 생각해보면, 만약 서열의 길이가 3일 경우 3차원 좌표계를 상상하고, 각 축에서 20가지의 amino acids 중 하나를 선택하여 찍게 되는 하나의 점이 바로 서열 3개의 protein sequence space 내의 하나의 protein sequence로 표현될 것이다. 실제로 기능하는 단백질들은 수 백에서 수 만의 amino acids를 이용해서 구성된다. 자연에서 일어나고 있는 evolution은 이러한 possible protein sequence space의 일부분을 조금씩 탐색하는 과정으로 생각할 수 있다. 그리고 대부분의 서열들은 유한한 개수의 protein folds 집합으로 분류될 수 있는 3차원 구조로 접히게 되는데, 이러한 folds의 집합을 protein fold space라고 볼 수 있다. de novo protein design은 알려진 native fold space의 내부 혹은 그 밖에 정의된 3D conformation으로 잘 접힐 수 있는 novel sequences를 찾아가는 과정이다. 이러한 연구는 machine learning technique을 적극적으로 활용하고 있고, 많은 경우 two-step process로 진행된다. 1) protein fold is outlined and corresponding backbones are generated (backbone은 각 아미노산에서 $\alpha$-carbon으로 구성된 뼈대를 의미한다). 2) amino acid (aa) sequences are searched to fit the generated backbones. 물론 두 과정 각각에 대한 어려운 점들이 존재하고 있다. 먼저 backbone generation의 경우, 물리적으로 비현실적인 경우 실험에서 접힘이 불가능하다. 그래서 궁극적으로 20개의 natural a.a.를 가지고 효과적으로 3차 형태로 packing 될 수 있는 최적의 secondary structure configuration (구성)을 찾게 되는데, 이를 designable backbones이라 한다. Backbone의 designability가 높을수록 그 backbone에 맞는 더 다양하고 많은 energetically favorable sequence를 찾을 수 있지만, 이를 정량적으로 표시하고 평가하는 것이 매우 어렵다. 그리고 amino acid sequence generation의 측면에서는 최근 많은 발전이 이루어지고 있다. AlphaFold, RoseTTAfold 등의 서열로부터 구조를 매우 정확하게 예측하는 모델들은 deep neural networks (DNNs)의 발달과 함께 large-scale protein sequence & structural dataset이 이용 가능해졌기 때문에 가능했다. 실제로 transform-restrained Rosetta (trRosetta)나 AlphaFold (AF)의 신경망에서 target structure to sequence로 gradient backpropagation을 통한 학습을 진행하면, 우리는 structure prediction methods를 역으로 활용하여 fixed backbone으로부터 서열을 생성하는 protein design task를 풀 수 있게 된다. 특히 network를 거치면서 나오는 서열들은 전체적인 학습 데이터 상의 서열과 구조 관계 속에서 최적화를 거치게 되고, 의미상으로는 lowest energy를 가지면서도 다른 구조들과 비교해서 특정한 하나의 target structure로 잘 접힐 수 있는 sequence가 된다. 혹은 protein backbone을 structure-based context로 활용해서 서열을 생성하는 방법도 많이 이용되고 있다. ProteinMPNN에서 MPNN에 해당하는 message-passing이나 3D convolutional neural network 등을 이용해 protein backbone을 입력으로 받아 structural feature를 생성하고, 그로부터 최적의 a.a. sequence들을 decoding 해주는 encoder-decoder 구조를 사용한다. 또한 Chorma나 RFdiffusion 같은 denoising diffusion probabilistic models에 기반한 모델들은 gaussian noise로부터 새로운 단백질 서열을 생성하거나, 특정한 구조에 제약을 둔 형태의 서열들을 생성할 수 있다. 위와 같이 DNNs, GNNs (Graph neural networks; e.g. message-passing)과 풍부한 데이터로 인해 de novo protein design의 진보가 일어나고 있는 상황에서, 본 논문은 아래와 같은 어려움을 제시한다. While powerful in generating medium to large novel protein folds, many DNNs encouter challenges in generating small new protein domains not observed in nature, i.e., domains with novel configurations or wiring of the SSEs. 즉, 자연에 존재하지 않는 작은 단백질의 domain을 생성할 때, model이 생성하는 backbone들이 결과적으로 novel하기 보다는 PDB에 존재하는 단백질들의 일정 부분 이상 모방이 되는 경우가 많다는 것이다 (물론 medium, large protein에 대한 generability에 관련된 참고문헌이 제시되어 있지만, 아직 확인해보지는 않았다). 실제로 나 역시 최근 trasformer 구조에 기반한 multi modal generative model인 ESM3를 이용해서 active site의 서열과 구조만을 고정하고 de novo로 단백질의 서열을 생성하는 작업들을 해보고 있는데, 생성 과정의 sharpness를 조절하는 temperature에 많은 조작을 가해도 생성되는 서열들의 reference 서열에 대한 유사도가 40~60% 정도로 유지되어서 어느 정도 generability 상의 한계점이 있는 것 같다는 생각을 해보았었다. 최근 활발하게 연구되는 AI-based drug discovery에서는 처리하고자 하는 물질에 맞는 target structure를 만들고, 그로부터 서열을 생성하게 될텐데, 만약 target structure가 모델이 학습하지 않은 novel한 구조일 경우 그로부터 잘 작동하는 서열을 만드는 데에 지금 논의하고 있는 문제도 중요한 요소가 될 것이라는 생각도 든다. 결과적으로 저자들은 small novel protein folds를 designing하는 어려움을 분석하고, protein backbone으로부터 3D structural pattern을 학습하는 새로운 접근법인 backbone designibility를 제안하였다. 전체적인 구조는 다음과 같다. 1) 먼저 protein fold의 representation을 string format으로 준비하고, 이를 sketch (3D low-resolution representation of the fold where SSEs are placed onto layers; SSE (secondary structural elements))라는 형태로 3D space로 projection 한다. 2) 이때 sketch의 designability를 증가시키기 위해서 Genesis (a convolutional variational autoencoder; convolutional VAE)를 거쳐서 sketch의 distance와 orientation을 샘플링이 가능한 compact latent representation으로 encoding하고, 이후 native-like distance & orientation probabilities로 decoding한다. 3) Refined distance & orientation probabilities를 target template로 사용해서 trRosetta가 새로운 backbone과 sequence들을 template restraints에 맞추어 생성하도록 유도한다. 저자들은 위와 같은 pipeline을 이용해서 5 native folds & 3 darkfolds (with different secondary structure and loop lengths)로부터 서열을 생성하고, protease resistance로부터 550 designs의 folding을 평가하였다. Results and Discussion A computational pipeline for enhanced backbone designability Variational Autoencoder (VAE): Variational autoencoder는 기본적으로 input x를 받아 x를 condition으로 이용하는 conditional distribution으로 정의되는 encoder $q(z\mid x)$ 로부터 latent variable z를 샘플링하여 얻고, 다시 z를 condition으로 이용해서 원래의 x를 복원하는 decoder $p(x\mid z)$ 를 구성하여 최종적으로 x’ 를 얻어 input을 복원할 수 있도록 학습하는 architecture이다. 이들이 제안한 de novo design workflow의 핵심이 되는 deep learning module은 Genesis라는 module로, 앞서 언급했듯 convolutional VAE에 기반하고 있고, low-resolution sketches에 native-like structural feature를 부여하여 sharp feature를 만들어주는 역할이다. 내가 이해한 바로는, pre-training 과정에서 native fold의 feature를 복원하도록 encoder/decoder를 학습하고, 이후 다량의 sketches & native fold pair를 이용해서 fine tuning하여 sketches를 input으로 주면 그의 native-like structural feature를 출력하도록 한 것이다. 그리고 결국 Genesis의 output은 trRosetta 같은 모듈이 사용 가능한 backbone을 제공하는 것이기 때문에, 실제 학습 시에 fold에서 loop 부분은 corruption을 시켜 학습할 것으로 보인다. 실제 추론 과정에서 Genesis에 들어가는 input은 이동이나 회전에 invariant하도록 atomic coordinate가 아닌, pairwise distance & orientation을 이용한다. 즉, 과정을 정리하면 1) sketch에서 실수 값의 pairwise distance & orientation map (Blurry features)을 얻고 2) map을 condition으로 이용해서 latent를 얻은 후 3) 그로부터 native-like conformation map (Sharp features)을 얻어 4) trRosetta를 이용해 guided sequence search를 진행 참고로, 인공지능 논문에도 매번 등장하는 ablation study를 randomly selected 273 folds에 대해 수행했을 때, Genesis, trRosetta, both에서 나온 결과를 원래의 구조와 aligning 해보는 self-consistency TM score를 보면 Genesis-trRosetta를 사용하는 protocol이 전반적인 성능이 가장 좋다는 것을 확인할 수 있다. 추가로 아래 figure 1.E-F를 살펴보면, 이 framework가 traning set에 포함되지 않은 SCOPe (Structural Classification of Proteins-extented) family에 대해서도 일반화된 좋은 예측을 보여주고 있음을 확인 가능하다. 다만, 이러한 방법론에서도 $\beta$-helix folds, $\beta$-Prisms와 같이 같은 수의 $\beta$ sheet를 가지는 것처럼 비슷한 형태인 경우, sketch가 잘 구별되지 않아서 결과적으로 TM score가 낮게 나오는 경우가 많다는 것을 언급하고 있는데, 만약 내가 나중에 비슷한 형태의 경량화된 모델이나 architecture를 설계할 때 고려해야 할 breakthrough가 필요한 부분으로써 함께 정리해보았다. Large-scale de novo design of native topologies 본격적으로 Genesis-trRosetta de novo design framework의 성능을 보기 위해서, 저자들은 5개의 다른 topologies를 design하는 것으로 시작하였다 (ubiquitin-like, Rossmann fold, immunoglobulin-like, jellyroll fold, and Top7 fold). 이들 중 Top 7의 경우 de novo로 합성된 구조이지만, 어느정도 natural repertoire를 띄고 있다. 그리고 fold designability를 표시하기 위해 relative contact order라는 개념을 사용하였다. 아래의 개념을 참고해서, lg-like와 jellyroll folds의 경우 contact order가 ~0.20 & 0.26 정도로 나머지 folds에 비해 높아서 structural contacts의 non-locality가 높고, 그만큼 design이 어렵다는 것을 알 수 있다. Contact order: 단백질의 folded structure 상에서 접하는 residue들 간의 sequence 상의 평균 거리. Contact order가 클수록 local한 contact을 통해 접히지 않고 folding에 시간이 소요되므로, design의 난이도도 높아짐. design 방식 (exploration-exploitation)은 다음과 같다. 1) Prior knowledge가 없기 때문에, 20-30개의 secondary structure + loop length combinations을 제작 (candidate search)하고 TM score와 wasserstein distance를 이용해서 filtering 2) 앞선 단계에서 생성된 20,000개 정도의 서열들과 3차 구조 모델을 AlphaFold의 pLDDT score와 TM score (between Genesis & AlphaFold)를 이용하여 filtering (production stage; figure 2-A) 3) 각 fold에서 50개의 design set을 선정하여, antibody를 통해 protease (trypsin, chymotrypsin)를 내는 yeast에 protein을 붙히고, digestion에 대한 저항성을 확인 결과적으로 5 종류의 fold에 대해서 10% 정도는 highly stable한 design들이 나왔고, 그 비율이 일반적으로 어렵다고 알려진 jellyroll, ig-like fold에서도 유지되는 것을 보아, 저자들은 framework이 잘 작동한다는 것을 보였다. 연속적으로 저자들은 앞선 design들 중에서 medium or highly digestion-resistant designs를 뽑아서 biochemically characterize를 실시했다. 논문에서는 몇 개의 design을 선택하고, 각각에 대한 분석결과를 포함하고 있지만, 나는 figure 3에 대해서 어떤 분석법을 적용한 것이며, 왜 했는지에 대해 정리해보았다. 아래의 figure 3에서 3-B는 SEC-MALS (Size-Exclusion Chromatography - Multi-Angle Light Scattering)의 결과로 peak의 수와 분자량 등을 확인하기 위해 확인하는 것이다. 5 종류의 fold의 대표 design들에서 모두 peak의 분포가 하나인 것을 확인할 수 있다 (monodisperse). 다만, ub_1의 경우 이론적인 질량 (~7.5kDa)과 측정한 질량이 비슷하지만, igl_1의 경우 2배 이상 차이 나는 것을 보아 oligomer 형태로 존재하는 것을 예상할 수 있다. Figure 3-C는 circular dichroism spectroscopy의 결과로 secondary structure에 민감하게 작동하는 분광현미경의 결과인데, 각 온도 변화에 대해 점진적이고 비슷한 패턴을 보이는 것을 통해 solution 상에서 folding을 잘 이루고 있다는 것을 확인할 수 있다. 마지막 3-D는 동일한 spectroscopy로 melting temperature를 확인하는 것이다. 최종적으로 product stage를 거쳐 20,000개 정도의 후보 서열들로부터 protease resistance를 보이고, purified and biochemically characterized된 protein들은 10개 정도 된다는 것에서 결국 validation이 정말 중요하다는 것을 다시 한 번 확인할 수 있었다. Exploration of “dark-matter” folds de novo protein design의 궁극적인 목표 중 하나는 new functionalities에 적용이 가능하도록 natural repetoire를 넘어서서 존재하는 protein fold에 대해 design을 하는 것이다. 즉, framework trained on native protein’s structural data is capable of generalizing outside the distribution of natural folds? 라는 질문에 대한 답을 찾는 것이다. 저자들은 이에 대해 답하기 위해서 training set에 존재하지 않으며, natural repetoire에도 존재하지 않는 folds를 최대한 샘플링 하였다. 그 방식은 기본적으로 Talyor와 collegues에 의한 선행 연구를 활용하는 것이다. Three-layer mixed-$\alpha/\beta$ fold space 중에서 탐색되지 않은 부분을 사용하되 C$\alpha$-trace를 이용해서 SSE의 handedness나 loop connectivity 같은 최소한의 natural한 protein structure를 따르고, 추가로 그들 중 동일 layer 상에 secondary structure type이 섞였거나, SSE가 제 기능을 하지 않거나, loosely packing, and crossing loop의 경우를 제거하여 줄인 후 3가지의 distinct folds를 선택하였다. 만약 내가 dark fold space에 대한 generalizability의 문제를 다루게 된다면, 이후 dark fold를 생성한 방법에 대해서는 구체적으로 더 공부해야 할 것 같다. 아무튼 natural folds와 동일한 과정의 분석 결과를 살펴보면, candidate progress에서 얻은 novel folds에 대한 대부분의 design들이 median TM score가 0.5를 넘었고, median RMSD with AF prediction이 3.7$\,\text{\AA}$ 정도로, AF의 예측과 꽤 잘 맞아들어가는 것을 확인할 수 있었다. 최종적으로 74개의 candidate에 대해서 protease digestion assay를 진행하였고, 아래의 Figure 5에서는, best designs에 대한 purification과 biochemical characterization의 결과를 보여준다. 논문의 supplementary에는 좀 더 많은 design들에 대한 결과를 포함하고 있는데, 꽤 많은 design에서 설계한 sketch에 맞는 CD spectrometry 결과를 보이면서, 높은 thermostability를 가지고 있는 것을 확인할 수 있었다. 즉, 이 결과들로부터 Genesis-trRosetta framework가 학습에서 포함되지 않은 novel folds에 대해 일반화되며, nature에서 발견되지 않은 folds에 대해서도 backbone generation과 sequence search가 가능하도록 구조적인 패턴을 학습했다는 것을 제시하고 있다. Mapping successful designs onto the current protein sequence and fold space CATH database: 단백질 구조의 domains를 3 classes로 구분 (all-$\alpha$, all-$\beta$, mixed-$\alpha/\beta$). 이 classes들은 SSEs의 배열에 따라 40개의 unique architecture로 구분, architecture들은 SSE connectivity에 따라 1291개의 folds로 구분. Designed protein sequences들이 알려진 protein domain에 대해 얼마나 구조적으로 유사한지를 확인하기 위해서, 본 연구에서 얻은 native & darkfold 각각의 representative model이 모든 CATH domain representative와 TM-align algorithm을 통해 aligned 되었다. 그 결과로 나온 TM score similarity matrix가 classical multidimensional scaling에 의해 2D plot으로 mapping된 결과가 아래의 Figure 6-A이다. 그림을 살펴보면, nature folds와 달리 dark folds의 경우 CATH domain에 속하지 않고 분리되어 있는 것을 확인할 수 있다. Sequence novelty의 측면에서, protein 서열의 유사도를 비교할 수 있는 BLASTp를 이용해서 non-redundant database (NR)에 대해 비교했을 때 유의하게 비슷하면 0.001 이하의 값을 보여야 하는 E-value가 전부 0.001 이상으로 나왔다. 즉, naturally occuring sequence들과는 차이가 존재한다는 것을 알 수 있다. 또 structure novelty의 측면에서, fast FoldSeek algorithm을 이용해서 PDB의 structural hit를 살펴봤을 때, 3 종류의 darkfolds에서 모두 TM score가 0.5를 넘는 경우가 거의 없었다. 이후 저자들은 각 darkfold에 대해 PDB, CATH, AF DB에서 가장 맞는 matching을 찾고, 그로부터 novel fold의 기원이나 특징 등에 대한 생각들도 서술하고 있다. 재밌는 점은 이들의 backbone을 tertiary motif로 분해해서 분석하기 위해 TERMs analysis method를 적용했다. TERMs analysis는 protein backbone을 tertiary motif로 쪼개어, NR (non-redundant) database에서 얼마나 자주 등장하는 지를 통해서 protein backbone의 designability score를 계산할 수 있다. 이 방식을 통해 drk1~drk3의 folds를 분석해보면, 각각 motifs의 abundance가 다를 뿐 아니라 dark matter protein 마다 C-terminus, N-terminus 같이 natrual folds에서 잘 등장하지 않는 특이한 구조를 가진 위치도 다 다르다는 점을 확인할 수 있었다. 즉, darkfolds 자체는 nature에서 novel하지만, 그들의 structural fragments는 자연에서 이미 많이 사용되고 있고, 그 조합이나 정도의 특이성이 존재한다는 것이다. Comment 개인적으로 protein sequence & fold space라는 것에 대해 개인적으로 관심이 있었고, 인공지능이 가지고 있는 학습 데이터 너머의 일반화 가능성에 대해서도 궁금한 점이 있었어서 나름 재밌게 논문을 읽었던 것 같다. 이런 방법들이 사용될 수 있는 곳을 생각해봤을 때, 예를 들어 신약 개발을 위해 특정한 구조의 항체를 만들고 싶다면, Genesis-trRosetta의 arichitecture를 활용해서 자연에 존재하지 않는 조합의 folds에 대해서도 적절한 서열을 많이 생성하고, 좋은 design들을 얻어낼 수 있을 거라는 기대가 된다. 다음 번에는, 좀 더 sequence & fold space의 근간이 되는 논문을 읽어볼까 하는데, 그로부터도 많은 것들을 배울 수 있을 것 같다.

Paper Review · 2025-12-28

Amino Acid Substitution Matrix: BLOSUM62

Introduction 두 개 혹은 그 이상의 amino acid sequence의 유사도를 비교할 때, 우리는 sequence alignment를 한다. Aligned sequences의 유사도를 numerical하게 표현하는 가장 쉬운 방법은 residue가 동일하면 1, 아니면 0으로 두고 그 합이나 평균을 구하는 방법이다. 하지만, 현재 대부분의 sequence alignment program은 BLOSUM62 라는 score matrix를 이용한다. 따라서 BLOSUM62 substitution matrix가 어떤 방법으로 도출된 것이고, 언제 사용하면 좋을 지에 대해서 정리하고자 한다. Reference From main texts and figures in S. Henikoff, & J.G. Henikoff, Amino acid substitution matrices from protein blocks., Proc. Natl. Acad. Sci. U.S.A. 89 (22) 10915-10919, https://doi.org/10.1073/pnas.89.22.10915 (1992). Eddy, S. Where did the BLOSUM62 alignment score matrix come from?. Nat Biotechnol 22, 1035–1036 (2004). https://doi.org/10.1038/nbt0804-1035 Meaning of Alignment Scores (log-odds scores) Alignment를 통해서 우리가 알고 싶은 것은 sequence들이 homologous (evolutionary related) 인지 아닌지를 확인하는 것이다. 즉, 단순히 matching +1, mismatch -1 과 같은 식의 score 보다는 진화적 관계를 반영할 수 있는 score가 더 좋다. Homologous or not 이라는 두 가지 가설을 비교할 때, 하나의 좋은 score는 log-odds score이다. likelihood: $P(x\mid\theta)$, 특정한 확률 분포의 매개변수가 주어졌을 때, 그 매개변수로 부터 관측값인 x들이 나올 확률을 의미한다. 예를 들어 $\mu=0, \sigma=1$이라는 정규분포의 평균과 표준편차가 주어졌다고 하면, x=0일 확률은 $Normal(x=0\mid\mu = 0, \sigma = 1)$이 된다. odds-ratio: $\frac{P(\theta)}{P(\theta^C)}$로 가설이 참일 확률과 아닐 확률의 비율로 나타나며, 데이터를 관측한 후의 odds ratio인 posterior odds는 bayes theorem에 의해서 prior odds와 likelihood의 곱으로 나타낼 수 있다. 즉, $\frac{P(\theta\mid x)}{P(\theta^C\mid x)} = \frac{P(\theta)}{P(\theta^C)} \frac{P(x\mid\theta)}{P(x\mid\theta^C)}$이다. 참고로 alignment score에서 고려하고 있는 odds ratio는 prior odds가 1인 경우로, 어느 가설이 참인지에 대한 선험적인 지식이 없는 경우이다. 위의 통계적 배경지식을 참고하여, 결국 log-odds score는 the logarithm of the ratio of the likelihoods of two hypothesis가 된다. 만약 우리가 각각의 aligned residue pair가 다른 residue들에 대해 statistically independent 하다고 가정하면, 전체 alignment score는 각 aligned pair의 log-odds score의 합으로 생각할 수 있다. 각 residue에 올 수 있는 amino acid의 종류는 20가지이므로, pair의 조합을 통해서 20 x 20 score matrix를 형성할 수 있다. 이때 구체적으로 align하는 residue a와 residue b의 score는 아래의 식과 같이 계산한다. \[s(a,b) = \frac{1}{\lambda} \log \frac{p_{ab}}{f_a f_b}\] $p_{ab}$: likelihood of the hypothesis we want to test (two residues are correlated because they are homologous). 즉, target frequency로 homologous sequence alignment를 했을 때 residue a와 b가 aligned 된 것을 관측할 것이라고 우리가 기대하는 확률 $f_a f_b$: likelihood of a null hypothesis (two residues are uncorrelated and occuring independently). 즉, background frequency로 어떤 protein sequence 내에서든 평균적으로 amino acids a와 b를 관측할 것이라고 기대하는 확률 $\lambda$: scaling factor; term들이 너무 가깝거나 멀 때 우리가 구별하기 좋은 정수 값으로 반올림 해주기 위한 hyperparamter. 만약 homologous sequence 내에서 a와 b가 aligned 된 것을 발견하는 일이 우연 (by chance)에 의한 것보다 더 자주 일어난다고 기대한다면, odds ratio는 1보다 크기 때문에 score가 양수가 된다. 즉, positive score는 conservative substitutions을 의미하고, negative score는 nonconservative substitution을 의미한다. 하지만 하나의 중요한 포인트는 다음과 같다. “This definition of ‘conservative substitution’ in a score matrix is purely statistical. It has nothing to do with amino acid structure or biochemistry.” Details in BLOSUM62 Substitution Matrix \[s(a,b) = \frac{1}{\lambda} \log \frac{p_{ab}}{f_a f_b}\] 여기서는 위의 score function을 통해 BLOSUM62에서 계산된 결과들의 예시와 비직관적인 부분들에 대한 detail을 정리할 것이다. 1) tryptophan (W/W) pairs score = +11, leucine (L/L) pairs score = +4. - 왜 모든 동일 residue pairs가 같은 score를 가지지 않을까? - 더 희귀한 amino acid 일수록, 우연에 의해 aligned 되는 것이 더 놀랄만하기 때문에! - 실제로 BLOSUM62를 학습시킨 homologous alignment data에는 $p_{LL} = 0.0371, p_{WW} = 0.0065$로 L/L pair의 비율이 더 높지만, tryptophan 자체가 더 희귀한 amino acid이기 때문에 $(f_L = 0.099, f_W = 0.013)$ BLOSUM 62의 기본 $\lambda = 0.347$로 계산하고 이를 반올림 하면 각각 +11과 +4의 score를 얻을 수 있다. 2) apparently nonconservative alignment of a positively charged glutamic acid = +1, but more innocuous alignment of alanine to leucine get penalized = -1. - A/L pair의 비율이 K/E pair에 비해 homologous alignments에서 더 흔하지만 $(p_{AL} = 0.0044, p_{KE} = 0.0041)$, A와 L이 더 흔한 amino acid이기 때문에 $(p_A = 0.074, p_L = 0.099, p_K = 0.058, p_E = 0.054)$ 결과적으로 -1과 +1의 score로 계산된다. Where did target frequencies come from? Target frequency ($p_{ab}$)를 계산하는 방식에 따라 우리가 얻게 되는 substitution matrix의 종류가 달라진다. 그 이유를 한 번 살펴보겠다. 앞서 정리했듯 target frequency는 homologous alignment에서 a, b가 aligned 된 것을 볼 것이라고 우리가 기대하는 확률이다. 즉, 우리가 alignment를 통해서 보고자 하는 상황과 비슷한, 많은 알려진 pairwise alignments들의 데이터를 이용하여 그로부터 각각의 residue pair가 발생하는 비율을 계산하는 것이 가장 기본적인 아이디어가 된다. BLOSUM62는 general purpose matrix이지만, 실제로 sequence or species specific source of information을 사용하기 어려운 방법이다. 우리가 aligning하는 두 sequence에 대해 많은 정보를 가지고 있다면, 우리는 target frequency를 좀 더 잘 추정할 수 있다 (e.g. two integral membrane proteins, them biased toward hydrophobicity). 즉, sequence alignment database를 나누고, 특정한 organism이나 특정한 종류의 sequence에 특화된 new score matrix를 추정하는 방법은 무궁무진하다. 하나의 중요한 정보는 evolutionary distance인데, target frequency가 두 서열 간의 진화적 거리에 매우 의존적이기 때문이다. 만약 최근에 분화된 서열들이라면 target frequency는 W/W 같이 동일한 residue에서 peak를 보이고, 더 divergent한 관계일수록 flat한 분포를 가져야 할 것이다. 정리하면, 현대의 모든 amino acid score matrix들은 신뢰도가 높은 alignment data로부터 관측된 frequency를 사용하지만, 특정한 divergence의 정도에 따라 적절한 절차를 거쳐 만들어 진다는 것이다. 만약 특정한 두 서열의 alignment score를 보고 싶다면, 그들의 evolutionary distance가 얼마나 되는 지를 생각한 후에 아래의 amino acid substitution matrix 중 적절한 하나를 적용해볼 수 있을 것이다. BLOSUM62 matrix: from big database of trusted alignments, only counted pairwise sequence alignments related 62% identity or less than threshold. BLOSUM80 matrix: gave more highly conserved target frequencies BLOSUM45 matrix: gave more divergent matrix These BLOSUM matrices are empirically performed very good, and de facto standard… 아래는 BLOSUM62 matrix와 PAM160 이라는 matrix의 차이를 보여준다.

Extend Backgrounds · 2025-11-08

[Cell Previews] Simplifying protein engineering with deep learning

Paper Review · 2025-09-15

자기소개

김송원 (Songwon Kim) 안녕하세요! 저는 고려대학교에서 생명과학부와 데이터과학과를 이중전공하고 있는 학부생 김송원이라고 합니다 (2022~). 2025년 8월 현재는 고려대학교 생명공학부 최인걸 교수님의 계산및합성생물학연구실(CSBL)에서 연구인턴을 하고 있고, 2026년 2월 졸업과 함께 석박사 통합과정생으로 대학원에 진학할 예정입니다! 경북 경산시에서 태어나 그저 언젠가 ‘세상의 비밀을 한 가지만 풀어볼 수 있다면’ 하고 꿈꾸었던 저는, 학부 2학년 때 구조생물학 강의를 들으며 단백질에 큰 관심을 가졌습니다. 우여곡절 끝에 계산적인 방법과 AI 등을 이용해 현대 생물학의 다양한 문제를 풀어내는 계산생물학 분야로 한 걸음 나아가기로 결정했습니다. 학부 과정의 마무리와, 대학원생으로 보내는 동안 겪을 많은 이야기들과 배움의 과정을 여기에 한 번 담아볼까 합니다. 기록을 시작하며, 현재까지 저의 인생에서 크고 작은 영향과 조언을 건네준 많은 분들에게 감사하다는 말을 전하고 싶습니다. 저의 이야기에 관심을 가져 찾아주신 누구든, 여기서 좋은 시간을 보내시면 좋겠습니다! 끝으로 계산생물학 분야로 진학을 결심하게 해준 김성호 교수님의 전기를 읽던 중 발견한 러시아 태생의 화가 바실리 칸딘스키의 말을 남겨 봅니다. “사람들은 표면에 머무르기를 좋아한다. 왜냐하면 표면에 머무르는 것은 좀 더 적은 노력을 요구하기 때문이다.”

About Me · 2025-08-23

Songwon Kim

Contact

All Posts

[Cell Systems] Exploring dark-matter protein folds using deep learning

Amino Acid Substitution Matrix: BLOSUM62

[Cell Previews] Simplifying protein engineering with deep learning

자기소개