Songwon Kim
About Me
My Story
Extend Backgrounds
Bioinformatics
Data Structure
Paper Review
Weekly Study
Protein Engineering
Projects & Publications
Projects
Publications
Home
Contact
Copyright © 2024 |
Yankos
Home
>
Paper Review
> Weekly Study
Now Loading ...
Weekly Study
[Cell Systems] Exploring dark-matter protein folds using deep learning
Why This Paper? Weekly Study에서 두 번째로 다루어 볼 논문은 Exploring “dark-matter” protein folds using deep learning이다. 이 논문은 연구실 인턴을 하면서 듣게 된 protein fold space라는 개념에 대한 궁금증을 풀고, deep learning을 이용해서 어떤 방식으로 무엇을 연구하고 있는지 알기 위해서 선정했다. About Paper Exploring “dark-matter” protein folds using deep learning이라는 논문은 Cell Systems에 게재된 논문이다. 교신저자인 Bruno E. Correia 교수님은 스위스 로잔 연방 공과대학 소속으로 immunoprotein에 중점을 두어 protein design, drug discovery, bioengineering 분야의 연구를 계속 하고 계신다. 주요 저자들인 Zonder Harteveld와 Alexandra Van Hall-Beauvais도 역시 동일한 대학과 Swiss Institute of Bioinformatics (SIB)라는 곳에 소속되어 있고, AI-based protein engineering 분야의 논문을 계속 내고 있어서 이 분야에 대해 알아보는 데 좋은 논문으로 생각된다. Main Points 1) De novo protein design은 진화에 의해 생성되지 않은 새로운 protein을 만들기 위해서 아직 기록되고 구별되지 않은 sequence & structure space를 탐색하는 것이다. 2) 주요한 문제는 target structure에 맞는 서열을 찾기 위해서 guide가 될 수 있는 “designable” structural template이 필요하다는 것인데, 저자들은 convolutional VAE (named Genesis)로 단백질 구조의 패턴을 학습하고, trRosetta와 함께 여러 fold에 대한 sequence를 design하였다. 3) Genesis는 native folds는 물론, “dark-matter” folds에 관해서도 일반화되게 distance and angle distribution을 잘 구성하였다 (proteases resistance를 이용해 안정성 검증). 4) Small neural network가 protein structural pattern을 효과적으로 학습하고, backbone design problem을 해결할 수 있음을 보였다. Main Texts Introduction 직관적으로 protein sequence space라는 것을 생각해보면, 만약 서열의 길이가 3일 경우 3차원 좌표계를 상상하고, 각 축에서 20가지의 amino acids 중 하나를 선택하여 찍게 되는 하나의 점이 바로 서열 3개의 protein sequence space 내의 하나의 protein sequence로 표현될 것이다. 실제로 기능하는 단백질들은 수 백에서 수 만의 amino acids를 이용해서 구성된다. 자연에서 일어나고 있는 evolution은 이러한 possible protein sequence space의 일부분을 조금씩 탐색하는 과정으로 생각할 수 있다. 그리고 대부분의 서열들은 유한한 개수의 protein folds 집합으로 분류될 수 있는 3차원 구조로 접히게 되는데, 이러한 folds의 집합을 protein fold space라고 볼 수 있다. de novo protein design은 알려진 native fold space의 내부 혹은 그 밖에 정의된 3D conformation으로 잘 접힐 수 있는 novel sequences를 찾아가는 과정이다. 이러한 연구는 machine learning technique을 적극적으로 활용하고 있고, 많은 경우 two-step process로 진행된다. 1) protein fold is outlined and corresponding backbones are generated (backbone은 각 아미노산에서 $\alpha$-carbon으로 구성된 뼈대를 의미한다). 2) amino acid (aa) sequences are searched to fit the generated backbones. 물론 두 과정 각각에 대한 어려운 점들이 존재하고 있다. 먼저 backbone generation의 경우, 물리적으로 비현실적인 경우 실험에서 접힘이 불가능하다. 그래서 궁극적으로 20개의 natural a.a.를 가지고 효과적으로 3차 형태로 packing 될 수 있는 최적의 secondary structure configuration (구성)을 찾게 되는데, 이를 designable backbones이라 한다. Backbone의 designability가 높을수록 그 backbone에 맞는 더 다양하고 많은 energetically favorable sequence를 찾을 수 있지만, 이를 정량적으로 표시하고 평가하는 것이 매우 어렵다. 그리고 amino acid sequence generation의 측면에서는 최근 많은 발전이 이루어지고 있다. AlphaFold, RoseTTAfold 등의 서열로부터 구조를 매우 정확하게 예측하는 모델들은 deep neural networks (DNNs)의 발달과 함께 large-scale protein sequence & structural dataset이 이용 가능해졌기 때문에 가능했다. 실제로 transform-restrained Rosetta (trRosetta)나 AlphaFold (AF)의 신경망에서 target structure to sequence로 gradient backpropagation을 통한 학습을 진행하면, 우리는 structure prediction methods를 역으로 활용하여 fixed backbone으로부터 서열을 생성하는 protein design task를 풀 수 있게 된다. 특히 network를 거치면서 나오는 서열들은 전체적인 학습 데이터 상의 서열과 구조 관계 속에서 최적화를 거치게 되고, 의미상으로는 lowest energy를 가지면서도 다른 구조들과 비교해서 특정한 하나의 target structure로 잘 접힐 수 있는 sequence가 된다. 혹은 protein backbone을 structure-based context로 활용해서 서열을 생성하는 방법도 많이 이용되고 있다. ProteinMPNN에서 MPNN에 해당하는 message-passing이나 3D convolutional neural network 등을 이용해 protein backbone을 입력으로 받아 structural feature를 생성하고, 그로부터 최적의 a.a. sequence들을 decoding 해주는 encoder-decoder 구조를 사용한다. 또한 Chorma나 RFdiffusion 같은 denoising diffusion probabilistic models에 기반한 모델들은 gaussian noise로부터 새로운 단백질 서열을 생성하거나, 특정한 구조에 제약을 둔 형태의 서열들을 생성할 수 있다. 위와 같이 DNNs, GNNs (Graph neural networks; e.g. message-passing)과 풍부한 데이터로 인해 de novo protein design의 진보가 일어나고 있는 상황에서, 본 논문은 아래와 같은 어려움을 제시한다. While powerful in generating medium to large novel protein folds, many DNNs encouter challenges in generating small new protein domains not observed in nature, i.e., domains with novel configurations or wiring of the SSEs. 즉, 자연에 존재하지 않는 작은 단백질의 domain을 생성할 때, model이 생성하는 backbone들이 결과적으로 novel하기 보다는 PDB에 존재하는 단백질들의 일정 부분 이상 모방이 되는 경우가 많다는 것이다 (물론 medium, large protein에 대한 generability에 관련된 참고문헌이 제시되어 있지만, 아직 확인해보지는 않았다). 실제로 나 역시 최근 trasformer 구조에 기반한 multi modal generative model인 ESM3를 이용해서 active site의 서열과 구조만을 고정하고 de novo로 단백질의 서열을 생성하는 작업들을 해보고 있는데, 생성 과정의 sharpness를 조절하는 temperature에 많은 조작을 가해도 생성되는 서열들의 reference 서열에 대한 유사도가 40~60% 정도로 유지되어서 어느 정도 generability 상의 한계점이 있는 것 같다는 생각을 해보았었다. 최근 활발하게 연구되는 AI-based drug discovery에서는 처리하고자 하는 물질에 맞는 target structure를 만들고, 그로부터 서열을 생성하게 될텐데, 만약 target structure가 모델이 학습하지 않은 novel한 구조일 경우 그로부터 잘 작동하는 서열을 만드는 데에 지금 논의하고 있는 문제도 중요한 요소가 될 것이라는 생각도 든다. 결과적으로 저자들은 small novel protein folds를 designing하는 어려움을 분석하고, protein backbone으로부터 3D structural pattern을 학습하는 새로운 접근법인 backbone designibility를 제안하였다. 전체적인 구조는 다음과 같다. 1) 먼저 protein fold의 representation을 string format으로 준비하고, 이를 sketch (3D low-resolution representation of the fold where SSEs are placed onto layers; SSE (secondary structural elements))라는 형태로 3D space로 projection 한다. 2) 이때 sketch의 designability를 증가시키기 위해서 Genesis (a convolutional variational autoencoder; convolutional VAE)를 거쳐서 sketch의 distance와 orientation을 샘플링이 가능한 compact latent representation으로 encoding하고, 이후 native-like distance & orientation probabilities로 decoding한다. 3) Refined distance & orientation probabilities를 target template로 사용해서 trRosetta가 새로운 backbone과 sequence들을 template restraints에 맞추어 생성하도록 유도한다. 저자들은 위와 같은 pipeline을 이용해서 5 native folds & 3 darkfolds (with different secondary structure and loop lengths)로부터 서열을 생성하고, protease resistance로부터 550 designs의 folding을 평가하였다. Results and Discussion A computational pipeline for enhanced backbone designability Variational Autoencoder (VAE): Variational autoencoder는 기본적으로 input x를 받아 x를 condition으로 이용하는 conditional distribution으로 정의되는 encoder $q(z\mid x)$ 로부터 latent variable z를 샘플링하여 얻고, 다시 z를 condition으로 이용해서 원래의 x를 복원하는 decoder $p(x\mid z)$ 를 구성하여 최종적으로 x’ 를 얻어 input을 복원할 수 있도록 학습하는 architecture이다. 이들이 제안한 de novo design workflow의 핵심이 되는 deep learning module은 Genesis라는 module로, 앞서 언급했듯 convolutional VAE에 기반하고 있고, low-resolution sketches에 native-like structural feature를 부여하여 sharp feature를 만들어주는 역할이다. 내가 이해한 바로는, pre-training 과정에서 native fold의 feature를 복원하도록 encoder/decoder를 학습하고, 이후 다량의 sketches & native fold pair를 이용해서 fine tuning하여 sketches를 input으로 주면 그의 native-like structural feature를 출력하도록 한 것이다. 그리고 결국 Genesis의 output은 trRosetta 같은 모듈이 사용 가능한 backbone을 제공하는 것이기 때문에, 실제 학습 시에 fold에서 loop 부분은 corruption을 시켜 학습할 것으로 보인다. 실제 추론 과정에서 Genesis에 들어가는 input은 이동이나 회전에 invariant하도록 atomic coordinate가 아닌, pairwise distance & orientation을 이용한다. 즉, 과정을 정리하면 1) sketch에서 실수 값의 pairwise distance & orientation map (Blurry features)을 얻고 2) map을 condition으로 이용해서 latent를 얻은 후 3) 그로부터 native-like conformation map (Sharp features)을 얻어 4) trRosetta를 이용해 guided sequence search를 진행 참고로, 인공지능 논문에도 매번 등장하는 ablation study를 randomly selected 273 folds에 대해 수행했을 때, Genesis, trRosetta, both에서 나온 결과를 원래의 구조와 aligning 해보는 self-consistency TM score를 보면 Genesis-trRosetta를 사용하는 protocol이 전반적인 성능이 가장 좋다는 것을 확인할 수 있다. 추가로 아래 figure 1.E-F를 살펴보면, 이 framework가 traning set에 포함되지 않은 SCOPe (Structural Classification of Proteins-extented) family에 대해서도 일반화된 좋은 예측을 보여주고 있음을 확인 가능하다. 다만, 이러한 방법론에서도 $\beta$-helix folds, $\beta$-Prisms와 같이 같은 수의 $\beta$ sheet를 가지는 것처럼 비슷한 형태인 경우, sketch가 잘 구별되지 않아서 결과적으로 TM score가 낮게 나오는 경우가 많다는 것을 언급하고 있는데, 만약 내가 나중에 비슷한 형태의 경량화된 모델이나 architecture를 설계할 때 고려해야 할 breakthrough가 필요한 부분으로써 함께 정리해보았다. Large-scale de novo design of native topologies 본격적으로 Genesis-trRosetta de novo design framework의 성능을 보기 위해서, 저자들은 5개의 다른 topologies를 design하는 것으로 시작하였다 (ubiquitin-like, Rossmann fold, immunoglobulin-like, jellyroll fold, and Top7 fold). 이들 중 Top 7의 경우 de novo로 합성된 구조이지만, 어느정도 natural repertoire를 띄고 있다. 그리고 fold designability를 표시하기 위해 relative contact order라는 개념을 사용하였다. 아래의 개념을 참고해서, lg-like와 jellyroll folds의 경우 contact order가 ~0.20 & 0.26 정도로 나머지 folds에 비해 높아서 structural contacts의 non-locality가 높고, 그만큼 design이 어렵다는 것을 알 수 있다. Contact order: 단백질의 folded structure 상에서 접하는 residue들 간의 sequence 상의 평균 거리. Contact order가 클수록 local한 contact을 통해 접히지 않고 folding에 시간이 소요되므로, design의 난이도도 높아짐. design 방식 (exploration-exploitation)은 다음과 같다. 1) Prior knowledge가 없기 때문에, 20-30개의 secondary structure + loop length combinations을 제작 (candidate search)하고 TM score와 wasserstein distance를 이용해서 filtering 2) 앞선 단계에서 생성된 20,000개 정도의 서열들과 3차 구조 모델을 AlphaFold의 pLDDT score와 TM score (between Genesis & AlphaFold)를 이용하여 filtering (production stage; figure 2-A) 3) 각 fold에서 50개의 design set을 선정하여, antibody를 통해 protease (trypsin, chymotrypsin)를 내는 yeast에 protein을 붙히고, digestion에 대한 저항성을 확인 결과적으로 5 종류의 fold에 대해서 10% 정도는 highly stable한 design들이 나왔고, 그 비율이 일반적으로 어렵다고 알려진 jellyroll, ig-like fold에서도 유지되는 것을 보아, 저자들은 framework이 잘 작동한다는 것을 보였다. 연속적으로 저자들은 앞선 design들 중에서 medium or highly digestion-resistant designs를 뽑아서 biochemically characterize를 실시했다. 논문에서는 몇 개의 design을 선택하고, 각각에 대한 분석결과를 포함하고 있지만, 나는 figure 3에 대해서 어떤 분석법을 적용한 것이며, 왜 했는지에 대해 정리해보았다. 아래의 figure 3에서 3-B는 SEC-MALS (Size-Exclusion Chromatography - Multi-Angle Light Scattering)의 결과로 peak의 수와 분자량 등을 확인하기 위해 확인하는 것이다. 5 종류의 fold의 대표 design들에서 모두 peak의 분포가 하나인 것을 확인할 수 있다 (monodisperse). 다만, ub_1의 경우 이론적인 질량 (~7.5kDa)과 측정한 질량이 비슷하지만, igl_1의 경우 2배 이상 차이 나는 것을 보아 oligomer 형태로 존재하는 것을 예상할 수 있다. Figure 3-C는 circular dichroism spectroscopy의 결과로 secondary structure에 민감하게 작동하는 분광현미경의 결과인데, 각 온도 변화에 대해 점진적이고 비슷한 패턴을 보이는 것을 통해 solution 상에서 folding을 잘 이루고 있다는 것을 확인할 수 있다. 마지막 3-D는 동일한 spectroscopy로 melting temperature를 확인하는 것이다. 최종적으로 product stage를 거쳐 20,000개 정도의 후보 서열들로부터 protease resistance를 보이고, purified and biochemically characterized된 protein들은 10개 정도 된다는 것에서 결국 validation이 정말 중요하다는 것을 다시 한 번 확인할 수 있었다. Exploration of “dark-matter” folds de novo protein design의 궁극적인 목표 중 하나는 new functionalities에 적용이 가능하도록 natural repetoire를 넘어서서 존재하는 protein fold에 대해 design을 하는 것이다. 즉, framework trained on native protein’s structural data is capable of generalizing outside the distribution of natural folds? 라는 질문에 대한 답을 찾는 것이다. 저자들은 이에 대해 답하기 위해서 training set에 존재하지 않으며, natural repetoire에도 존재하지 않는 folds를 최대한 샘플링 하였다. 그 방식은 기본적으로 Talyor와 collegues에 의한 선행 연구를 활용하는 것이다. Three-layer mixed-$\alpha/\beta$ fold space 중에서 탐색되지 않은 부분을 사용하되 C$\alpha$-trace를 이용해서 SSE의 handedness나 loop connectivity 같은 최소한의 natural한 protein structure를 따르고, 추가로 그들 중 동일 layer 상에 secondary structure type이 섞였거나, SSE가 제 기능을 하지 않거나, loosely packing, and crossing loop의 경우를 제거하여 줄인 후 3가지의 distinct folds를 선택하였다. 만약 내가 dark fold space에 대한 generalizability의 문제를 다루게 된다면, 이후 dark fold를 생성한 방법에 대해서는 구체적으로 더 공부해야 할 것 같다. 아무튼 natural folds와 동일한 과정의 분석 결과를 살펴보면, candidate progress에서 얻은 novel folds에 대한 대부분의 design들이 median TM score가 0.5를 넘었고, median RMSD with AF prediction이 3.7$\,\text{\AA}$ 정도로, AF의 예측과 꽤 잘 맞아들어가는 것을 확인할 수 있었다. 최종적으로 74개의 candidate에 대해서 protease digestion assay를 진행하였고, 아래의 Figure 5에서는, best designs에 대한 purification과 biochemical characterization의 결과를 보여준다. 논문의 supplementary에는 좀 더 많은 design들에 대한 결과를 포함하고 있는데, 꽤 많은 design에서 설계한 sketch에 맞는 CD spectrometry 결과를 보이면서, 높은 thermostability를 가지고 있는 것을 확인할 수 있었다. 즉, 이 결과들로부터 Genesis-trRosetta framework가 학습에서 포함되지 않은 novel folds에 대해 일반화되며, nature에서 발견되지 않은 folds에 대해서도 backbone generation과 sequence search가 가능하도록 구조적인 패턴을 학습했다는 것을 제시하고 있다. Mapping successful designs onto the current protein sequence and fold space CATH database: 단백질 구조의 domains를 3 classes로 구분 (all-$\alpha$, all-$\beta$, mixed-$\alpha/\beta$). 이 classes들은 SSEs의 배열에 따라 40개의 unique architecture로 구분, architecture들은 SSE connectivity에 따라 1291개의 folds로 구분. Designed protein sequences들이 알려진 protein domain에 대해 얼마나 구조적으로 유사한지를 확인하기 위해서, 본 연구에서 얻은 native & darkfold 각각의 representative model이 모든 CATH domain representative와 TM-align algorithm을 통해 aligned 되었다. 그 결과로 나온 TM score similarity matrix가 classical multidimensional scaling에 의해 2D plot으로 mapping된 결과가 아래의 Figure 6-A이다. 그림을 살펴보면, nature folds와 달리 dark folds의 경우 CATH domain에 속하지 않고 분리되어 있는 것을 확인할 수 있다. Sequence novelty의 측면에서, protein 서열의 유사도를 비교할 수 있는 BLASTp를 이용해서 non-redundant database (NR)에 대해 비교했을 때 유의하게 비슷하면 0.001 이하의 값을 보여야 하는 E-value가 전부 0.001 이상으로 나왔다. 즉, naturally occuring sequence들과는 차이가 존재한다는 것을 알 수 있다. 또 structure novelty의 측면에서, fast FoldSeek algorithm을 이용해서 PDB의 structural hit를 살펴봤을 때, 3 종류의 darkfolds에서 모두 TM score가 0.5를 넘는 경우가 거의 없었다. 이후 저자들은 각 darkfold에 대해 PDB, CATH, AF DB에서 가장 맞는 matching을 찾고, 그로부터 novel fold의 기원이나 특징 등에 대한 생각들도 서술하고 있다. 재밌는 점은 이들의 backbone을 tertiary motif로 분해해서 분석하기 위해 TERMs analysis method를 적용했다. TERMs analysis는 protein backbone을 tertiary motif로 쪼개어, NR (non-redundant) database에서 얼마나 자주 등장하는 지를 통해서 protein backbone의 designability score를 계산할 수 있다. 이 방식을 통해 drk1~drk3의 folds를 분석해보면, 각각 motifs의 abundance가 다를 뿐 아니라 dark matter protein 마다 C-terminus, N-terminus 같이 natrual folds에서 잘 등장하지 않는 특이한 구조를 가진 위치도 다 다르다는 점을 확인할 수 있었다. 즉, darkfolds 자체는 nature에서 novel하지만, 그들의 structural fragments는 자연에서 이미 많이 사용되고 있고, 그 조합이나 정도의 특이성이 존재한다는 것이다. Comment 개인적으로 protein sequence & fold space라는 것에 대해 개인적으로 관심이 있었고, 인공지능이 가지고 있는 학습 데이터 너머의 일반화 가능성에 대해서도 궁금한 점이 있었어서 나름 재밌게 논문을 읽었던 것 같다. 이런 방법들이 사용될 수 있는 곳을 생각해봤을 때, 예를 들어 신약 개발을 위해 특정한 구조의 항체를 만들고 싶다면, Genesis-trRosetta의 arichitecture를 활용해서 자연에 존재하지 않는 조합의 folds에 대해서도 적절한 서열을 많이 생성하고, 좋은 design들을 얻어낼 수 있을 거라는 기대가 된다. 다음 번에는, 좀 더 sequence & fold space의 근간이 되는 논문을 읽어볼까 하는데, 그로부터도 많은 것들을 배울 수 있을 것 같다.
Paper Review
· 2025-12-28
[Cell Previews] Simplifying protein engineering with deep learning
Why This Paper? Paper Review, 그 중에서도 Weekly Study의 목적은 대학원 생활 동안 주기적으로 내가 관심을 가지거나, 교수님의 추천을 받은 논문들을 읽으며 분야의 큰 흐름을 발견하고, 궁극적으로 나만의 research field를 구체화하는 기반을 마련하는 것이다. 처음으로 읽기로 한 논문은 Simplifying protein engineering with deep learning이다. 내가 현재 가장 관심 있어하는 AI 기반의 protein engineering 분야에 속하는 짧은 논문이고, 교수님이 보내주신 것이라 선택해보았다. About Paper Simplifying protein engineering with deep learning 이라는 이 논문은 Cell Preview에 게재된 짧은 논문으로, Cell 학술지에 게재된 학술 연구의 간략한 소개 형식이라고 볼 수 있다. 저자들인 Kevin K. Yang과 Ava P. Amini는 미국 Cambridge에 위치한 Microsoft Research의 연구자들로, google scholar 기록을 보니 Kevin이라는 연구자는 computation-based protein engineering 관련 연구를 아주 많이 하지는 않았지만, 꾸준히 해오고 있는 것으로 보인다. 소개하고 있는 두 논문은 다음과 같다. Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints - ScienceDirect Iterative recombinase technologies for efficient and precise genome engineering across kilobase to megabase scales - ScienceDirect Main Points 1) Deep learning을 활용한 protein engineering의 강점은 simplicity에 있다. 2) Cell issue에서, Caixia Gao와 collegues는 현재 존재하는 fixed-backbone sequence design model들을 잘 deployment (전개)하여 diverse genome editing system을 설계하였다. 특별히 이 system은 functionality를 향상시켰고, 소규모의 fine-grained부터 large-scale genome editing까지 강력한 capability를 가진다. 3) System은 strong experimental validation을 통해 demonstrated 되었다. (Cons in traditional protein engineering; directed evolution): “…However, experimental screens are time- and resource-intensive, and simple methods to maximize sequence diversity waste experimental effort on non-functional sequences…” 곧 Extend Backgrounds에서 자세히 다루어볼 예정이지만, directed evolution의 경우 결국 인공적으로 다양한 mutations을 많이 만들고, 그중 원하는 특성에 가까운 것을 골라내어 evolution을 모방하는 형태라서 위에서 말하는 것과 같이 non-functional sequences에 대한 screening에 많은 노력이 든다. AI-based protein engineering도 유사한 문제점을 가지게 된다. 결국 인위적으로 생성하거나 조작하기 때문에 screen이 아닌 validation이 필요하게 된다. 즉, 조금 더 복잡한 모델링을 통해 classical method에서 100개 정도 검증할 것을 1개로 줄여준다고 하지만, 결국 experimental validation이 필요하다는 관점을 공고히 하기 위해서 이 paper를 읽고 있는 것이라고 볼 수 있겠다. Main Texts Cons: Directed Evolution Protein engineering의 목표는 protein이 improved function을 가지도록 optimize and design하여, human therapeutics, metabolic engineering, genome editing 등에 사용하는 것이다. 이러한 관점에서 directed evolution methods는 iterative한 sequence diversity 생성과 screening에 기반해서, 실험실 내에서 성공적으로 protein sequence-function의 복잡하고, 비선형 (non-linear)의 landscape에서 improved sequences를 찾을 수 있도록 했다. 다만 앞서 언급했듯, 이 과정에는 몇 가지 단점이 존재한다. Importance of Validation of AI methods 이러한 배경에서, 최근에는 general-purpose datasets을 large-scale에서 학습한 AlphaFold, ProteinMPNN, RFdiffusion 같은 foundational AI methods들이 등장했다. 결국 목적은 protein을 더 잘 이해하고, 디자인할 수 있는 능력을 얻는 것이다. 다만, 본 논문에서 주목하고 있는 것은 큰 잠재성을 가지고 있는 AI model들의 실질적인 검증 (validation)이다. 더 정확하게는 아래와 같은 질문이다. “How can these models be deployed, and what applications can they reasonably empower, especially without modification?” 나도 저자들의 관점을 경험적으로 느껴본 적이 있다. 최근에 이 분야를 이끌고 있는 곳 중 하나인 David Baker 교수님의 연구실에서 낸 Computational Design of Serine Hydrolases라는 논문을 읽던 중이었다. 아직 학부생인 내 입장에서 논문의 초반부를 읽던 중, 어려운 부분이 많아서 논문의 1저자인 Anna Lauko와 Sam Pellock이라는 연구자가 직접 연구 내용을 설명하는 영상을 보았다. 여기서도 ProteinMPNN, RFdiffusion 등 여러 가지 methods를 사용하여 새로운 serine hydrolase를 design 했지만, 실제 enzyme의 효율은 자연에 존재하는 것에 비해 아쉬움이 있던 것으로 기억한다. 이걸 보면서 아직 이 분야에서 근본적인 breakthrough가 더 필요한 것 같다는 생각을 했었다. Example Answers in Cell Papers Previous Strategy EvolvePro 같은 foundationally trained protein model은 실제 실험 데이터에 fine-tuned 되어서, directed evolution loop에서 기능을 향상시킬 수 있는 amino acids를 예측하는 것에 사용되었다. 다만, 이 방법은 specific한 training data를 만들어야 하고, 많은 계산 자원과 expertise가 필요하다는 단점을 가진다. Gao and collegues’ Strategy 이들이 광범위한 실험적 validation을 기반으로 주장한 것은 fixed-backbone sequence design models로부터 high-confidence sampling을 진행하면, 모델이 아무런 specific function or fitness에 대한 정보를 얻지 않고도, 종종 더 specific function에 더 나은 protein variants를 얻을 수 있다는 것이다. Fixed-backbone sequence design model? ProteinMPNN과 같이 “inverse folding” 문제를 푸는 모델을 의미한다. 생물학에서 오랜 기간 중요한 문제였던 서열이 주어졌을 때 구조를 예측하는 문제의 역으로, 아미노산의 carbon backbone만 주어졌을 때 그 구조를 형성할 것 같은 서열을 예측하는 것이다. 참고로 실제 ProteinMPNN을 사용해보니 주어진 구조에서 서열을 생성할 때 sampling의 sharpness를 결정하는 temperature (τ) 값을 매우 작은 값부터 순차적으로 선택할 수 있었는데, 매우 작은 값을 선택하면 high-confidence sampling이라고 볼 수 있을 것 같다. First Paper (for fine-grained) 첫 논문에서 Fei라는 연구자를 비롯한 저자들은, fixed-backbone sequence design model들을 “AI-informed constraints for protein engineering” (AiCE), 즉 inverse folding model이 생성하는 서열을 높은 fitness를 가진 sequence variants를 지정하기 위해서 사용했다. 방법은 다음과 같다: 1) ProteinMPNN을 이용해서 protein of interest의 구조의 backbone structure에 구조적으로 compatible한 아미노산 서열을 많이 샘플링한다. 2) 서열 상 각 위치에서 가장 자주 발견된 amino acid substitution을 결정하고, 이 치환율과 추가적인 structural, evolutionary guidance를 기반으로 가장 기능을 향상시킬 것 같은 돌연변이를 확인한다. 결과적으로 저자들은 base editing (A -> G, C -> T…)만 신경을 써서 8개의 크고 복잡한 단백질에서 효용을 확인하였다고 한다. 이 간단한 시스템은 single nucleotide editing 수준의 정확도로, AiCE는 adenine과 cytosine base editor 중에 더 잘 작동하는 improved-fitness variants를 찾아 base-editing window를 줄여주고, off-target effect를 최소화하고, on-target/off-target의 비율을 높여 specificity를 증가키시고, 이전에 어렵던 subcellular context에서도 일반화가 가능해서 mitochondrial DNA 같은 이중가닥의 editing도 가능하게 하는 등 다양한 효과를 보인다. Classical method와 비교해서 성능을 비교할 수 있는 결론은 다음과 같다. “Each AiCE base editor campaign (실험) required only one round of screening approximately a hundred proposed variants to identify improved proteins.” Second Paper (for large-scale) 두 번째 논문에서는, editing을 large-scale로 확장하여 Cre DNA recombinase system을 이용한 kilo~megabase 수준의 편집을 목표로 하였다. Cre DNA recombinase system? P1 bacteriophage에서 유래된 tyrosine recombinase로, 특정 서열에 반응하여 topoisomerase 1과 유사한 재조합을 수행한다. Sun이라는 연구자를 비롯한 저자들은 AiCE framework를 multimer 형태로 작동하는 recombinase에 맞추어서, 상당히 향상된 효율성을 가진 Cre recombinase의 variant를 engineer 했다. 구체적으로 AiCE에 향상된 Cre variant와 high-throughput (고속) molecular engineering techniques를 이용해서, intergration/inversion/deletion/translocations 등 large segment of DNA를 다룰 수 있는 large-scale recombination capability를 얻었다. 실제로 이 programmable recombinase-driven platform을 작물 식물에 적용하는 것을 통해서 multi-gene stacking (다수의 gene을 동시에 삽입)할 수 있는 것을 입증하고, plant genome engineering에 강력한 도구가 될 수 있음을 보였다. “At its core, AiCE is a mutation design framework that nominates potential high-fitness variants by sampling amino acid sequences from pre-existing inverse folding models, leveraging their encoded evolutionary and structural information.” 결국 AiCE가 하는 일은, evolutionary and structural information을 이용해서 fitness를 향상시킬 것 같은 mutation을 제안하던 과거의 연구들의 연장선이 된다 (e.g. MSA to find consensus mutations, library design such as site-saturation mutagenesis that improve function without destabilizing the protein). 하지만 다른 점은, pre-trained deep learning model을 이용해서 연관된 서열만이 아닌 알려진 모든 서열과 구조의 다양성에서 고려될 수 있는 상호작용까지 반영하여, suggested variants를 improve할 수 있다는 것이다. Conclusions 하지만, AiCE의 주요한 한계는 여전히 known structure라는 functional starting point를 필요로 한다는 점이다. 저자들은 de novo protein design methods를 통해서 structure space든, sequence space든, 혹은 둘 다에서 충분히 강력하고 starting point를 필요로 하지 않는 미래를 상상할 수 있다고 본다. 이를 기반으로 우리는 아마 향상되거나 완전히 새로운 기능을 가진 generative design of new, synthetic protein을 얻을 수 있을 것이다. “…we must critically test and demonstrate their real-world utility for biological applications that matter. …Rather than developing a bespoke new method, they cleverly leverage a pre-existing method, fixed-backbone sequence design, and deploy it well to empower successful protein engineering campaigns for genome editing systems.” Comment 이 논문을 읽어보니, 한 번쯤 여기서 소개된 first paper 같은 걸 읽어보고 구현해볼 수 있지 않을까 하는 생각이 들었다. 물론, second paper 같이 recombinase를 결합한 system을 설계하는 것은 복잡해 보이지만… 결과적으로 최근 생각해보고 있는 protein design과 genome editing 분야에 대해 가능한 하나의 underlying idea를 배우는 좋은 기회였다고 생각한다.
Paper Review
· 2025-09-15
<
>
Touch background to close