Research Stories
DeepTYLCV: 토마토 황화잎말림 바이러스의 다양한 변이주 병원성 예측을 위한 해석 가능하고 실험적으로 검증된 AI 모델
융합생명공학과 발라찬드란마나발란 교수
성균관대학교 융합생명공학과 교수가 이끄는 CBBL 연구팀이 토마토황화잎말림바이러스(TYLCV)의 독성을 정확하게 예측하고 해석할 수 있는 인공지능 모델인 'DeepTYLCV'를 개발했다.
Nattanong Bupi 박사, Hariharan Sangaraju, Duong Thanh Tran이 공동 제1저자로 참여한 이번 연구는 식물 과학 분야의 권위 있는 학술지인 (Impact Factor: 11.6; JCR: 6/273; Plant Sciences 분야 상위 2.2%)'에 게재되었다.
TYLCV는 전 세계 토마토 생산에 막대한 피해를 주는 가장 파괴적인 토마토 바이러스 병원체 중 하나다. 중증 TYLCV 변이주는 잎 말림, 황화 현상, 생장 저해 및 막대한 수확량 손실을 초래할 수 있습니다. 최근 몇 년 사이 고독성 변이주가 여러 지역으로 계속해서 확산되고 있으며, 심지어 토마토 품종의 유전적 저항성을 무력화하는 사례도 발생하고 있다. 이러한 문제는 정확하고 신속하며, 확장이 용이한 염기서열 기반 질병 감시 체계가 시급히 필요함을 잘 보여준다.
Manavalan 교수 연구팀은 생물학과 인공지능의 접점에서 펩타이드 치료제, RNA/DNA 변형 예측, 단백질 기능 분석, 독성 예측, 식물 과학 및 생의학 응용 분야를 위한 AI 기반 솔루션을 개발하며 광범위한 연구를 수행해왔다. 연구팀은 2023년, 최초의 유전체 기반 TYLCV 중증도 예측 도구인 IML-TYLCV를 개발하여 권위 있는 학술지인 Research (Impact Factor: 10.9)에 발표한 바 있다. 하지만 IML-TYLCV는 주로 한국 내 분리주를 기반으로 학습되어, 전 세계의 다양한 TYLCV 변이주에 적용하는 데는 한계가 있었다. 이러한 한계를 극복하기 위해 연구팀은 전 세계 바이러스 분리주 전체에 걸쳐 독성을 예측할 수 있는 더욱 강력한 AI 프레임워크인 DeepTYLCV를 개발하게 되었다.
눈에 보이는 증상에 의존하여 환경 요인의 영향을 받기 쉬운 기존의 현장 진단이나 이미지 기반 AI 모델과 달리, DeepTYLCV는 바이러스 유전체에서 추출한 염기서열 정보를 활용한다. 이를 통해 실제 증상이 확인되기 전 단계에서도 경증 및 중증 변이주를 식별할 수 있으며, 새롭게 출현하는 바이러스 변이체를 모니터링하기 위한 확장성 있는 전략을 제공한다.
DeepTYLCV는 단백질 언어 모델 임베딩(protein language model embeddings)을 트랜스포머 인코더와 다중 스케일 합성곱 신경망(multi-scale CNN)이 결합된 하이브리드 구조와 통합하여, 전역적인 서열 패턴과 국소적인 독성 관련 모티프를 모두 포착할 수 있도록 설계되었다. 이러한 심층 서열 표현 방식과 최적화된 기존 특징 기술자를 결합함으로써, DeepTYLCV는 이전의 IML-TYLCV 모델 대비 훨씬 뛰어난 예측 성능을 확보했다.
이 연구의 핵심 강점은 실험을 통한 검증에 있다. 연구팀은 국제 표준 분리주와 한국 현장 분리주를 포함한 15종의 TYLCV 분리주를 대상으로 블라인드 예측을 수행했다. 이러한 예측 결과는 토마토 식물체 감염 분석, 증상 중증도 점수 측정, 바이러스 축적량 분석을 통해 검증되었다. 놀랍게도 DeepTYLCV는 예측된 독성 등급과 실험적으로 관찰된 결과 사이에서 100% 일치율을 기록하며, 새롭게 출현하는 고독성 TYLCV 변이체를 식별하는 데 있어 탁월한 실용적 가치를 입증했다.
이 연구는 인공지능, 바이러스 유전체학, 그리고 식물 병리학이 어떻게 통합되어 정밀 농업과 식물 질병 관리를 지원할 수 있는지를 보여주는 강력한 사례다. DeepTYLCV는 조기 바이러스 감시, 저항성 육종 프로그램, 그리고 새롭게 출현하는 TYLCV 변이주에 대한 신속한 평가를 위한 귀중한 도구로 활용될 수 있을 것이다.
이 연구는 대한민국 과학기술정보통신부 산하 한국연구재단(NRF)의 지원(과제번호: RS-2024-00344752)과 성균관대학교 융합생명공학과 4단계 BK21 사업의 지원을 받아 수행되었다.
그림 1. DeepTYLCV 프레임워크 개요. 이 프레임워크는 다음과 같은 6가지 핵심 단계로 구성된다:
(A) 전 세계 TYLCV 유전체 수집 및 오픈 리딩 프레임으로의 전처리. (B) 서열 문맥 포착을 위한 단백질 언어 모델/자연어 처리 임베딩의 투영 및 스태킹.
(C) 전역 및 국소 독성 패턴 학습을 위한 하이브리드 트랜스포머 인코더 및 다중 스케일 CNN 모듈. (D) 최적의 기존 특징 기술자 선정.
(E) 중증도 예측을 위한 다층 퍼셉트론 분류기. (F) 사용자 친화적인 웹 서버 구축 및 배포.
그림 2. 토마토 식물체의 증상 발현 및 바이러스 정량화를 통한 DeepTYLCV 예측의 실험적 검증.
15종의 TYLCV 감염성 클론을 토마토 식물체에 아그로 접종함.
(A) 현재 모델인 DeepTYLCV와 이전 모델인 IML-TYLCV의 예측 확률. (B) 21일 차의 바이러스 DNA 축적량.
(C) 21일간 모니터링한 증상 중증도. (D) 21일 차 감염된 식물체의 가시적 증상. (E) 바이러스 감염을 확인한 PCR 검출 결과.