Research Stories

View All

Research Stories

다수 집단 고차원 데이터의 숨은 의존성 구조에 대한 베이지안 추론 개발

베이지안 공동 국소 의존성 학습 방법 j-LANCE 개발로 이론적 정확성과 계산 효율성 동시 확보

통계학과 이경재 교수

  • 다수 집단 고차원 데이터의 숨은 의존성 구조에 대한 베이지안 추론 개발
  • 다수 집단 고차원 데이터의 숨은 의존성 구조에 대한 베이지안 추론 개발
Scroll Down

연구팀은 서울대학교 장원 교수, University of Cincinnati의 Xuan Cao 교수와의 공동연구를 통해 다수 집단 고차원 데이터의 숨은 의존성 구조에 대한 베이지안 추론을 개발하였다.


고차원 데이터  의존성 짶도

현재 과학과 산업 현장에서는 유전체, 기후, 금융, 센서 데이터처럼 수많은 변수가 동시에 관측되는 고차원 데이터가 빠르게 증가하고 있다. 이러한 데이터에서 중요한 문제는 각 변수들이 연결된 종속 구조를 학습하여, 방대한 자료에 숨은 정보를 보여주는 “의존성 짶도”를 파악하는 것이 중요하다. 예를 들어 기후 자료에서는 가까운 지역의 온도가 서로 관련될 수 있고, 유전체 자료에서는 인접한 위치의 유전자들이 께 작용할 수 있다. 이러한 의존성을 추론에 반영할 수 있다면, 개별 변수를 따로 분석하는 것보다 더욱 효율적인 추론이 가능하다.


여러 집단의 의존성을  추론는 j-LANCE 방법 개발

본 연구에서 제안한 j-LANCE(joint LocAl depeNdence CholEsky)는 유전체, 기후 등의 실제 데이터에서, 변수들이 자연스러운 순서를 가지며 가까운 이웃 변수들과 주로 관련된다는 점에 주목하였다. 이를 통해 각 변수가 어느 정도 범위의 이웃 변수들과 연결되는지를 추정하고, 여러 집단 사이의 유사한 구조를 께 학습하면서도 집단별 차이를 허용하도록 방법론을 설계하였다. 이때, 기존 방법들은 여러 집단의 자료를 따로 분석하거나 반대로 모든 집단이 같은 구조를 가진다고 단순화하는 경우가 많았지만, 본 연구에서는 Markov random field prior를 이용하여 집단 간 유사성과 차이를 데이터에서 유연하게 학습할 수 있도록 설계하였다.


이론적 정확성과 빠른 ѫ을 동시에 확보

본 연구의 중요 성과는 고차원 환경에서도 이론적인 정확성과 계산 효율성을 동시에 달성한다는 점이다. 본 연구에서는 j-LANCE가 여러 집단의 의존성 구조를 정확하게 추정할 수 있다는 것을 이론적으로 증명하였고, 추정 결과가 참값에 가까워지는 속도 역시 nearly minimax-optimal 임을 보였다. 또한 복잡한 반복 계산인 MCMC를 사용하지 않아도 베이지안 추론이 가능하도록 방법론을 설계하여, 고차원 데이터에서도 빠른 분석이 가능하다는 장점을 확보하였다.


기후자료 ѫ으로 확인 실제 홵Ӛ 갶ĵ성

본 연구에서는 ERA5 데이터를 이용하여 2019년부터 2021년까지 미국 태평양 북서부 지역 30개 지점의 온도를 분석하고, 바람의 흐름을 반영한 공간적 순서를 바탕으로 지역 간 온도 의존성 구조를 추정하였다. 그 결과 j-LANCE는 연도별로 유사한 의존성 패턴을 포착하는 동시에, 특정 연도에 나타난 특이한 의존성 구조도 감지하는 것을 확인하였다. 이로부터 j-LANCE의 실제 데이터 홵Ӛ성을 확인할 수 있었으며, 향후 기후, 유전체, 금융, 센서 시계열 등 여러 집단의 복잡한 데이터를 동시에 분석해야 하는 다양한 분야에 홵Ӛ될 수 있을 것으로 기대된다.


*본 연구성과는 통계학 분야 국제 학술지인 에 게재되었다.


논문 게재 성과 SKKU RESEARCH STORY

The Joint Local Dependence Cholesky Prior for Bandwidth Selection Across Multiple Groups


그림 1. ERA5 기후 데이터의 온도 heatmap



그림 2. ERA5 기후 데이터에서 추정된 Cholesky factors. 

각 열은 오른쪽부터 2019, 2020, 2021년에 해당하며, 

각 행은 위부터 j-LANCE, 연도별 독립 LANCE, 벌점화 가능도 기반 추론 방법, 그룹 그래피컬 라쏘 방법의 결과를 나타냄

COPYRIGHT ⓒ 2017 . Contact us