on
[Nature] 생명 공학 연구 저널들의 미래 영향력 예측 : Learning on...
[Nature] 생명 공학 연구 저널들의 미래 영향력 예측 : Learning on...
저널 링크 : https://www.nature.com/articles/s41587-021-00907-6#Abs1 (읽으려면 구매 혹은 대여 필요)
Learning on knowledge graph dynamics provides an early warning of impactful research
James W. Wei & Joseph M. Jacobson / Nature Biotechnology (2021)
주제 :
생명공학 연구 저널들의 시계열 데이터를 그래프를 기반으로 머신러닝하여 미래에 영향력이 클 연구를 찾는 것.(네트워크 구조/시간적 역학을 통합-- 그래프 역학에 대한 학습)
내용 :
데이터셋 : 약 40년간(1980 - 2019)의 학습 데이터를 토대로 분석. 논문, 저자, 소속, 인용, 등을 포함한 29개의 feature사용(모두 반드시 사용X. 사용해 성능이 향상되는 경우에만 기계학습 파이프라인에서 사용). 780만개 이상의 노드, 2억 100만개 관계 미 38억개 계산된 매트릭.
분석 방법 : 데이터수집/병합 -> 동적/이질적 그래프로 구조화 -> 다양한 정량적 매트릭 세트 그래프에서 계신 및 저장 -> 반복해 기계학습 파이프라인 매트릭 간 구조에서 차등패턴 학습 -> 결과확인(생명공학 연구의 가장 유망한 5%를 분류기반 접근방식을 통해 채택(회귀기반 방법과 함께사용가능), 영향력 있는 연구에 대한 조기 경고 생성 모델).
+ 시간에 따른 각 논문 별 그래프의 저차원 표현을 결정하기위해 비지도학습 사용.
결과 :
과학 논문의 자금 조달 포트폴리오 구축을 지원하는 도구 개발. DELPHI(Dynamic Early-warning by Learning to Predict High Impact)
해당 저널의 목차 :
제목 – 저자 – 요약 - 실제 문제 현황 - 간략한 개선 방안 – 현행 연구의 비판점 – 새로 고안한 진화된 기법 소개(데이터세트, 구성, 분석기법, 분석 목적 및 결과, 기대효과 간략히) – 결과 소개(실제 모델 적용시의 결과소개 및 기존 모델과의 비교) – 논의 소개 (분석 기법의 추가적으로 논의해볼수있는 부분, 추가적인 활용 방안, 모델 개선 방안, 기대효과, 끝맺음말) – 참조 – 행동양식 (세부적인 분석 방법에 대한 설명)
연구방법 관련
l 환자 대조군 연구 : subjects 를 질병 유무에 따라 분류해 배경인자나 위험요인에 대해 노출된 정도를 상호 비교
l 코호트 연구 : subjects 를 노출여부에 따라 분류하여 일정 기간 두 집단의 질병 발생 빈도를추적조사해 위험요인에 대한 노출과 특정 질병발생의 연관성을 규명하는 것
- Follow-up period : 연구대상자를 follow up 하는 기간
- Study period : 연구자가 연구를 수행하기 시작하는 시점
~> 이 두 시점의 선후관계에 따라 Prospective study와 retrospective study로 나눔.
- Prospective (전향적 연구) : Study period가 follow-up period 전에 위치.
- Retrospective (후향적 연구) : study period가 follow-up period 이후에 위치.
Graph 관련
- Homogeneous / Heterogeneous Graph
Homogeneous graph는 그래프의 모든 노드가 같은 성질을 갖고 있는 그래프이다. 예를 들어, 인물 관계도가 있다면 모든 노드는 사람을 의미하는 homogeneity를 갖는다.
Heterogeneous graph는 반대로 그래프의 노드가 여러 종류의 성질을 가지는 그래프이다. 예를 들어 영화-유저 그래프는 어떤 노드는 영화이고, 어떤 노드는 유저를 의미하는 heterogeneity를 갖는다.
- Dynamic Graph
Dynamic graph는 그래프의 구조는 같지만 각 node의 feature와 edge feature의 정보가 시시각각 변화하며 들어오는 경우를 말한다. 그래프의 구조는 동일한 시계열 데이터를 해석 해야하는 경우를 말한다. Spatiotemporal analysis(시공간 분석)를 해야하는데, 어떤 케이스가 있는지는 잘 모르겠다.
후기
아마 나도 n십년간의 시계열 학습 데이터를 머신러닝해 미래에 어떨지 예측/분석하는 것을 할 것. 특히 코호트 연구기볍을 적용해 두 집단을 주요 요인/원인의 노출여부에 따라 분류하고, (질병) 발생 빈도를 추적해 (질병)의 발생여부를 비교하여 위험요인에 대한 특정 질병발생의 연관성을 규명할 것. 이 때, 전향적 연구가 아닌 후향적 연구를 진행하게 될 것. 저널 목차에 따라 글 구성. (추후 재정리)
영단어
manipulated : 조작되는
deduce : 추론하다
demonstrate : 제공하다, 입증하다
retrospective study : 맹검 회고
aid : 지원하다
proliferation : 확산
medium : 매체
lagging : 후행
suboptimal : 차선책
For-profit-funding : 영리 자금 지원?
analogously : 유사하게
proactively : 능동적으로
expertise : 전문적 지식
intuition : 직관
incorporate : 포함하다
granting agencies: 보조금 기관
"In either case, given the current reality of expanding science and limited resources, these learned algorithmic signals could help us progress beyond simple citation-based measures of impact and better guide attention, funding and investment to the right places."
"Adjusted graph centrality measures outperform citation-based measures in their ability to quantify the relative impact of scientific work, and network science-based methods enable the quantification of innovation and technological novelty"
quantification : 정량화
novelty : 참신함
plethora : 과다, 수많은
unifies : 없다. 시도하지 않았다.
"Here we present DELPHI, a machine learning framework that analyzes high-dimensional relationships among a range of features calculated across time from the scientific literature to predict work likely to be of high impact."
corresponding : 해당
disambiguated : 명확화
Affiliations : 소속
Venues : 장소
Synthetic : 합성
"We find that articles that fulfil the above ‘high-impact’ criteria have distinct time-based patterns of adoption that manifest in our heterogeneous knowledge graph model"
fulfil : 만족하다
modest : 적은
... 중략 ...
from http://checherry.tistory.com/71 by ccl(A) rewrite - 2021-09-07 10:26:14