WikiEdge:BioRxiv-2023.05.16.541039
- 標題:Ranked Subtree Prune and Regraft
- 中文標題:排名子樹修剪和接接
- 發布日期:2023-05-18
- 作者:Collienne, L.; Whidden, C.; Gavryushkin, A.
- 分類:evolutionary biology
- 原文連結:10.1101/2023.05.16.541039
摘要:系統發育樹是生物、物種、基因、癌細胞等進化歷史的數學形式化。對於許多應用,例如在分析病毒傳播樹或癌症進化時,人們對(系統發育)時間樹感興趣,其中分支長度代表時間。從(通常是分子)序列數據重建時間樹的計算方法,例如使用馬爾可夫鏈蒙特卡洛(MCMC)方法的貝葉斯系統發育推斷,依賴於採樣樹空間的算法。他們採用諸如SPR(子樹剪枝和接枝)和NNI(最近鄰互換)之類的樹重排操作,或者在推斷時間樹的情況下,採用考慮內部節點時間的這些操作的版本。雖然經典的SPR樹重排已經被深入研究,但是時間樹的變體卻不太被理解,這限制了時間樹方法的比較分析。 在本文中,我們考慮在排列系統發育樹空間上對經典的SPR重排進行修改,這些樹配備了對所有內部節點的排列。這種修改產生了兩種新的樹空間,我們建議研究。我們通過討論這些樹空間的算法屬性開始這項研究,重點關注與計算在排列SPR操作下的距離的複雜性以及與已知基於樹重排的樹空間的相似性和差異性有關的屬性。令人驚訝的是,我們顯示出一個違反直覺的結果,即向樹添加葉子實際上可以減少它們的排列SPR距離,這可能會影響給定不確定的"流浪類群"的時間樹採樣算法的結果。
問題與動機
作者面對的研究問題包括:
- 如何定義和理解對時間樹進行操作的變體 SPR 動作?
- 在考慮時間信息的情況下,如何計算和理解樹之間的距離?
- 如何分析和比較不同樹排列操作的複雜性?
- 如何在存在時間信息的情況下,有效地進行樹的推斷和採樣?
- 如何量化和理解在樹空間中添加新的葉子(例如在病毒傳播或癌症進化分析中)對樹距離的影響?
- 如何在樹空間中有效地探索和比較不同的樹排列方法?
背景介紹
這篇文獻的背景主要集中在以下幾個方面:
- 系統發育樹
- 系統發育樹的推斷方法
- SPR操作的NP困難性
- 時間樹
綜上所述,這篇文獻的背景強調了系統發育樹在描述生物進化關係中的重要性,以及推斷這些樹的方法,特別是SPR操作在樹搜索算法中的應用和挑戰。此外,文獻還探討了時間樹的概念及其在進化分析中的應用,指出了在考慮進化事件時間時對SPR操作進行數學研究的必要性。
章節摘要
這篇論文是關於系統發育樹的數學形式化以及它們在進化歷史分析中的應用,主要內容包括:
- 引言:介紹了系統發育樹在展示生物、物種或基種之間的進化關係中的應用,並討論了從序列數據推斷系統發育樹的方法,特別是貝葉斯方法和最大似然方法。這些方法依賴於樹的重排操作,如SPR(子樹剪枝和重接)和NNI(最近鄰互換)。
- 預備知識:定義了根系統發育樹和排名系統發育樹的概念,並描述了SPR操作在排名樹上的變體,稱為水平SPR(HSPR)和排名SPR(RSPR)。
- HSPR和RSPR的基本性質:探討了HSPR和RSPR樹空間的基本性質,包括它們是否連通,以及樹鄰域的大小和樹空間的直徑。
- 最短路徑:研究了在HSPR和RSPR樹空間中樹之間的最短路徑,包括路徑的結構和如何通過這些路徑保持共享的簇。
- 添加葉子的影響:討論了向兩個樹中添加新葉子時,它們之間的距離如何變化,特別是當存在不同位置的「流氓分類群」時,距離可能會減少。
研究方法
這篇論文通過數學建模和計算分析,研究了在帶排名的系統發育樹上應用SPR(子樹剪枝和重接)操作的性質。以下是該研究方法論的主要組成部分:
- 數學建模:
- 計算分析:
- 理論證明與算法實現相結合:
- 通過理論證明和算法實現相結合的方法,研究了樹空間的幾何特性和計算複雜性。
- 探討了在樹空間中計算最短路徑的問題,並提出了可能的算法策略來解決這一問題。
這篇論文的方法論分析結果表明,通過數學建模和計算分析可以深入理解系統發育樹的重排操作,這對於進化生物學中的樹推斷方法具有重要意義。