|
|
一种新的孟德尔随机化方法用于推断性状及疾病之间的因果关系 |
|
北京时间2021年7月1日晚23时,美国明尼苏达大学生物统计系博士后薛浩然、统计系沈晓彤教授、生物统计系潘伟教授在The American Journal of Human Genetics杂志上发表论文——“Constrained maximum likelihood-based Mendelian randomization robust to both correlated and uncorrelated pleiotropic effects”。
该研究提出了一种新的孟德尔随机化方法来推断性状及疾病之间的因果关系,该方法对于基因多效效应具有稳健的表现。
不同事件和变量之间的相关关系在我们的生活以及自然环境中广泛的存在。例如某一国家不同城市的人均用电量同当地人均身高呈正相关,大自然中气温同海拔高度呈负相关。但由于普遍存在的未被观测的混杂因素(Confounder),我们并不能由观测到的相关性推导出因果关系(Causality)。比如在第一个例子中一个可能的混杂因素是经济发展水平,经济发展水平高的地方电器使用多因此用电量高,并且饮食营养丰富均衡因此人均身高也高,而非用电量高导致人们身高增长。
因果推断(Causal Inference)可以帮助人们更加深刻地理解相关关系背后的因果关系,并帮助人们做出更好的决策。特别是在生物和明升手机版中,因果关系具有重要的意义。如果我们可以判断性状以及疾病之间是否存在因果关系,我们就可以据此发展治疗疾病的方法,并对人们如何健康生活提供更加准确的指导。
工具变量(Instrumental Variable)方法是一类重要的研究因果关系的方法。假设我们想要研究变量X对变量Y的因果效应,并用U代表所有未被观测到的混杂因素,那么一个有效的工具变量IV需要满足三个条件:(A1)IV与X相关,(A2)IV与Y无直接联系,(A3)IV与U独立。一个满足条件的工具变量可以被看作是X的替代,并且这个替代不与U和Y直接发生联系,因此通过判断IV和Y是否有关联可以推断出X与Y是否有因果关系。
图1:有效的工具变量IV需要满足的三个条件
孟德尔随机化方法(Mendelian Randomization,MR)是一类利用遗传变异,多为单核苷酸多态性,作为工具变量(Instrumental Variable)来研究不同性状及疾病间因果关系的方法。然而从上述的有效工具变量的三个假设中可以看出,找到一个有效的SNP作为工具变量在大部分情况下是困难的,因为这意味着我们要完全清楚该SNP的作用机制。并且由于广泛存在的基因多效效应,部分SNP有可能与U、Y之间存在直接的联系,因此并非有效的工具变量。一个SNP如果不满足A2则称之为有不相关的多效效应,如果不满足A3则称之为有相关的多效效应。
构建一种对于两种多效效应都有稳健表现的方法可以帮助研究人员得到更加可靠的结论。基于约束最大似然(Constrained Maximum Likelihood),模型平均(Model Average),以及贝叶斯信息量(BIC),研究人员提出了一种新的方法cML-MA-BIC来解决这个问题。
当一组SNP被用作工具变量时,研究人员构造一组模型并在每一个模型中利用约束最大似然选择有效的SNP,然后基于BIC产生不同模型的权重来得到加权平均模型,最终利用这个模型来推断X和Y之间的因果关系。并且研究人员提出了利用数据扰动(Data Perturbation)来更好的衡量估计误差以作为对变量选择不稳定的补充,以及提出两种拟合优度检验(Goodness-of-fit Test)来衡量变量选择的准确程度。
通过大量的模拟实验,研究人员比较了cML-MA-BIC以及其他被广泛运用的MR方法,实验结果证实了cML-MA-BIC稳健的表现。在真实数据分析中研究人员探究了12种风险因素对4种常见疾病的影响,cML-MA-BIC发现了一些风险因素与疾病间可能存在的因果关系,比如高体脂率可能引发冠状动脉疾病,吸烟可能会导致中风。这些关系也得到了其他相关研究的支持。
图2:12种风险因素对4种常见疾病的因果效应
此外,当一些常见的假设成立时,研究人员的定理1提供了对cML-MA-BIC的理论支持。研究人员用迭代算法来实现cML-MA-BIC,并将其编写成软件MRcML,可以从GitHub下载:http://github. com/xue-hr/MRcML。(来源:明升手机版(明升中国))
相关论文信息: