创新背景
群体结构分析最常用的三种方法是主成分分析(PCA)、系统发生树和祖先成分堆叠图。PCA是一种使用最广泛的数据降维算法,通过正交变换将一组数量庞大且可能存在相关性的变量转换为一组低维的线性不相关的变量。
创新过程
PCA被用于数十万项研究,对于医学遗传学和商业分析具有重要影响。但瑞典隆德大学的一项新研究现实,群体遗传学中最常见的分析方法存在严重缺陷,可能会导致不正确的结果和对种族和遗传关系的误解。研究论文Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be reevaluated发表在《科学报告》上。
科学数据的收集速度呈指数级增长,大规模且高度复杂的数据集不断形成。研究人员为了方便管理这些数据,通常使用统计方法压缩和简化数据,同时仍保留大部分关键信息。研究人员表示,使用PCA提供的结果常常被认为是正确的,因为它经常被使用。但它既不是可靠性的保证,也不是统计上可靠的结论。
PCA被用于许多科学领域,隆德大学的研究关注其在群体遗传学中的应用,其中数据集大小的爆炸式增长特别严重,这是由DNA测序成本降低推动的。想要通过古基因组学了解古代民族和个人,严重依赖PCA。PCA被用于创建遗传图谱,将未知样本与已知参考样本一起定位。目前的已知样本已、被假定与它们重叠或最接近地图上的任何参考总体相关。
研究人员发现,仅仅通过改变参考样本的数量和类型,就可以使未知样本靠近任何参考种群,产生几乎无穷无尽的历史版本,这些版本在数学上都是“正确的”,但只有一个在生物学上可能是正确的。研究检查了PCA的十二个最常见的群体遗传应用,使用模拟和真实的遗传数据来展示PCA结果的灵活性。这种灵活性意味着基于PCA的结论是不可信的,因为对参考或测试样品的任何更改都会产生不同的结果。仅在遗传学方面就有32,000至216,000篇科学文章使用PCA来探索和可视化个体和群体之间的相似性和差异性,并根据这些结果得出结论。
研究人员认为这些结果必须重新评估,需要开发出一种更好的方法来质疑结果,从而有助于使科学更加可靠。
创新关键点
在数学和生物遗传学领域使用PCA统计结果,对比发现群体结构分析方法在群体遗传学中的缺陷。
智能推荐
科技深入人类自身研究后需要重视科技伦理
2022-06-29科技伦理拓展覆盖领域范围,促进人文和科技共同发展。
涉及学科涉及领域研究方向创新“白盒”机器学习方法揭示抗生素作用机制
2022-08-16在一项关于抗生素作用的新研究中,麻省理工学院的研究人员开发了一种新的机器学习方法,以发现一种帮助某些抗生素杀死细菌的额外机制。这一次要机制涉及激活细菌的核苷酸代谢,而这些核苷酸是细胞复制DNA所需的。利用这一机制可以帮助研究人员发现能够与抗生素一起使用的新药物,以增强它们的杀伤能力。这篇研究论文发表在《细胞》杂志上。
涉及学科涉及领域研究方向CD8α蛋白有助于T细胞休眠,减少其凋亡
2022-08-04涉及学科涉及领域研究方向