2019年11月14日 讯 /基因宝jiyinbao.com/ –数据可重复性一直以来都是实验生物学的一个主要问题,随着基因组技术的发展以及相关数据复杂性的不断提高,这一问题的严重性又得到了很大程度地提升。
11月12日,特拉维夫大学的Shir Mandelbaum,Zohar Manber,Orna Elroy-Stein和Ran Elkon在《PLOS Biology》上发表文章,指出RNA-seq技术产生的数据经常出现技术偏差,进而导致错误的结论。
通过分析数十个可公开获得的,针对细胞对多种不同压力的反应的RNA-seq数据集合, Mandelbaum及其同事注意到,长度过短或过长的基因集合反复显示出表达水平的变化。
作者对此感到困惑,然后试图搞清楚这一现象背后究竟是真实的生物学反应,还是实验过程引入的人为误差。为了解决这个问题,他们比较了相同生物学条件下的重复批次的样本。重复样品之间基因表达的差异可以反映与生物学因素无关的技术性影响。结果表明,在不同的重复中,长度过短或过长的基因都显示出“表达差异”,因此这一现象似乎是基因长度差异引起的“技术性误差”。
RNA-seq实验的主要目的是表征受特定因素影响而被激活或抑制的生物学过程。Mandelbaum及其同事证明,在许多RNA-seq数据集中,基因长度偏差以及统计分析中的一些缺陷会导致对特定生物学功能出现错误识别。通过消除这种偏见,能够滤过滤虚假信息,同时保留了生物学上真实信息。(生物谷Bioon.com)
资讯出处:Widespread misinterpretation of gene expression data
原始出处:Shir Mandelboum, Zohar Manber, Orna Elroy-Stein, Ran Elkon. Recurrent functional misinterpretation of RNA-seq data caused by sample-specific gene length bias. PLOS Biology, 2019; 17 (11): e3000481 DOI: 10.1371/journal.pbio.3000481