提高数据分析的科学性与透明度，UCLA统计学教授

栏目导航

期刊信息

刊名：数据分析与知识发现
曾用名：现代图书情报技术;计算机与图书馆
主办：中国科学院文献情报中心
主管：中国科学院
ISSN：2096-3467
CN：10-1478/G2
语言：中文
周期：月刊
影响因子：0.912234
数据库收录：
北大核心期刊（2004版）;北大核心期刊（2008版）;北大核心期刊（2011版）;北大核心期刊（2017版）;中国科学引文数据库（2017-2018）;中国科学引文数据库（2019-2020）;中文社会科学引文索引-来源（2017-2018）;中文社会科学引文索引-来源（2019-2020）;国家哲学社会科学学术期刊数据库;中国人文社科核心期刊;中国科技核心期刊;期刊分类：图书情报与数字图书馆
期刊热词：
研究论文

您现在所在位置：主页 > 综合新闻 >

来源：数据分析与知识发现 【在线投稿】栏目：综合新闻时间：2021-02-26

【作者】网站采编

【关键词】

【摘要】“对我而言，回答了自己心中的问题或者做出一个新的发现，这种成就感要远高于生活中的其他快乐。”李婧翌对《麻省理工科技评论》中国这样说道。而她的研究内容在很多人眼里或

“对我而言，回答了自己心中的问题或者做出一个新的发现，这种成就感要远高于生活中的其他快乐。”李婧翌对《麻省理工科技评论》中国这样说道。

而她的研究内容在很多人眼里或许稍显枯燥：针对前沿的生物学问题开发新的统计学方法，尤其着重于对大规模基因组和转录组数据进行分析方法的开发。

由于高通量实验技术的发展，生命科学从一个靠观察实验为主的学科逐渐变得更加需要定量化，而这些大规模数据的产生也需要算法才能够进行分析，从而总结出数学规律并用规律来刻画事物的本质。

加州大学洛杉矶分校（UCLA）统计系（已获得终身教职）副教授和博士生导师，生物统计系、人类遗传学系和计算医学系博士生导师李婧翌认为，生命科学作为一个“宏科学”，尽管问题的本质与生命强相关，但研究手段需要各个学科一起合作，计算则是其中非常重要的一部分，大数据也需要有非常适合的挖掘工具，这对于从小对数学与科学有强烈兴趣、并在本科与博士阶段分别接受了生命科学与生物统计学系统教育的李婧翌有强大的吸引。

李婧翌的研究专注于统计学与生命科学的交叉问题，她首创性地使用严格的统计学来分析已发表的转录组学和蛋白组学数据，发现在过往研究中，由于研究人员对测量误差的忽略，转录的重要性被严重低估，该分析挑战了“翻译比转录重要”的观点却支持了之前大量在 mRNA 转录水平的科学发现。因其重要性，李婧翌的研究结果被发表在 Science 杂志并收录于本科教材 Molecular Cell Biology 中。

图 | 左图是论文 ?usseretal.,Nature473,337(2011) 中在不考虑实验数据误差的情况下对转录、翻译、mRNA 降解和蛋白质降解这四个步骤对于蛋白质含量的贡献的估计；右图是在校正了实验数据误差之后的估计。（来源：李婧翌的论文 Li et al. (2015). Statistics requantitates the central dogma. Science 347(6226):1066-1067.）

此外，李婧翌团队还开发了大量生物信息学工具在组织和单细胞水平上对 mRNA 分子进行全系统测量，并正在开发一项能够寻找到人群亚型中和疾病相关的基因变异的新的统计度量。

凭借上述优异的研究成果，李婧翌成功入选《麻省理工科技评论》“35 岁以下科技创新 35 人”（Innovators Under 35）2020 年中国区榜单。

图 | 《麻省理工科技评论》“35 岁以下科技创新 35 人”2020 年中国区榜单入选者李婧翌

无心插柳，却颠覆固有认知

早在 1958 年，中心转录法则便被提出，它指的是遗传信息被编码在 DNA 中，通过转录会变成 mRNA，再通过翻译的过程变成蛋白质，这是所有有细胞结构的生物所遵循的法则。

在这个过程中，除了转录和翻译生成了 mRNA 和蛋白质这两个步骤，还存在 mRNA 和蛋白质的降解，这四个步骤共同决定了每一个基因所对应的蛋白质到底在我们细胞中存在多少量。不过，此前中心转录法则是一个定性表述，“没有人知道每一步的速率是多少，也没有人知道对最后蛋白质含量的影响有多少。”

在李婧翌博士即将毕业之时，她与合作者 Mark Biggin 博士共同研究中心转录法则的定量工作。偶然的一次机会，李婧翌和合作者发现，2011 年发表在 Nature 上的一篇文章首次在小鼠的全基因组的基因中进行了 4 项步骤的测量，其得出的结论是每个基因的 mRNA 的含量对于蛋白质含量的预测效果比较差，也就是说一个基因内 mRNA 的高或低并不太能代表它的蛋白质含量的高或低。

“这在当时是个非常让人震惊的结论。因为我们有很多实验手段可以用来研究 mRNA，但是研究蛋白质相对困难很多，所以大量生物学的发现成果都围绕 mRNA 的含量水平。如果这篇文章的结果为真，那么之前很多 mRNA 的结果可能都没有什么意义了。”李婧翌解释道。

当李婧翌与合作伙伴看到这篇文章时，他们观察到这项工作是将高通量质谱转化为蛋白质含量，但在转化过程中，它的标准实际上只基于高表达蛋白，并假设同样的转换方式也适用于低表达蛋白，由此导致了研究里面很多低表达蛋白的表达指征是很不准的，也就意味着高通量蛋白质测量很有可能存在误差。

为了解决这一疑惑，李婧翌将实验误差考虑进建模后发现，实际上 mRNA 和蛋白质含量的相关性比 Nature 的文章报道的要高很多，转录的重要性被严重低估。这项“无心插柳”的研究结果被发表在 Science 杂志并收录于本科教材 Molecular Cell Biology 中。

文章来源：《数据分析与知识发现》网址: http://www.sjfxyzsfx.cn/zonghexinwen/2021/0226/654.html

上一篇：5 万美元是终点吗？数据分析比特币市场趋势
下一篇：临别给《生活大爆炸》做个台词数据分析，你猜

栏目导航

期刊信息

您现在所在位置：主页 > 综合新闻 >