。本期向大家推荐的一篇SCI文章[1],看它是如何利用文献中发表的结果,提出新的问题、解决问题。
总所周知,吸烟是一种常见的、有害的行为,能够导致一系列癌症的产生[2]。目前,三分之一的癌症可归因于吸烟,特别是肺癌、口腔癌、胰腺癌、食道癌、膀胱癌、喉癌和肾癌,最为致命的癌症是肺癌和胰腺癌
吸烟能够增加5到10倍肺癌发生的风险;在发达国家,吸烟导致的肺癌占总数的80% [3]。在妇女中,吸烟行为也导致的宫颈癌与卵巢癌的发生风险增加。相比于不吸烟者,吸烟者患宫颈癌的风险提高了4.4倍,而患卵巢癌的风险提高了2.8倍。
根据WHO报道[4]世界范围内每年由于吸烟导致的死亡人数估计达到了600万,其中主要原因是由于吸烟导致癌症产生的死亡。
到目前为止,许多的遗传关联分析研究已经揭示一定数量的遗传突变位点参与吸烟相关的癌症发生中[5-7]。
鉴于遗传突变研究现在正处于瓶颈状况,许多的科研工作者将他们的工作重心转移到与吸烟相关的
DNA甲基化能够导致DNA构象、DNA稳定性、DNA与蛋白质之间的交互作用方式,以及染色质的结构发生改变,从而能够控制基因表达[8]、调节可变剪切[9],基因组的完整性[10]等等。
是这些已发现的与吸烟相关的异常DNA甲基化位点很可能富集在与癌症相关的基因和生物学通路上,而这些富集基因和通路在吸烟相关癌症的发生中发挥重要作用。
是系统全面的富集分析这些与吸烟相关的DNA甲基化位点发现重要基因和通路,并利用TCGA数据库中肺癌数据对其中重要的基因进行验证。
为了尽可能的找到所有关于吸烟和DNA甲基化关联的研究,作者们从PubMed数据库内总共检索到了1,447个已发表的论文(检索截止时间是2015年6月13日),
一旦某项研究达到了入选标准,作者会仔细阅读该研究的全文以确保其结论与内容相符。
同时,对于来自血液和口腔样本的两组基因进一步进行筛选以提高研究结果的可靠性。
通过设定严格的入选标准,有320个吸烟相关的差异甲基化基因从血液样本中找到。有667个吸烟相关的差异甲基化基因是来自口腔组织。
因为这里入选标准都是一样严格的,所以只能说明基于口腔组织的基因仍有很多假阳性基因存在。
所以作者选择了用320个来自血液样本的基因作为发现阶段分析,而口腔组织的基因只是用于验证。
首先,利用来自血液样本的甲基化基因进行通路分析以发现与吸烟相关的生物学通路。然后,利用同样的方法,对来自口腔样本的基因进行通路富集分析,以验证基于血液样本发现的通路。
为了从甲基化修饰的角度全面理解吸烟对癌症产生的影响,作者利用三种生物信息学软件,包括Ingenuity Pathway Analysis (IPA; 、EnrichNet (和 Genetrail (权威软件,对从血液和口腔样本中收集到的两组基因进行生物通路富集分析。
这一点一定要讨论或者说明一下,不然reviewers会提问,如利用三个不同软件,如何考虑权衡它们之间的结果,有没有重复结果存在,是否有Cherry-picking的可能,等等。
在发现阶段,基于血液样本,作者利用这320个差异甲基化基因进行的通路富集分析。
其中有57条通路是已经报道和癌症发生相关。例如,最显著的生物通路MSP-RON信号通路(FDR = 2.2 × 10-4; 详见表1) 已经被报道参与巨噬细胞应对炎症刺激的活性调节,与上皮细胞和白细胞致癌作用相关[13]。
为了验证基于血液样本发现的通路,作者对来自口腔样本的差异甲基化基因进行了相同的通路富集分析,找到了32条共有通路(p
(详见图2)。图3概况性的展示了主要致癌通路参与吸烟相关癌症发生的分子机制模型。
类似于通路富集分析,作者也对来自血液和口腔样本的显著差异甲基化基因进行了GO富集分析
如图5所示,这48个基因之间存在相互作用,说明所找到的这些基因可能共同作用参与癌症发生。
如位于该蛋白-蛋白互作网络的中心位置的基因NOTCH1、CDKN1A、EGR1、AKT3、TNF、MMP9和SMARCA4已被广泛报道与癌症相关,
到这里以上所有的结果都是基于健康人的数据分析。。。是不是似曾相识。。。对的,好像有点印象。。。
是的,就是上一期的关于“公共数据库, SCI怎么发?(一)”的分析模式。
以下是上一期的原话:“因为上面的研究都是基于健康者血液中的基因表达和DNA甲基化差异,来反映吸烟相关疾病发生的分子机制。
并且通过一系列的公共数据挖掘,发现了一些很重要的基因,如DUSP4、AKT3、NOTCH1、SMAD6和SMARCH4,它们可能是很重要的研究吸烟导致癌症发生的分子靶标。
,并对这些基因进行严格筛选,这种做法要做到全面性的同时还要考虑可靠性,只有这样才能得到很好的、很有意义的结果。
通过血液样本发现、口腔样本验证,作者们发现了11条与吸烟导致癌症发生的富集通路,这些通路包含了48个重要基因,它们构建了一个致病蛋白互作网络。最后作者利用TCGA公共数据库中的肺癌样本数据验证了健康人群中发现的结果。
由于本期篇幅过长的原因,没有继续展开TCGA数据分析的讲解,在以后的推文中我们将会对TCGA数据库进行系列讲解,并重现已发表论文的数据分析过程。敬请期待!!!
荐:发原创得奖金,“原创奖励计划”来了!“我的个图·我的家园”,有奖征文邀您参加
Copyright © 2007-至今 yijy.com,All Rights Reserved 医家园