利用文本挖掘技术和生物信息学方法研究鹿茸生物学功效
郭 斌 1,2 张皓旻1,2 杨 波2 贺培凤 1▲ 卢学春1,2▲
1.山西医科大学管理学院,山西太原 030001;2.解放军总医院南楼血液科,国家老年疾病临床医学研究中心,北京 100853
[摘要]目的 利用文献数据文本挖掘技术结合生物信息学分析方法,从基因表达谱角度探索鹿茸的生物学功效。方法 首先对中国知网、万方数据库和维普数据库三个常用的中文数据库中关于鹿茸的基因表达调控作用的相关文献进行挖掘,提取基因表达数据,进行数据清洗、标准化。其次,通过Cytoscape制作蛋白相互作用网络,再利用自主研发的“疾病-基因-化合物”分析平台进行关联分析,得到鹿茸的适应证和禁忌证。使用DAVID工具对鹿茸基因表达数据进行KEGG通路功能富集分析,筛选出相应的生物学通路及靶点。最后,通过查阅鹿茸药理学作用相关古籍、文献验证本方法的准确性。结果本文共挖掘到鹿茸相关调控基因30个,其中上调基因21个,下调基因9个;制作出鹿茸相关调控基因蛋白互作网络;关联分析找到十几种鹿茸的适应证和禁忌证;KEGG通路富集分析找到鹿茸在抗肿瘤、抗感染、提高免疫力三个功效方面的作用通路及靶点。结论 文本挖掘结合生物信息学方法是一种研究中药药理机制及功效的新方法。
[关键词]文本挖掘;鹿茸;基因表达谱;生物学功效;临床生物信息学
[中图分类号]R915
[文献标识码]A
[文章编号]1674-4721(2018)7(b)-0016-05
[基金项目]解放军总医院转化医学项目(2017TM-020);解放军总医院临床科研扶持项目(2016FC-ZHCG-1004)
[作者简介]郭斌,男,山西孝义人,2016级在读硕士研究生
共同通讯作者:卢学春,男,主任医师、副教授,副主任,硕士生导师。贺培凤,女,教授,硕士生导师
Explore the biological efficacy of Pilose Antler using text mining technology and bioinformatics method
GUO Bin1,2ZHANG Hao-min1,2YANG Bo2HE Pei-feng1▲ LU Xue-chun1,2▲
1.Management School,Shanxi Medical University,Taiyuan 030001,China;2.Department of Hematology,Nanlou Division,Chinese PLA General Hospital,National Clinical Research Center for Geriatric Diseases,Beijing 100853,China
[Abstract]Objective To explore the biological efficacy of Pilose Antler using the method of literature data mining combined with bioinformatics analysis method from the view of gene expression profiles.Methods Firstly,text mining technology was used to explore literatures on gene expression regulation of Pilose Antler from CNKI,Wanfang and CQVIP Data.Gene expression data were extracted,duplicates were removed,and then the gene names were normalized.Secondly,Cytoscape was used to make the protein-protein interaction network.Then the association analysis was used to get the indications and contraindications of disease treatment by the"disease-gene-compound"analysis platform developed by our team.Next,DAVID online analysis tools was used to enrich and analyze the KEGG pathway functions and screen out the corresponding biological pathways and targets.At last,the accuracy of this method was tested and verified by referring to the ancient books and literature on the pharmacological effects of Pilose Antler.Results In this paper,30 antler-related regulatory genes were extracted,of which 21 were up-regulated and 9 were down-regulated;the protein-protein interaction network of antler-related genes was produced;the association analysis found more than a dozen species indications and contraindications of Pilose Antler;KEGG pathway enrichment analysis found the pathways and targets of Pilose Antler in three functions of anti-tumor,anti infection and enhancing immunity.The feasibility of this method was verified by consulting pharmacological literature.Conclusion Text mining combined with bioinformatics analysis is a new method to explore pharmacological mechanisms and efficiencies of traditional Chinese medicine.
[Key words]Text mining;Pilose Antler;Gene expression profiles;Biological efficacy;Clinical bioinformatics
鹿茸作为珍贵的动物药材始载于《神农本草经》,系鹿科动物梅花鹿或马鹿的雄鹿未骨化密生绒毛的幼角(《中国药典》2005年版一部),是有史记载应用极为悠久的珍贵药材之一。《本草纲目》谓鹿茸能够“生精补髓,养血益阴,强筋健骨,治一切虚损、耳聋、目暗、眩晕虚痢。”其疗效确切,在中医临床中占有重要地位[1]。目前,有很多应用基础医学方法所做的鹿茸对基因表达影响的研究 [2-5],而文本挖掘 (text mining,TM)作为数据挖掘面向文本数据的延伸,已成为数据挖掘技术中一个非常重要的研究领域[6],在医学文本数据领域的应用也越来越广泛。本文将从收集的文献数据入手,利用相关数据库对提取的数据进行聚类分析,从药物基因组学角度讨论鹿茸及其主要成分对人体的表观调控作用,有利于进一步了解鹿茸的作用机制,发现鹿茸的新作用,指导鹿茸在临床上的精准用药,为中医药的研究提供了新思路、新方法,从而促进中药的研究发展。
1 资料与方法
1.1 数据集成
对中国知网、万方数据知识服务平台现有关于鹿茸的基因表达调控作用相关文献进行挖掘,得到鹿茸对基因表达的调控数据,然后进行数据清洗,去掉重复项,再利用NCBI Gene数据库对基因名称进行标准化。
1.2 网络图可视化分析
利用Cytoscape软件对鹿茸调控基因相关作用蛋白进行聚类分析,制作蛋白互作网络。
1.3 关联分析
利用本团队研发的“疾病-基因-化合物”分析平台进行关联分析,得到疾病治疗的适应证和禁忌证。该平台根据疾病对人基因的表达变化以及化合物对基因的表达变化之间的关系进行关联分析,实现以药找病、以病找药。目前该平台使用已经趋于成熟,利用该平台可以发现药物的全新作用,团队已有类似的研究[7]
1.4 聚类分析
使用 DAVID(the Database for Annotation,Visualization and Integrated Discovery)在线分析工具通过超几何分布方法对标准化后的鹿茸基因表达数据进行KEGG通路功能富集分析,筛选出鹿茸相应的生物学通路及靶点。
1.5 文献验证
查阅鹿茸药理学作用相关古籍、文献,验证本方法的准确性。
2 结果
2.1 鹿茸相关表达调控基因
本文共挖掘到相关调控基因30个,其中上调基因21个,下调基因9个(表1)。
2.2 蛋白互作网络分析
鹿茸相关调控基因的蛋白互作网络分析结果如图1所示,其中“●”代表上调基因,“◆”代表下调基因。
表1 鹿茸相关表达调控基因

 
图1 鹿茸相关调控基因蛋白互作网络
2.3 鹿茸的适应证和禁忌证
通过进行化合物-基因-疾病关联分析,找到十几种鹿茸的适应证和禁忌证,其中主要的疾病列表见表2。
表2 鹿茸的适应证和禁忌证

2.4 鹿茸主要作用通路
经KEGG通路富集分析发现了鹿茸的主要作用通路及作用靶点,包括肿瘤、感染、免疫三大方面。肿瘤相关通路:结直肠癌通路、小细胞肺癌通路(图2)、慢性粒细胞白血病通路等;感染相关通路:乙型肝炎通路(图3)、肺结核通路、幽门螺杆菌感染中的上皮细胞信号转导通路等;免疫相关通路:T细胞受体信号通路(图4)、B细胞受体信号通路、Toll样受体信号通路等。还发现一些经典通路:p53 信号通路(图5)、NF-κB 信号通路、MAPK信号转导通路等。图2~5中的“☆”为作用靶点。

 
图2 小细胞肺癌中鹿茸的作用通路及靶点

 
图3 乙型肝炎中鹿茸的作用通路及靶点
2.5 查阅鹿茸药理学相关古籍文献验证本方法的准确性
众多综述都表明,鹿茸多肽是鹿茸的主要活性成分,具有保护神经、调节血糖、促进生殖功能、保护软骨组织、增强免疫力、保护心肌细胞和血管内皮细胞、预防急性肝损伤、抗炎及抑制肿瘤细胞生长的作用[8-9]。还有很多通过实验研究的鹿茸药理学文献结果验证了本方法的可行性[10-12]

 
图4 鹿茸在T细胞受体信号通路中靶点

 
图5 鹿茸在p53信号通路中的作用靶点
3 讨论
中医药治疗疾病有几千年历史,由于作用机制并不明确,且个体差异过大,重复性和可靠性备受质疑。但对疑难疾病的诊治有确切病例,不可用西医观点轻易否定,需要从现代科学角度,结合中医的特点加以探讨。然而中医药关于组学的影响较少,最多以成分研究为主,且关注单个或某1~2个基因,从大数据组学角度,缺乏数据。相关研究,如基因测序、基因芯片,价格昂贵,时间,人力、物力和财力受限,而伴随生物医学技术的不断发展,利用生物信息学的方法,从表观基因组学层面对中药作用机制进行研究,快速、有效、目的性强,具有探讨的必要。
鹿茸用于医疗保健的历史悠久,应用广泛,主要用于全身衰弱、强壮筋骨、年老或久病体虚及病后恢复。以往文献报道其还有抗肿瘤、抗感染、增强免疫力的作用,本方法的研究也进一步证实了鹿茸的这些作用。抗肿瘤作用方面,p53通路具有肿瘤抑制作用,调节各种各样基因的表达,包括细胞凋亡,生长抑制,抑制细胞周期进程,分化和加速DNA修复,基因毒性和细胞应激后的衰老[13],而 p21、Bax、CASP3等作为鹿茸在p53通路的作用靶点,完全可以通过结合进一步的临床实验研究,二次开发,研发新的疾病治疗方案。抗感染方面,鹿茸多肽可能是通过表皮生长因子和表皮生长因子的信号传导通路来保护成骨细胞免受炎症和氧化损伤[14]。潘风光等[15]的实验显示鹿茸多肽可促进T、B淋巴细胞的增殖和活化巨噬细胞分泌白细胞介素12,从而提高机体的免疫力,鹿茸还可以通过上调负责肌肉收缩的基因来提高肌肉收缩力量,增强抗疲劳的能力[16]。这些文献的研究证明了本文利用TM技术和生物信息学方法研究鹿茸生物学功效的研究方法是正确的,而且本文的研究方法适用于对鹿茸生物学功效的机制研究。
TM是指利用计算机,通过自动抽取和关联来自不同文本资源的信息,发现新的、以往未知的信息,显示其隐含的意义。TM的主要步骤包括信息检索、命名实体识别、信息抽取、知识发现和可视化表达,研究人员针对每一步骤都开发出了相应的数据库与软件工具,并免费提供使用[17]。目前生物医学TM已经进入应用阶段,越来越多的生物医学领域的专业人员开始应用TM方法来解决实际的生物学和临床问题。将TM应用于中医药领域,可以从大量的中医药古籍文献中发现隐含的知识,供中医临床研究和中药复方研发等,为中医药研究提供新的思路和方法。
生物信息学方法主要针对基因芯片数据、二代测序数据进行分析,揭示大量而复杂的生物数据所赋有的生物学奥秘[18],但基因测序、基因芯片,价格昂贵,人力、物力和财力受限,临床医学研究和转化方面应用相对不足[19],而利用TM方法可以从大量的文献中挖掘出研究所需的基因组学大数据信息,从而构建研究相关的二级数据库。将生物信息学分析方法与文献数据TM相结合,可以对中药基因组学进行分析,从基因组大数据角度深入研究中药药理机制及功效,使中药研究也步入精准医学时代[20]
本研究在对中药鹿茸的研究中运用生物信息学的方法,以鹿茸的表观调控机制为研究内容,利用TM得到的鹿茸药物基因组学数据,借助专业的基因数据库,对所收集的基因表达数据进行处理、分析,实现对文献研究的鹿茸主要药理作用的进一步验证,从基因表达谱角度对鹿茸的作用机制做出解释,建立了一种探索中药的药理作用机制、发现其药效作用机制的新方法。由于中医药数据复杂多样、TM技术具有局限性等致使数据缺失、不全,所以还有很多潜在的作用机制尚未发现。但是,这无疑也为中医药的研究提供了新的思路和方法,利用TM结合生物信息学分析方法,从大数据组学角度更深入立体地研究疾病和药物,有利于中医药的二次开发,为临床应用提供参考,促进中医药的现代化。
[参考文献]
[1]严铭铭.人参鹿茸中蛋白多肽的纯化及活性研究[D].长春:长春中医药大学,2007.
[2]黄晓巍,徐岩,韩冬,等.鹿茸多肽介导心肌干细胞分化对终末心肌分化基因ANP和MLC-2v表达的影响[J].吉林大学学报(医学版),2018,44(2):249-253,464.
[3]王大涛.鹿茸干细胞的鉴定以及鹿茸再生关键调控基因的筛选[D].北京:中国农业科学院,2017.
[4]张伟,刘佳,董振,李春义.利用qRT-PCR技术筛选鹿茸生长中心细胞与鹿茸干细胞内参基因[J].农业生物技术学报,2017,25(5):851-860.
[5]李朝政,许佳明,王烨,等.鹿茸多肽诱导心肌干细胞分化作用及对心肌细胞特征性MHC基因表达的影响[J].吉林中医药,2014,34(8):825-828.
[6]唐永华.大数据的高性能技术在文本挖掘中的应用探究[J].电子世界,2018,(3):69-70.
[7]卢学春,朱宏丽,迟小华.氨磷汀作用的研究进展[J].中国药物应用与监测,2008,5(1):48-51.
[8]杨光旭,魏雪苗,范红艳,等.鹿茸多肽药理学活性的研究进展[J].吉林医药学院学报,2017,38(2):126-129.
[9]王楠,高晓霞,代子彦,等.鹿茸药效物质基础、药理作用、临床应用及质量控制的研究进展[J].中草药,2017,48(22):4784-4790.
[10]牛维,孙志涛,曹学伟,等.单味药鹿茸调控大鼠骨关节炎软骨组织Smad2、3表达的研究[J].中国中西医结合杂志,2014,34(2):209-213.
[11]张洪长,张莹,刘明昕,等.鹿茸多肽对人骨髓间充质干细胞BMP-2和Runx2表达的影响[J].吉林大学学报(医学版),2015,41(3):491-495.
[12]周群.鹿茸多肽对促神经母细胞瘤细胞增殖及抑制其凋亡的相关实验研究[D].长春:长春中医药大学,2013.
[13]赵宇平,王慧,杨光,等.基于文本挖掘技术探索青蒿的药理作用规律[J].中国中药杂志,2016,41(16):3072-3077.
[14]Yang C,Cai W,Wen H,et al.Pilose antler peptide protects osteoblasts from inflammatory andoxidative injury through EGF/EGFR signaling[J].Int J Biol Macromol,2017,99(1):15-20.
[15]潘风光,孙威,周玉,等.梅花鹿鹿茸活性多肽的提取及免疫功效的初步研究[J].中国生物制品学杂志,2007,20(9):669-673.
[16]ChenJC,HsiangCY,LinYC,etal.Deerantlerextractimproves fatigue effect through altering the expression of genes related to muscle strength in skeletal muscle of mice[J].Evid Based Complement Alternmat Med,2014,2014:540-580.
[17]崔雷.生物医学文本挖掘:步骤与工具[J].中华医学图书情报杂志,2017,26(3):1-5.
[18]孙强.高通量测序数据中病毒基因组的生物信息学分析方法探索[D].北京:中国人民解放军军事医学科学院,2017.
[19]郭奕斌.基因诊断中测序技术的应用及优缺点[J].遗传,2014,36(11):1121-1130.
[20]陈健,陈启龙,苏式兵.中医药精准医疗的思考与探索[J].世界科学技术-中医药现代化,2016,18(4):557-562.
(收稿日期:2018-03-30 本文编辑:许俊琴)