• QQ空间
  • 收藏

StephenJ.Song与汤步州齐聚YOCSEF深圳,论道AI与医疗健康

| 2020-08-27

[ 导读 ] 9月5日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳共同承办的学术交流会在北大深圳研究院举办。生物信息学科学家Stephen J. Song和哈尔滨工业大学副教授汤步州做了主题演讲。

图片来自“123rf.com.cn”

2018年9月5日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳(CCF Young Computer Scientists & Engineers Forum,简称为YOCSEF)共同承办的学术报告分享交流会在北京大学深圳研究生院举办。受YOCSEF深圳主席卢昱明之邀,负责本次活动的报道。

本次交流会上,生物信息学科学家Stephen J. Song和哈尔滨工业大学计算机科学学院副教授汤步州分别就 《人工智能在生药大数据中序列标注问题的关键应用》、《中国临床自然语言处理:研究现状与挑战》两大主题做主题演讲。

据了解,YOCSEF是由中国计算机学会(CCF)于1998年创建的系列性学术活动,总部设在北京,已在上海、杭州、长沙、成都、苏州、西安、深圳、南京、昆明等26个城市建立了分论坛,每年活动数百次,活动形式主要包括:专题论坛、学术报告会、学术评价、评奖、扶贫助教等。

AI+生物信息学,助力生物蛋白序列标注

广义的生物信息学是一门致力于开发新的方法或软件以帮助研究者加深对生物学数据理解的交叉学科,涉及计算机、生物学、数学与统计学以及工程学等学科门类, 重点在于集成各种算法和异构数据源的计算框架/方法/平台。从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程。

目前,功能被充分表征的基因产物(蛋白)的数量与根本没有功能注释的基因产物(蛋白)的数量之间的差距越来越大。确定蛋白质功能的实验技术往往是昂贵且耗时的。当AI与生物信息学相碰撞时,基于机器学习的人工智能可以应用到预测蛋白质的柔性和无序区域、预测蛋白酶特异性靶切割位点、预测细菌分泌效应蛋白、预测酶催化残基、预测单个氨基酸多态性的功能影响等多个方面。

在会上,Stephen J. Song博士介绍了他们开发的一种名为Bastion4的生物信息学方法,主要采用了基于多种机器学习分类器集成学习算法,用来预测T4SE序列。一般的机器学习的训练方法包括训练集、测试集和验证集,Bastion4的数据集包含了390个阳性T4SE序列和1112个阴性非T4SE序列,期间采用了CD-HIT程序用于去除高度同源的序列以避免模型训练中的潜在偏差。

据了解,这种新算法的好处在于:

(1)与通过组合各种特征训练的单个模型相比,使用单个特征训练的单个模型的集成模型显着地改善了预测效果;

(2)基于具有不同单一特征的集成学习模型预测的多数表决策略,预测结果更为稳定和准确。

Stephen J. Song表示,基于机器学习的框架通常可用于基于序列数据解决其他蛋白质、 DNA 、 RNA序列表征问题。

此外,Stephen J. Song还提出了一种称为PREvaIL的新计算方法,该方法结合了互补的序列、结构以及网络特征,用于鉴定具有3D结构信息但尚未在功能上表征的结构基因组学靶蛋白的功能残基。

Stephen J. Song是澳大利亚蒙纳士大学生物医学发现研究所癌症与感染与免疫项目的高级研究员和团队负责人,是计算生物医学、数据挖掘、机器学习和蛋白质组学的生物信息学和数据科学家。

当回答记者如何解决模型的泛化问题时,Stephen J. Song表示,这与研究的数据集和所选择的实验方法有关,一些具备特定属性的样本会相对易于检测,而另外一些则难以被检测出来。 

NLP助力临床医疗文本处理

随着电子病历的迅速普及和医疗大数据时代的到来,自然语言处理技术(简称NLP)在生物医学领域迅速发展,已经成为当前的研究热点。所谓NLP技术,就是用机器来处理人类赖以交流的书写文字和口头语言。它利用语言学和统计学,加上机器学习,以便在自动化服务中对语言进行建模。

目前,临床医学信息大多以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理,如句子的分词,实体识别,实体的归一化和链接等,这些非结构化的医疗文本可以被转化为包含重要医学信息的计算机可以进行计算的结构化数据,有助于科研人员从结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。

在交流会上,汤步州主要分享了医疗领域中的自然语言处理问题及相关技术,通过自身在中文临床医疗自然语言处理方面的一些研究工作,探讨中文临床医疗文本处理当前所面临的问题与挑战。

汤步州是深圳哈尔滨工业大学计算机科学学院副教授,同时也是中国计算机学会会员,人工智能学会青年工作委员会委员。近年来,他在重要国际期刊和会议上发表学术论文近60篇,其中SCI/EI检索论文40多篇,他的研究方向主要包括机器学习,数据挖掘,自然语言处理,信号处理和医学信息学等。

目前汤步州已经开发了中文Clinical NLP工具,可以做到分词、词性标注、临床医疗实体识别、时间信息抽取和标准化分离以及临床医疗实体标准化,后续还会进一步开发临床医疗实体及属性抽取、隐私信息抽取等。

2020-10-14
电子商务 平均1400元?!万代公布岛国中小学生压岁钱调查报告
又到了一年即将结束新年到来之时,万代今天公布了关于《日本中小学生压岁钱意识调查》报告,结果出炉,2018年的岛国中小学生压岁钱平均数为24424日元(约1400... <详情>
2020-10-14
电子商务 小米6双十一特供版:售价或为2299元 内存为4GB
­  在发布之后,小米6标配6GB内存着实让人有点意外。毕竟在最初的传闻中,小米6的配置都是4GB内存起步。­  不过,虽然小米6最终标配了6G... <详情>
2020-10-14
电子商务 科大讯飞回应被列入实体名单:不会影响日常经营 将继续向客户提供产品
北京时间10月8日,28家公司被列入“实体名单”,美国商务部表示,这些公司将受到贸易管制,禁止与美国企业合作。 其中,上市公司、人工智能... <详情>
2020-10-06
电子商务 移动警务“云-端”技术解决共享问题
5月22日至25日, 2012第六届中国国际警用装备博览会将在京举办,这是一场公安行业的盛宴,各大知名企业齐聚一堂,展现自己最新的得意之作。深圳市世纪安软信息技... <详情>
2020-10-06
电子商务 提升效率才是转型的关键(上篇):服务营销效率
这几天在杭州出差和阿里交流,一同前往的还有三个第一次去阿里的同事。交流结束后,我问大家的感受。所有人一致的答案就是效率太高了,开一次会就把我们在传统企业要开几天... <详情>
2020-10-06
电子商务 2050年打个“飞的”上班不是梦
  想象一下,下班前在手机上预约一架飞行汽车,然后从就近的楼顶上车,冲上云霄告别脚下的拥堵,不用搜寻畅通路段也无需为停车烦恼,就能快速抵达目的地。这一幕,是不是... <详情>