明升手机版(中国)

作者：贺林来源：发布时间：2020/1/19 13:07:36

选择字号：小中大

贺林：数据“活”起来才能产生价值

明升中国app院院士贺林

随着新一代基因测序技术飞速发展和高通量实验等技术突破，生物明升手机版数据从以基因组为代表的数据量发展到PB 甚至 EB 量级时代。但是这些数据的来源十分分散，导致质量参差不齐，又没有标准化的管理模式，难以有效的整合与分析。此外，由于这些数据没有汇交的机制，从而导致了数据的大量流失，重要数据缺乏安全保障。具体而言，有以下几点。

困境一，数量巨大、增长迅速。以测序仪为例，一台高通量的测序仪每天大概产生100GB的数据。人群队列研究、分子流行病学研究产生了大量长时间、广空间的数据，基因组、转录组、表观遗传组等海量明升m88app组学数据呈指数级的增长。

困境二，质量控制困难，难以标准化与结构化。随着数据规模的增加，传统的数据模型和数据组织方式，已经无法满足海量数据的结构、数量快速增长以及数据结构不断变化的管理需求，难以按照实际情况动态调整。

困境三，临床数据分散，难以高维度多层次交汇。中小型研究团队利用自身的数据采集能力和整合能力，建立了大量的种类繁多、规模悬殊、质量参差不齐的数据库和知识库。数据维度越来越高，需要更加准确的降维方法。

困境四，数据没有安全保障。欧美等发达国家和地区针对数据安全管理与个人隐私保护，均建立了相对成熟的法律体系与监管框架。我国至今设施建设仍未精准落地。

困境五，数据无共享平台，难以与国际交流。未来，我们需突破传统的以主题为基础建设的数据库的局限性，实现以搜索引擎为核心的数据跨库整合，更好地满足用户一站式的数据共享需求。

困境六，生物信息分析流程复杂，准确率低。目前生物信息流程分析缺乏规范和标准，当前的分析流程多有一定的局限性和较高的错误率，特别是在序列拼装方面，需要通过相关参数的调整或软件的升级提高分析的精度。

在遗传咨询这一领域，正在蓬勃发展的临床决策支持系统（CDSS）通过收集各医院信息化子系统的临床数据，将疾病的表征、患者体征和治疗方式的数据存储起来，建立特定疾病的知识库，并根据数据的智能分析，制定有效的诊疗路径，以帮助医生进行决策。

对于海量的数据，我们应该采取新的仓储式的数据仓库模式，在底层数据结构上以整合为导向，按照样本、宿主、环境等信息，形成弹性的数据结构，支持数据结构动态调整，为后期数据集成与整合工作奠定基础。在人才培养方面，可以开展校企合作等模式培养出社会需要型人才，以达到人尽其才，物尽其用的目的。

相关专题：生物明升手机版大数据之困