摘 要:随着大数据时代的热潮来袭,运用大数据的思维及技术解决生物医学工程领域的问题,已经成为时下的研究热点。本文通过对大数据的概念以及特征进行分析,结合当前生物医学工程中大数据的存储和分析方法,对生物医学工程的发展趋势进行了展望。
关键词:大数据;生物医学工程;发展趋势
一、生物医学工程与大数据的密切联系
1.生物医学工程的基本概念及其应用技术
生物医学工程是综合生物学、医学、电子学、材料学和工程学的理论和方法而发展起来的新兴边缘学科,其基本任务是运用工程技术手段,研究和解决生物学和医学中的有关问题。其主要应用技术包括生物医学传感器技术、信号检测与处理技术、基因芯片、医学影像处理技术、临床生化检测技术等。
2. 生物医学工程数据的特点
构成生物医学工程的数据主要来自对生物学、医学、工程学这几个方面的采集,因此数据形式呈现多样化,主要有以下5个特点:①数据量庞大。数据来源的多样性使得所搜集到的数据繁杂且呈现出不同形式。②数据异结构。采集到的非结构化数据不方便用数据库二维表结构来表达。③数据无法量化。数据无法用具体的数学公式或者表达式来表示其结构及特征。④数据冗余无意义。搜集到的数据并非都是有意义且有用的。⑤数据准确性较低。进行生物信号数据采集时很难完全避免噪声干扰,而噪声往往会造成数据误差。
二、生物医学工程中的数据挖掘方法
1.基于大数据大量、多样特征的 NoSQL数据库
NoSQL(NoSQL=Not Only SQL,它打破了关系型数据库长久以来占主导地位的局面,是快速成长起来的非关系松散数据存储类型。这种数据存储不需要事先设计好的表结构,它也不会出现表与表之间的连接操作和水平分割。
相对于铺天盖地的关系型数据库的应用,NoSQL提倡非关系数据存储,无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。例如,生物医学工程技术在获取数据时,得到的往往是大量的且非结构化的数据,这时大量且非结构化的数据的存储显得极其重要。
2.基于大数据高速、价值特征的Hadoop技术
Hadoop是一个能够对大量数据进行分布处理的软件框架。它包含两个基本组成部分:一个是作为主要存储系统的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System),它复制和分发源数据块到服务器集群的计算节点, 由一个或多个应用程序对其进行分析;另一个是由MapReduce创建的一个软件框架和编程模型,用于编写能够并行处理大量分布式数据的应用程序。