GEOMATICS&SPATIALINFORMATIONTECHNOLOGY
Vol.37,No.7Jul.,2014大数据时代的空间数据挖掘综述
1
马宏斌,王
12柯,马团学
(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000)
要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题,
介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并摘
探讨了空间数据挖掘的发展趋势。指出了该类研究存在的不足。最后,关键词:大数据;空间数据挖掘;云计算中图分类号:P208
文献标识码:B
文章编号:1672-5867(2014)07-0019-04
SpatialDataMiningBigDataEraReview
MAHong-bin1,WANGKe1,MATuan-xue2
(1.GeospatialInformationInstitute,InformationEngineeringUniversity,Zhengzhou450000,China;
2.AirborneInstitute,Xiaogan432000,China)
Abstract:IntheeraofBigData,moreandmoreresearchersbegintoshowinterestindataminingtechniquesagain.Thepaperreviewmostunresolvedproblemsleftbytraditionalspatialdataminingatfirst.And,someprogressmadebyresearchesusingBigDataandCloudComputingtechnologyisintroduced.Also,theirdrawbacksarementioned.Finally,futuretrendofspatialdataminingisdis-cussed.
Keywords:bigdata;spatialdatamining;cloudcomputing
0引言
TB级乃至PB级。如中国遥感卫数据增长量达到GB级、
星地面站现在保存的对地观测卫星数据资料达260TB,并以每年15TB的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB以上。类似的传感器现在已经大量部署在卫
飞机等飞行平台上,未来10年,全球天空、地空间部署星、
的百万计传感器每天获取的观测数据将超过10PB。这预示着一个时代的到来,那就是大数据时代。大数据具“4V”特性,即数据体量大(Volume)、数据来源和类型有
繁多(Variety)、数据的真实性难以保证(Veracity)、数据增加和变化的速度快(Velocity)。对地观测的系统如图1所示。
在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支受到数据传输、存储及时效性需求的制持的数据量受限,
约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将
随着地理空间信息技术的飞速发展,获取数据的手
段和途径都得到极大丰富,传感器的精度得到提高和时数据量也随之激增。用于采集空空覆盖范围得以扩大,间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子
CT成像等各种宏观与微观传感器或设备,显微镜、也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、
地图数字化、统计图表等空间数据获取手段,还可能是来GPS,RS和GIS等技术应用和分析空间网络、自计算机、
数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLEGLASS和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(VolunteerGeographicInformation)的出现,使这些普通民众也加入到了提供数据者的行列。
以上各种获取手段和途径的汇集,就使每天获取的
收稿日期:2014-01-22
作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。
20
测绘与空间地理信息2014年
些问题。有的方法根本没有考虑空间数据的不确定性;有的方法考虑了随机不确定性;有的方法考虑空间数据的模糊性。还没有一种方法既能较好地考虑空间数据随机不确定性又考虑空间数据模糊性。
3)空间数据挖掘的智能化。目前空间数据挖掘已经但现有的空间数据挖应用了人工神经网络等智能算法,
掘系统的智能化程度比较低,还需要进一步提高。例如在此过程中依据数据的特点自动选择合适的挖掘算法,
不需要或者需要少量的人工干预。
图1对地观测系统
Fig.1Earthobservationsystem
“坟墓”“知识金块”。这一需求使得数据挖掘在数据变成
大数据时代的大数据时代再度受到人们的重视。同时,
研究方法和数据处理技术也给空间数据挖掘研究的发展
带来了新的机遇。
4)空间数据挖掘质量评价。空间数据挖掘的知识很多,但挖掘的程度如何、挖掘的效益如何等这些问题目前还没有进行研究。空间数据挖掘结果可能会发现数以千计的模式,其中有些模式是错误的,对于给定的用户,许多模式未必是感兴趣的,因此,如何提供给用户有用的、确定的和可表示性的知识是一个需要研究的课题。5)私有性、安全性与空间数据挖掘问题。知识发现可能导致对于私有权的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。当从不同角度和不同抽象级上观察空间数据时,数据安全性将受到严重威胁。这时空间数据保护和空间数据挖掘可能会造成一些矛盾的结果。
1传统空间数据挖掘存在的问题
19年8月于美国底特律市召开的第一届国际联合
人工智能学术会议上,首次出现了从数据库中发现知识(KnowledgeDiscoveryinDatabase,简称KDD)。空间数据挖掘研究比一般的关系数据库或事务数据库的数据挖掘
李德研究晚。1994年在渥太华举行的GIS国际会议上,仁院士第一次提出了从GIS数据库中发现知识(Knowl-edgeDiscoveryfromGIS,简称KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数
据变成无限的知识,精炼和更新GIS数据,促使GIS成为智能化的信息系统。从此,空间数据挖掘就成为数据库和信息决策领域的一个重要研究方向,虽然取得了一定的进展,但还有很多问题需要研究。空间数据挖掘的基本过程如图2所示。
1.2
问题:
空间数据挖掘技术研究
目前,在空间数据挖掘系统研究过程中存在以下1)空间数据集成问题。许多空间数据集中包含着复
杂的数据类型,如关系型数据、半结构化数据、非结构化复杂的空间数据对象、超文本数据和多媒体数据、数据、
时空数据、视频数据、声音数据等,局域网和广域网、国际互联网上更是连接了更多的空间数据源并形成了巨大、变化、分布式、分层、异构的空间数据仓库。具有不同数据语义,来自不同的数据源,随时都有可能改变的空间数对空间数据挖掘提出了新的挑战,目前并不存在一据集,
个强有力的空间能使数据挖掘系统有效地处理这些复杂的数据类型。
2)空间数据挖掘系统适用范围有限。国际上最著名Descartes和且有代表性的通用SDM系统有:GeoMiner,
ArcViewGIS的S_PLUS接口。以上SDM系统的共同优点
提供聚类、分是可以把传统DM与地图可视化结合起来,
但它们在空间数据的操作上实现方类等多种挖掘模式,
式不尽相同。Descartes是专门的空间数据可视化工具,它和DM工具Kepler两者联合在一起才能完成SDM任务。GeoMiner是在MapInfo平台上进行二次开发而成,系造成较大的资源浪费。S_PLUS的局限在于,它统庞大,
是一种解释性语言(Script),功能的实现比用C和C++直接实现要慢得多,所以只能在非常小的数据库中使用。
3)没有公认的标准化空间数据挖掘查询语言。虽然GeoMiner在OracleSpatialSQL语言的基础上设计了GMQL(Geo-MiningQueryLanguage),方便了空间数据挖但毕竟GeoMiner只是加拿大Simon大学开发的,原型掘,
图2空间数据挖掘的基本过程
Fig.2Thebasicprocessofspatialdatamining
1.1空间挖掘理论和算法研究
经过近年来的研究,空间数据挖掘继承和发展相关
的基础学科(如机器学习、统计学等)已有成果,并探索出独具特色的理论体系,但也存在一些问题,主要表现为以下几点:
1)多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
2)空间数据含有随机不确定性和模糊性,但目前的空间数据挖掘方法对空间数据的不确定性处理还存在一
第7期
马宏斌等:大数据时代的空间数据挖掘综述21
系统不够成熟,属于实验阶段,并未投入实际应用和后续开发。
4)空间挖掘方法和用户交互问题。由于不同的用户可能对不同类型的知识感兴趣,空间数据系统应该覆盖范围很广的数据分析和知识发现任务,在相同的空间数据上发现不同的知识,有必要提供交互式手段,开发不同的空间数据挖掘技术。而目前,空间数据挖掘知识发现系统普遍交互性不强,在知识发现过程中很难充分有效用户不能很好地掌控空间数据挖地利用领域专家知识,掘过程。
5)性能问题。许多现有的空间数据挖掘算法往往适合于常驻内存的、小数据集的空间数据挖掘,而如今大数据时代,大型空间数据库中存放了TB级的数据,所有的空间数据无法同时导入内存,所以有效性和可伸缩性是实现空间数据挖掘系统的关键问题。
在大数据时代,以上研究都会遇到数据密集(Datain-tensity)、计算密集(Computingintensity)、并发访问密集(Concurrentintensity)和时空密集(Spatiotemporalintensi-ty)的问题。海量的、分布的、异构的空间数据给数据挖掘系统的实现带来了难题。处理这些数据的复杂度很高,系统的存储能力、计算能力、并发访问能力很难达到要求,此时传统的单机服务器所能提供的有限资源往往不能满足要求,需要借助分布式计算技术来实现大规模空间数据的存储和并行计算。
图3基于云计算的数据挖掘系统设计Fig.3Cloud-baseddataminingsystemdesign性成果。基于Hadoop,中科院计算所研制了并行数据挖掘工具平台PDMiner。针对海量数据,分别从数据挖掘模式和方法等方面进行相关的研究。与此同时,中科院深圳先进技术研究院还研制了一套分布式数据挖掘系统AlphaMiner。以上这些云端数据挖掘系统只是实现了对事务性海量数据的挖掘,并没有针对空间数据进行设计,还无法高效存储、查询和挖掘空间数据。2)数据挖掘算法研究。在一些大学和研究机构,基于MapReduce模式的数据挖掘算法研究较多。如大连理但仅限于低维空工大学李钰研究了空间数据RkNN算法,
间数据。河南工业大学赵广才研究了基于改进K-means空间聚类算法,但存在模型简单化、聚类结果容易出现误差的问题。
2大数据时代空间数据挖掘进展
云计算(CloudComputing)是网格计算(GridComput-ing)、分布式计算(DistributedComputing)、并行计算(Par-allelComputing)、效用计算(UtilityComputing)、网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(LoadBalance)等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完善系统。基于云计算的数据挖掘系统搭建于“云”之上,透明地为各种终端的用户提供界面服务;为基于该系统开发的程序提供开放接口,用户可以通过其他应用程序调用系统提供的开放接口来间接地使用系统提供的各种服务。用户不需要了解系统是怎样实现的,也不需要担心系统的计算与存储能力,只需要选择合适的算法来处理数据,最终以任务的方式部署给系统区执行,得到数据挖掘的结果。基于云计算的数据挖掘系统设计如图3所示。
2.2国外进展
Apache组织近年来组织了Mahout开源项目,设计用于
云平台的数据挖掘算法。但Mahout项目目前还缺少数据
准备、数据展示和用户交互,还不能完全适合海量数据挖掘并行算法的性能评估。SpatialHadoop由明尼苏达大学计算科学与工程系AhmedEldawy和MohamedF.Mokbel两人开发,是对开源的MapReduce一个扩展,专门用来在A-pacheHadoop上处理海量的空间数据。SpatialHadoop内置高级空间查询语言、支持基本空间数据类型(点、矩形、多边形)和空间索引(分为本地索引和全局索引),可以高效进K最近邻分类、行一些空间操作(范围查询、空间合并)。但此项目还处在实验阶段,存在支持的数据类型有限、交互性不强、功能单一的问题。以上基于云计算的数据挖掘系统都是基于通用的云计算平台和大数据处理工具开发的,并未在底层设计时考虑到地理空间科学的特点,所以对于空间数据的处理,效果都不是很理想。而且大多基于Hadoop技术开发,无法完成数据流的实时挖掘处理。
2.1国内进展
1)数据挖掘系统研究。中国移动研究院研发的基于
BlueCarrier云计算平台的并行数据挖掘工具(BC-PDM,
basedParallelDataMining),采用云计算技术,实现海量数据的存储、分析、处理、挖掘。厦门大学数据挖掘研究中心与铭传大学资讯工程系、中华资料采矿协会合作——云开发的一套基于云计算的数据挖掘决策支持系统—端数据挖掘决策系统(MCUSmartScore)。该系统是厦门数据挖掘研究中心统计与数据挖掘云端系统的部分阶段
3结束语
从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从KB级发展到TB级甚至PB级海量数据;数据挖掘的对象也变得越来越复杂,从数
22
测绘与空间地理信息
2013,9(9):27-31.中国计算机协会通讯,
2014年
据库到多媒体数据和复杂社会网络;数据挖掘的需求也
聚类关联到复杂的演化和预测分析;挖掘过程中从分类、
的交互方式从单一的人机交互发展到现在社会网络群体
的交互。通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新的方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。但是,这些云计算平台自诞生之日起,就不是为处理空间数据而设计,所以它们都在底层对空间数据不敏感。2011年由YangChaowei(美国乔治梅森大学制图与地理信息
MichaelGoodchild(加利福尼亚大学制图系)等科学系),
《空间云计算:地理空间科学如何利用和塑造多位学者在
云计算》一文中,定义了空间云计算(SpatialCloudCompu-ting),是指由地理空间科学推动的,并经时空原则优化的云计算范式,它可以进行地理科学发现和在分布式环境中进行云计算。笔者认为,专门为地理科学设计的云计算才更适合空间数据的挖掘和处理,也是地理信息领域研究人员今后努力的一个方向。
[2]李国庆,.邬延辉.大数据时代的对地观测科学研究[J][3]黄斌,许舒人,蒲卫.基于MapReduce的数据挖掘平台设
.计算机工程与设计,2013,34(2):495计与实现[J]-501.
[4]李钰.基于MapReduce的空间数据RkNN算法研究
[D].大连:大连理工大学,2013.
[5]赵广才.基于云计算的空间聚类分析研究[D].郑州:河
2012.南工业大学,
[6]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构
.中兴通信技术,2013,19(1):及其关键技术研究[J]495-501.
[7]AhmedEldawy,MohamedF.Mokbel.ADemonstrationof
SpatialHadoop:AnEfficientMapReduceFrameworkfor.ProceedingsoftheVLDBEndowmentSpatialData[A]
[C].Italy:VLDBEndowment.2013:1230-1233.[8]ChaoweiYang,MichaelGoodchild等.Spatialcloudcom-puting:howcanthegeospatialsciencesuseandhelpshapecloudcomputing?[J].InternationalJournalofDigitalEarth,2011,4(4):305-329.
参考文献:
[1]王树良,丁刚毅,钟铭.大数据下的空间数据挖掘思考
[J].中国电子科学院学报,2013,8(1):10-16.
[编辑:张曦]
(上接第15页)
3结束语
4)对于处在城市地价峰值的CBD区域而言,更有缓解土地稀缺、提高单位土地收益和改善空间环境的意义。
城市地下空间的利用与规划对于现代城市建设具有
是通过开发利用地下空间在一定程度上对地重大意义,
上功能开发的补充和辅助。具体而言,就是在城市功能
,“腾出”聚集区,将部分设施建在地下环境良好的地面空间用于安排人们的日常活动。建立本系统就是为探索一条利用信息化手段管理广州市逐年增加的地下空间各类
数据资料之路,并开发有针对性的功能来利用这些数据,为城市规划、建设服务起到以下作用:
1)是扩充城市空间容量,调整城市土地利用强度分使城市空间资源利用有序化的重要手段;布,
2)是建立现代化的城市综合交通体系以及城市防灾救灾综合空间体系的重要途径;
3)是城市基础设施现代化建设的最主要方法[4];(上接第18页)
参考文献:
[1]朱合华,.岩石力学与李晓军.数字地下空间与工程[J]
2007,26(11):2277-2288.工程学报,
[2]张芳,朱合华,吴江斌.城市地下空间信息化研究综述
[J].地下空间与工程学报,2006,2(2):306-310.[3]黄铎,梁文谦,张鹏程.地下空间信息化管理平台系统框
.地下空间与工程学报,2010,6(5):3架研究[J]-9.
[4]江贻芳,.河南王勇.城市地下空间信息化建设探讨[J]
2006,25(5):377-382.理工大学学报:自然科学版,
[编辑:胡雪]
参考文献:
[1]秦凯,“GIS二次开发”杨杰.普通高校课程实践教学探
J].南阳师范学院学报,2007,6(6):84-85.讨[
[2]蔡菲,孙英君,单宝艳.地理信息系统专业软件开发能力
J].测绘通报,2008,(6):74-76.的培养[
[3]党安荣,刘钊,贾海峰.面向应用的高校GIS教学探索与
J].地理信息世界,2007,2(2):9-14.实践[
[4]李恒凯,陈优良,刘德儿.GIS专业学生软件开发能力培
J].江西理工大学学报,2009,30(6):82-84.养的探讨[
[5]杨斌,陈廷方.GIS二次开发课程与产业型人才培养模
J].测绘工程,2012,21(4):-92.式的探讨[
[6]张新长,赵元,张启春.我国大学GIS课程教学改革的思
J].地理信息世界,2003,1(4):23-26.考与研究[
[7]李海英,.淮海工彭红春.遥感与GIS教学改革探讨[J]
2011,9(22):87-.学院学报,
[编辑:张曦]
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- pqdy.cn 版权所有 赣ICP备2024042791号-6
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务