基于文化旅游的大数据分析管理系统研究
2023-02-09
来源:星星旅游
山西科技 文章编号:1004—6429(2017)04—0060—03 SHANXI SCIENCE AND TECHNOLOGY 2017年第32卷第4期 收稿日期:2017—04—24 基于文化旅游的大数据分析管理系统研究水 孙亚芳,张奇 (山西泰森科技股份有限公司,山西太原,030006) 摘要:针对文化旅游行业数据的特性,对文化旅游数据的采集、整理和 分析进行了详细的研究,提出了基于文化旅游的大数据平台,该平台主要 包括数据采集系统、存储系统和智能分析系统等。 关键词:文化旅游;大数据;数据采集系统;存储系统;智能分析系统 中图分类号:C931.9 文献标识码:A 随着传统产业结构的调整和新技术的应用,文化 旅游产业已突破传统的产业模式,逐步演变成为一个 多方位、多层面、多维度的新型产业。大数据时代的到 来,文化旅游景区、创意、相关企业、用户实时的数据采 TaoBao等拥有海量数据的IT企业提出。 Google File System(GFS)是Google自主开发的文 件系统,它是构建在大量廉价服务器之上的一个可扩 展的分布式文件系统,采用主从(Master—Slave)结构,通 过数据分块、追加更新(append—only)等方式实现了海 集,导致空间位置信息出现了爆炸式的增长和积累,传 统的索引结构已不适用于大规模的数据空间,分布式 量数据的高效存储。BigTable是Google自行研制的非 关系型数据库,是一个稀疏的、分布式的、持久化存储 的多维度排序表。BigTable的设计目的是可靠地处理 PB级别的数据,并且能够部署到上千台机器上。 并行计算使得索引的建立复杂化。文化旅游数据已形 成一个多元化的海量数据空间,这些海量的数据不仅 需要存储、共享,同时也需要进行分析、对比、挖掘,找 出规律和价值,应用到文化旅游整个行业中。文化旅游 大数据的核心在于数据价值,如何从大数据中获取有 MapReduce是Google早年提出的一种软件架构,主要 用于大规模数据集的并行运算,其核心思想就是分发 价值的信息是大数据分析处理的核心内容。传统的数 据分析手段有数据挖掘、机器学习、统计分析。在大数 据的挖掘技术方面,大多采用关联分析对数据进行搜 索,并从中找出概率较高的模式,或者通过数据的聚类 和分类,分析文化旅游数据的相似性,为决策者提供决 策支持[ 。 任务(Map)与聚合结果(Reduce)两部分组成。 HayStack是Facebook为了应对海量图片存取而开 发的文件系统。通过多个逻辑文件共享同一个物理文 件、增加缓存层、部分元数据加载到内存等方式有效地 解决了Facebook海量图片存储问题。 Tao File System(TFS)是淘宝推出的高可扩展、高可 用、高性能、面向互联网服务的分布式文件系统,主要 针对海量的非结构化数据。它采用了HA架构和平滑扩 1 现有的大数据分析管理系统 多元异构海量数据的处理,用以往的文件系统、关 系型数据库系统等结构化数据处理方法已不能达到更 好的效果,所以大数据的处理技术在不断完善。现有可 容,保证了整个文件系统的可用性和扩展性。同时扁平 化的数据组织结构,可将文件名映射到文件的物理地 址,简化了文件的访问流程,一定程度上为TFS提供了 良好的读写性能。 用的大数据分析管理系统主要是由Google、Facebook、 基金项目:国家科技支撑计划项目“三晋文化旅 游产业集聚关键支撑技术研究及应用示范”(项目编 号:2015BAH37F00)。 6O Hadoop是由Apache基金会所开发的分布式系统基 础架构,它实现了在大量计算机组成的集群中对海量数据 进行分布式计算。Hadoop框架中核心设计是HDFS、 孙亚芳,张奇綦fr文化旅游的大数据分析管理系统研究 本刊E-l11ail:sxkjzzs@l 63 {)Ill 信息工作研究 HBase、MapReduce。HDFS提供了海量数据的存储,HBase 游空间信息与游客行为信息进行合理的组织,使得常 用的查询能够高效执行是关键。例如:某个著名景点周 围最近后个宾馆查询,需要系统提供一种高效的索引, 优化该查询的运行,在减少系统开销的同时加快查询 响应速度,为用户带来好的体验。因此,对文化旅游大 数据管理和分析的技术支撑在于提供高效的数据组织 提供了分布式非结构化数据库,MapReduce提供了对数 据的计算。Hadoop是当前处理大数据最流行的平台,很多 大数据处理算法都是在Hadoop基础上构建的。 2基于文化旅游的大数据分析管理系统 2-】 文化旅游数据库建设 和访问算法。图1为大数据分析管理系统技术架构图。 文化旅游数据包括空间数据、游客数据 和后台数据。空间数据包括文化旅游景区的 空间数据、创意文化旅游数据,游客数据包括 游客的智能设备交互数据、主动采集分享数 据,后台数据包括旅游平台的数据。数据库建 设是指对这些海量多类型数据的获取与分析 并设计成规范的数据库。 数据库建设包括研究制定文化旅游数据 库和元数据库的内容标准,制定旅游行业数 据分级规范和旅游数据分类规范,进行数据 采集、编目、分级,实现旅游数据分类归档、授 权应用。对来自文化旅游GIS和文化旅游资 源数字化采编和发布系统的所有数据进行分 类整理,建立文化旅游大数据资源库;文化旅 游资源覆盖区域范围内的所有信息点、参与 文化旅游的旅游平台服务器采集数据以及文 化旅游产业链上的运营支撑系统、地理信息 系统、多个异构下的业务系统采集数据。这些 图I 大数据分析管理系统技术架构图 数据包括文化产品信息、旅游景点信息、酒店信息、商 店信息、服务信息等,涵盖了文档、文本、图片、XML、 HTML、报表、图像、音视频、3D等。 2.2文化旅游大数据分析管理系统设计 大数据分析管理系统采用Hadoop构建,主要分为 采集、存储、分析到呈现4层架构,同时利用业务架构 大数据实时采集系统:数据采集通过定制的采集 服务及接口配合Flume的Source组件,能够将数据进 行批量有效的获取,然后将其存入到数据缓存服务中, 利用内存存储及磁盘存储两种方式,将采集的数据暂 时存储在客户端。在往集群中心服务器传输过程中利 用数据标准化组件DSC定制标准化接口,将数据标准 将Hadoop结合起来。文化旅游大数据分析管理系统可 以将文化旅游产业的数据组合起来形成行业型大数据 平台,主要包括大数据采集系统、大数据实时存储系 统、大数据智能分析系统。 对基于整个平台上的用户活动数据、交易数据、参 与数据进行整合的管理和分析。利用专业化的技术在 合理的时间内撷取、管理、处理并整理成为具有使用价 值的数据资料。 用户数量和旅游空间对象都是海量的,如何将旅 化为 n、xml、txt、db等各种存储格式,再南客户端本 地的数据集群组件集合数据,最终将数据进行清洗、脱 密等步骤将数据推送到集群中心,由集群中心进行分 布式数据存储。 大数据实时存储系统:存储时由数据集群主机发 起指令,首先将数据进行过滤分组,对其进行实时存 储、批量存储、流式存储3种方式的存储,同时通过与 HBase配合,将表结构以配置文件的形式存放在云服务 器巾,再利用HBase进行增加、修改、删除、查询等基本 61 孙亚芳,张奇基于文化旅游的大数据分析管理系统研究 本刊E—maihsxkjzzs@163mm 信息工作研究 操作。在利用数据时,结合Hive对其进行SQL语句的 查询和检索,方便编程与使用。 大数据智能分析系统:系统能够配置流式数据计 算和内存数据计算两种方式,两种方式都需要相关的 的多层次细节LOD模型技术、纹理优化技术等。对于 近景物体模型根据其离视点的远近,分3个等级:精细 模型、标准模型、简单模型。根据人的视觉特征,在离视 点15 m以内的选择精细模型显示,而离视点15 m一25 响应组件。流式计算以接收、弹出的方式将数据响应并 开始分析,分析过程首先将配置、算法都注入算法组件 中,利用Storm框架进行流式分析,并输出计算结果。 内存计算在响应过程中要进行内存控制,将数据有序 地存放在内存中,然后结合配置、算法,将数据通过 Spark框架进行分析,最后输出计算结果。 2-3 文化旅游大数据分析管理系统的核心技术 m的选择标准模型显示,离视点25 m以上的选择简单 模型显示。除了场景的层次细节模型技术外,纹理也是 用来简化复杂几何体的有效方法,这对实时交互绘制 系统来说是非常重要的。纹理数据是一种主要的场景 数据,兼顾纹理的存储效率和纹理映射(变换)的耗费, 采用多幅图像压缩成单幅纹理或消除细小纹理等方 法,均可提高纹理内存的使用效率。 数据的索引技术:文化旅游大数据包括空间数据和 文本数据。文本索引技术采用了倒排索引的方法,该方 3结语 本文对文化旅游大数据的研究将有力地推动文化 旅游产业链的发展,进而带动旅游行业的吃、住、行、游、 法是海量文本检索一种高效的索引方法,是对文本数据 存储位置的映射。空间索引技术通过研究将用正交的网 格对空间区域进行划分,对空间中的任意对象利用相应 购、娱企业的发展。限额以上连锁、批发、零售企业,限额 以上住宿、餐饮和景点,以及艺术表演团体,文化馆、公 共图书馆、博物馆等文化产业链企业的收入将呈现不同 程度的增长。大数据分析管理系统不仅针对本文研究的 文化旅游行业,同时适用于其他类似数据结构的行业。 参考文献 的映射函数将该对象映射到具体的网格单元中,把倒排 索引和空间网格划分结合起来,形成倒排网格索引,并 实现该索引结构在MapReduce分布式模型上的算法。 多维度大数据场景建模数据的压缩技术:重点针 对采集的数据存在不同程度数据冗余的问题,研究空 间数据的无损压缩和有损压缩技术,设计高效、高压缩 比的压缩算法,实现对采集到的空间数据有针对性地 [1]陈海迪.大数据在智慧旅游中的应用研究[J_1.当 代经济,2015(29):38—39. 压缩,保证数据以较低的冗余度进行计算、存储和传 输,同时对压缩算法的压缩比和复杂度指标之间的关 系进行定量研究。还研究了基于资源受限终端多数据 [2]杨攀,朱庆.面向智慧旅游的游客数据库设计与 实现[J].测绘,2016,39(4):164—168. (责任编辑:薛培荣) 作者简介:孙亚芳,女,1981年生,山西泰森科技 股份有限公司工程师;张奇,男,1986年生,山西泰 的使用,保证实体模型逼真的情况下,简化模型。另外, 尽量减少网络数据传输量,加快用户查询的能力,提高 可视化速度,加快响应时间。 文化旅游景区展示数据优化技术:研究多分辨率 森科技股份有限公司高级工程师。 Research on Large Data Analysis and Management System Based on Cultural Tourism SUN Yafang,ZHANG Qi ABSTRACT:According to the characteristics of data in the industry of cultural tourism,this paper studies the collection, storage and analysis of cultural tourism data,puts forward the large data platform of cultural tourism,the platform mainly includes data acquisition system,storage system and intelligent analysis system. KEY WORDS:cultural tourism;large data;data acquisition system;storage system;intelligent analysis system 62