( 2012至 2013 学年度 第 2 学期)
学 生 姓 名:
学 号:
院 系:
班 级
提 交 日 期:
大数据综述
摘 要:大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据时代已经对我们的生活已经产生很多影响,同时面临着机遇和挑战。 关键词:大数据
1 大数据时代的发展
1.1大数据的概念
“大数据”一说就在近几年崭露头角,并首先为全球各大IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”[1]。 1.2大数据市场的发展
社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;基于数据分析的营销咨询服务也正在兴起。这些专注于数据挖掘和数据服务的公司将成为电子商务乃至互联网第三方服务业中的新兴力量。数据背后潜藏着巨大的商业机会,不同公司在不同维度的数据分析和服务正创造出新的商业模式 [2]。 1.3大数据带来的挑战
大数据需要专业化的技术和管理人才。大数据解决方案的设计和实施,需要专业化分析复杂数据集的工具和技术。大数据的有效应用需要解决大容量、多类别和高时效数据处理的问题。传统数据库处理不了数TB级别的数据,也不能很好支持高级别的数据分析数据。大数据时代,数据价值越来越大,面对海量数据的收集、存储、管理、分析和共享,信息安全问题成为重中之重[3]。科维洛特别提到 可供挖掘的非结构化数据数量巨大极其丰富多变,这为企业和社会创造了巨大的机会 不过同样是这些数据,也为对手提供了新的攻击载体[4]。 1.4大数据的时代特征
从各种各样类型的数据中,快速获取有价值信息的能力,这就是大数据技术,明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。从数据的角度来讲,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及布遍全球各个角落各种各样的传感器,无一不是数据来源或者承载的方式[5]。
2 大数据技术
2.1大数据量遥感图像的薄云去除
大数据量图像重采样,抽样就是从总体中合理抽取一定量的样本 ,并依据这些样本对总体数据进行合理地推断。样本必须与总体尽可能一样,两者保持大致相同的分布。薄云识别,对于一个大数据量的遥感图像,为了提高图像处理的速度 ,一个有效的方法就是仅仅对有云的区域进行薄云去除 ,不改变无云区域的性质[6]。 2.2基于格网划分的大数据集 DEM 三维可视化
在 GIS 中 TIN 被看作为表达 DEM 的最佳方式, 原因在于TIN不仅数据量小, 且表达了一定的拓扑结构. 但TIN需要消耗较大的内存空间, 计算量大, 且需要较多的预处理工作。规则格网结构则要简单得多, 且在实际生产中 DEM 往往使用规则格网表达, 常见的是基于点阵的栅格表达方式, 一般使用位图格式进行存储. 但规则格网所占存储量较TIN 大, 且不具有拓扑结构[7]。
3 大数据的应用及影响
3.1大数据时代新闻业面临的新震荡
大数据技术渗透到新闻生产的核心环节,大数据技术重树新闻质量标杆,大数据技术进一步提升受众反馈的价值,大数据技术拓展用户分析广度与深度。在大数据技术等因素的推动下,新闻业务将实现一些方向性调整,如趋势预测性新闻和数据驱动型深度报道分量的增加,数据呈现、分析与解读能力的提高,新闻生产中跨界合作的增强[8]。 3.2图书馆的“大数据”
可以帮助图书馆建立各类知识服务及业务建设的风险模型、图书馆用户流失分析及价值分析、帮助图书馆建立新型知识服务引擎、通过分析资源的状况来预测可能的资源故障、帮助建立更加智能的网络化信息资源智能组合方式、对多维度大数据的智能分析及智能辅助决策等[9]。
3.3大数据在公共交通中的应用
基于大数据的智能交通数据处理体系流程依次为:(1)输入交通数据。(2)数据中心对实时交通流数据进行提取,促进数据交换中心之间对数据进行交换和处理。(3)通过基于云计算的云存储来对数据进行储存, 将大数据集成起来。(4)控制中心将这些大数据在电脑地图上以不同色彩来呈现[10]。 3.4大数据背景下商务管理
现代企业的生产管理与商务决策在很大程度上依赖于社会媒体、网民群体、上下游合作企业以及竞争对手所构成的“网络生态系统”,并逐渐呈现出纵向整合和横向联合的两种新发展趋势.快速积累的海量数据使企业难以及时洞察出有用的信息来作出营销决策,但同时也为企业营销带来前所未有的机遇[11]。
3.5大数据时代的美国信息网络安全新战略
美国的战略是:开发能对大量数据进行收集、存储、维护、管理、分析和共享的核心技术;扩大从事大数据技术研发利用工作的人员数量。数据是信息化时代的“石油”。未来国家的核心竞争力将很大程度上依赖将数据转化为信息和知识的速度与能力,而这种转化速度和能力,实际上则取决于大数据方面的技术能力[12]。
4 大数据的机遇和挑战
4.1大数据分析机遇
关系数据库和MapReduce 混合技术研究:关系数据库和MapReduce 技术各有优缺点, 如何融合关系数据库和MapReduce 技术, 设计同时具备两者优点的技术架构 也是大数据分析技术的研究趋势。继续改进MapReduce 的性能, 提供数据分析的实时性: MapReduce 是面向批处理的并行计算模型, 其性能与关系数据库相比仍然有一定的差距[13]。 4.2大数据互联网机遇
在互联网领域,对大数据的分析可以为商家制定更加精准有效的营销策略提供决策支Facebook 、eBay等网站正在对海量的社交网络数据与在线交易数据进行分析和挖掘,从而提供点对点的个性化广告投放。在公共事业领域,大数据也开始发挥重要作用。联合国也推出了名为全球脉动(Global Pulse)的新项目,希望利用大数据来促进全球经济发展[14]。 4.3大数据时代的挑战
“大数据”时代同时提供了挑战。除了诸如计算机病毒、盗版软件以及对服务器的恶意攻击等这些熟悉的问题之外。这也就意味着,在一个给定的很短的时间内,把公众的真正看法与网络上各个群体恰好正在表达的观点区分开来,将会变得更加困难。另外网络“大众性”的特点可能是不合时宜的,因而需要重新进行定位[15]。
4.4大数据管理的挑战
大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化,且大数据复杂的分析过程和难以理解的分析结果限制了人们从大数据中获取知识的能力。关系数据库产品的成功离不开以系列为代表的测试基准的产生[16]。
5 大数据的缺陷
数据可以用来理清难以描述的复杂局面,并赋予其意义;数据还可以弥补人们的直觉,我们总是对直觉过于自信,以至于看不到现实;另外,数据还能在很大程度上降低欲望对于我们认知能力的扭曲程度。正如文献[17]指出,我们的生活是通过数据来裁决的。
6 大数据的前景展望
6.1大数据研究:未来科技及经济社会发展的重大战略领域
目前表示数据的方法,不一定能直观地展现出大数据本身的意 大数据的去冗降噪技术。
义大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。大数据的获取、通信、存储、管理与分析处理都需要消耗大量的能源[18]。 6.2架构大数据
数据移动代价过高. 不能快速适应变化。其应对变化的方式是对数据源到前端展现的整个流程中的每个部分进行修改, 然后再重新加载数据,导致其适应变化的周期较长。巨量数据与系统的数据处理能力之间将会产生一个鸿沟: 一边是至少 PB 级的数据量,另一边是面向传统数据分析能力设计的数据仓库和各种 BI数据量[19]。 6.3结论与展望
我们要在大数据环境下面向技术创新管理的双向决策模型,整合传统的“目标驱动决策”与大数据环境下的“数据驱动决策”理念及方法,分别从“技术评估与预测”及“技术监测与预警”两个方面构建适用于我国技术创新管理的新方案,应对大数据环境,有效并快速提取知识与观点的能力,并最终促进我国核心技术创新与升级[20]。 参考文献:
[1] 曹磊,陈薇娜,缪其浩,陈超.大数据:数字世界的智慧基因[J].上海:文汇报,2011. [2] 陈宪宇.大数据的商业价值[J].浙江:企业管理,2013.
[3] 严霄凤,张德馨 .大数据研究 [D],工业和信息化部计算机与微电子发展研究中心(中国软件评测中
心),北京 ,2013.
[4] 2013RSA信息交全大会传真 ,大数据作为革命性的解决方案应对信息安全的全面挑战 [J] , 2013. [5] 夏欣.电子商务潮流下大数据的应用及发展[J],武汉:决策信息,2013.
[6] 谢华美,李荣艳,田艳琴,别荣芳.基于大数据量遥感图像的薄云去除[J].北京:北京师范大学学报,
2006.
[7] 孙敏,薛勇,马蔼乃.基于格网划分的大数据集DEM 三维可视化[J].北京:计算机辅助设计与图形学
学报,2002.
[8] 彭 兰.“大数据”时代”:新闻业面临的新震荡[J].北京:编辑之友,2013.
[9] 樊伟红 李晨晖 张兴旺 秦晓珠 郭自宽.图书馆需要怎样的“大数据”[J].桂林:图书馆杂志,2012 [10] 陈美.大数据在公共交通中的应用[J].武汉:图书与情报,2012
[11] 冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].北京:管
理科学学报,2013
[12] .陈明奇,姜禾,张娟,廖方宇.大数据时代的美国信息网络安全新战略分析[D].北京:第27次全国计
算机安全学术交流会,2012
[13] 覃雄派, 王会举,杜小勇,王 珊.大数据分析_RDBMS与MapReduce的竞争与共生[J].北京:软件学报,
2012.
[14] 张伟.大数据带来新机遇IT企业挖掘新_金矿_[J].北京:中国高新技术产业导报/,2012. [15] Georges Nahon.“大数据”时代的挑战[J].The New York Times,2012。
[16] 孟小峰,慈 祥.大数据管理:概念、技术与挑战[J].北京:计算机研究与发展,2013. [17] David Brooks.大数据做不到的事情[J]. ISSUE ,2013.
[18] 李国杰.大数据研究:未来科技及经济社会发展的重大战略领域[J].北京:战略与决策研究,2012. [19] 王珊,王会举,覃雄派,周烜.架构大数据: 挑战、现状与展望[J].北京:计算机学报,2011. [20]朱东华,张嶷,汪雪锋,李兵,黄颖,马晶,许幸荣,杨超,朱福进.大数据环境下技术创新管理方
法研究[J].科学学与科学技术管理,2013.
教师评语: 成 绩: 教 师 签 字: 评 阅 日 期: 年 月 日
因篇幅问题不能全部显示,请点此查看更多更全内容