近日,由比特网CIO俱乐部主办的主题为“大数据 大商业”——中国(大连)大数据技术领袖峰会(以下简称峰会)于2014年6月21日在大连隆重召开。峰会现场吸引了来自政府机构、企业用户、服务商等共计150家企业CEO、CIO的积极参与支持,他们共同就当前热点技术话题——大数据的趋势、现状以及未来应用发展前景展开了探讨与分析。
释放数据——大数据的核心
峰会现场来自文思海辉首席技术官(CTO)芮祥麟就《从大数据到智慧数据》做了精彩的主题分享,他从大数据实践的角度出发,为与会嘉宾带来了一场精彩的大数据实践“盛宴”。
据了解,芮祥麟很早就在从事大数据的研究,对于大数据,芮祥麟认为最核心的本质是把数据从应用中解放出来。在过去从80年代到90年代,企业IT是以ERP、CRM等应用为主要价值链,数据只是应用的附属品,但是到了现在的大数据时代,数据在各个应用中剥离出,经过整合后, 利用各种分析工具形成建议或者观察,所形成的分析结果回溯到业务流程,从而最终形成了一个独立的数据价值链。
现在我们看到业界有观点提出软件定义一切(SDX), 如软件定义网络(SDN), 软件定义存储(SDS) 及软件定义数据中心(SDDC)的观点,但在芮祥麟看来,现在是软件定义一切(SDX)而在未来是数据定义一切, 包括硬件, 软件、应用及数据中心。从平台角度而言,未来各种平台, 包括开源的及闭源的, 会集中融入到大数据平台层面,一个好的大数据平台是数据分析技术的重要支撑部分。
第一, 数据处理: 如何快速(Efficiency)及有效(Effectiveness)进行数据处理并且能将海量数据提炼成有效的数据特征集
第二, 数据分析: 以处理过的数据特征集为基础进行各种算法. 更重要的是, 在此基础上建立一套自适应的机器学习及建模的框架,并充分的将企业的各种业务场景与机器学习框架相结合, 真正的带来商业上的价值。
第三, 数据分析可视化: 大数据要把分析后的结果做成可视化才能更好的判断,特别是对于高纬度, 高复杂性的数据可视化非常重要
第四, 数据管理标准及规范:可以借鉴IT过去30年的经验及规范移植在大数据平台上如 ITIL, COBIT, CMMI,SIEM等。
从大数据到智慧数据 驱动智慧商务
我们看到随着互联网以及企业IT建设的普及,企业拥有了大量的数据,如何把这些数据转换成价值已经为企业CIO所关注。过去企业有许多的数据但都并不是很重视,而今天这些数据的重要性越来越被企业看重,而且数据已经从单一处理模式向智慧数据迈进,使得企业借助大数据的力量,实现营销以及业务价值的提升。
对于文思海辉而言,在大数据领域的焦点核心一方面在于充分掌握新一代的数据处理技术, 如 各种NoSQL数据库, 图形数据建模, 内存运算, 复杂事件处理等. 另一方面在于充分掌握新一代的分析算法/机器学习技术如支持向量回归, 隐马尔科夫模型, 模糊聚类分析, 小波分析等,“这方面它像人的大脑,案例如实时推荐引擎, 它是根据企业的需求, 针对其不同的业务建立一个针对客户/商品的协同过滤推荐的机器学习框架 (Collaborative Filtering), 依此实现实时的推荐引擎. 这些分析能力有如人的大脑, 它必须与云计算及移动技术相结合, 就像人的脑,手、脚的无间配合, 才能完成一个整体的交付机制。
目前文思海辉已经掌握了各种先进的分析算法技术如支持向量机, 支持向量回归, 隐马尔科夫模型, 模糊聚类分析, 小波分析, 最大期望值算法, 最大似然估计算法等,以及把这些基础算法相互交叉结合变成各种最新的混种算法如: 基于小波包核函数的支持向量回归、以小波分析为核心的模糊聚类分析, 基于图形数据模型的快速协同过滤分析、基于隐马尔科夫模型及最大期望值的风险分析及预测等, 帮助企业创造了良好的应用效果。
“回归分析及隐马尔科夫模型是大部分预测模型的基础,讲到各种预测型分析,最重要的基础就是利用各种新一代的分析算法建立预测模型,如果没有准确及快速的分析模型, 所有的预测场景都将成为空谈。”
从智慧商务的角度来看,文思海辉首先能够提供混合型的客户360度视图,它在传统的企业数据仓库(EDW)上融入了非结构化数据如社交媒体分析, 机器数据, 地理信息等. 以混合型的客户360度视图为核心, 重构整个企业产品生命周期. 再以客户3