大数据分析自带缺陷?别怕,有区块链在
<div align="center"><div align="left">区块链技术最广为人知的概念是一种分布式记账技术,具有去中心、去信任、透明开放、不可篡改的特征,这些特征使得区块链技术不仅可以用在数字资产的交易中,同时也渐渐拓展到大数据分析的行业中。
大数据分析要求能够快速处理大量不同类型的数据,在搜集数据的初步阶段,需要在数据的海洋中甄别出那些真正有价值并且真实的东西。
目前各个区块链上的数据可被分为:数字资产产量信息,数字资产流量信息,数字资产场外交易信息等。通过在区块链上对这些数据进行挖掘,分类和分析,可以满足不同企业对安全性,市场现状和预测、预防性维护以及竞争优势的判断需求。
传统的关系性数据库面对以上数据分析的大项目时有其天然缺陷,而区块链技术则可以解决相应的问题。
传统关系性数据库与区块链上数据的比对:
● 最严重的当然是安全性,传统关系性数据库密码极其容易被破解。
○ 区块链上的数据现在都包含了哈希加密算法以及多重签名。同时区块链数据的存储已开始朝去中心化和分布式存储的方式发展。数据被分割成多块进行加密处理后,被分往不同的服务器,但是授权依然通过各个节点共同计算得出,使任何第三方无法获得拿到所有数据的能力。
● 对服务器等硬件要求很高,容易造成MDB损坏。
○区块链的数据大多都采取了云存储技术,同时这种存储技术还在不断地发展。传统的云存储,虽然解决硬件的成本,然而随着数据量的增大,数据中心租金等问题,存储成本依然会逐渐增加。区块链的云存储技术可以逐渐完成自动处理机构和非机构数据类型,无需预先搭建数据中心,根据用户情况实时通过网络自动配置,更易用的API等。
● 数据在巨大吞吐量的环境下容易发生丢失的情况。
○目前已经存在区块链协议可以做到使用全新的共识模型在几秒内完成极为庞大的信息之间的互相传送与交换,并且利用可伸缩的数据模型来降低运行负荷。同时区块链上的数据在由于区块链自身的特点,一个节点数据的丢失并不会影响整个数据的完整性,因为还有其他节点可用来恢复。
大数据分析的一般步骤为数据收集,存储数据,数据处理,信息检索,准确性评估。由上面的比对可以清晰地看出,区块链为用户解决了大数据分析中的数据质量、数据存储和管理的问题。
接下来我们介绍一下另外两个重要步骤的基本流程。
1.数据挖掘
数据挖掘是一个知识发现的过程(KDD)。首先根据需求进行数据准备,再通过数
据库样本选取,对这些样本数据进行完整性和一致性的检查,消除无关的冗余数据和噪
声,利用统计等方法填补丢失数据,之后利用数据库投影或其他操作减少数据量,最后
选择合适KDD算法选取参数并且建立模型,以达到后续自动按照模型中的规则进行数
据的挑选和积累。
2.预测性分析
预测性分析指运用各种统计技术、建模、数据挖据工具分析当前及历史数据,从而对未来做出预测性判断。预测性分析一般可分为两大类:
(1)根据历史经验或者通过详细准确的数学推导确定一个适合的模型,直接对全部的数据进行分析和预测;
(2)从全部的数据中随机抽取一些样本,用机器学习的模型对这个样本进行training和testing,期间不断调整模型的参数以期望达到一个最佳的结果,最终根据test error确定一个最适用的预测模型。
|