首页 资讯 关注 科技 财经 汽车 房产 图片 视频 全国 福建

国内

旗下栏目: 国际 国内 时局 热评

中国信通院云大所所长何宝宏:《大数据的风向(2)

来源:网络整理 作者:采集侠 人气: 发布时间:2019-06-10
摘要:隐私保护的问题很明显。以前我们觉得隐私保护要靠法律、管理,这个没问题。最近一两年,我们清楚得感觉到,我们的隐私保护、数据保护、数据流通不仅仅要靠管理和政策,更多要靠技术手段。纵观技术的发展,面临着新

隐私保护的问题很明显。以前我们觉得隐私保护要靠法律、管理,这个没问题。最近一两年,我们清楚得感觉到,我们的隐私保护、数据保护、数据流通不仅仅要靠管理和政策,更多要靠技术手段。纵观技术的发展,面临着新的问题,人的第一反应是用传统方法和管理方式来解决问题。第二反应是搞不定,必须发明新技术,所以我们看到群签名、环签名、差分隐私、区块链、同态加密、零知识证明。文科生把法律法规相关的事情干完之后,剩下就是理工科正干的事,技术正在逐渐替代管理方面的工作。

保护隐私为什么这么难?业界每天都在讨论,大数据正在经历七年之痒。我觉得首先是原罪的问题,互联网整个免费模式就是建立在消费用户隐私的基础上的,以用户隐私为代价的。为什么免费?是、因为你必须出让你的隐私。我们的大数据要做用户画像,用户画像是中性词,没有好坏,只是在给你画像。如果不加道德方面的限制,必然会出现大数据杀熟的情况。我们经常也会做犯罪分子画像,这个意义是不一样的,明显我们面临着新的问题。

国家安全、用户隐私、便利性这三者之间有一个不可能三角形的问题,国家安全、用户隐私和便利性方面,三者只能取其二。保护用户隐私必然会带来便利性消失的问题,我们始终在这个不可能三角形的问题里绕圈。

我们的数据主要是人产生的,我们最关心隐私保护的问题,所以每个大数据好像都在侵犯隐私似的,事实不是这样的,我们发现数据是资产,从不同角度看可以得出不同的结论。大数据因为数据太大了,区块链对应的价值太高了,。果是价值数据我们用区块链处理,隐私数据呢?比如说隐私计算,个人脱敏等等。我们的数据究竟如何分类?用什么样的维度分类?各类数据分类的维度完全不一样,里面存在着这个交叉的问题,我们每次对数据分类的维度都不一样,导致我们的理解千奇百怪,但是无论如何我们正在不断完善整个数据的拼图。因为我们拼得还是乱七八糟的,目前我们的认知还乱七八糟,还处于大航海时代之前的原始状态,所以很乱,以为隐私数据就代表了一切数据,隐私数据之外还有其他的吗?

数据语义不同技术也将不同,我们可能要专门针对隐私要有隐私计算技术,大数据要有海量数据技术,还要有冷存储、时序数据库,视频数据还有X数据库,完全可以将视频数据用人工智能的技术结构化,打上标签,存在专门的视频数据库里。

未来数据管理技术会越来越走向分裂,会越来越多,因为数据越来越多必然会导致不同的数据需要不同的数据处理,未来的数据管理技术只会多不会少,会经历很长的阶段。

再回到大数据,今天上午发布了批处理、流处理的。我们再看从计算机到多媒体,到今天的大数据,第一个阶段都是在搞批处理。从底层的,到多媒体,到今天的数据,这是很明显的发展历程,第一阶段都是把数据和文件一股脑的做了处理,后来我们觉得不太行,还需要优化,所以我们要搞交互式的,搞流媒体、流计算。开始都是批处理的是因为好做,批处理往往是打开了新的技术领域的第一扇门,是最笨的,笨总比没有强,这是很明显的发展轨迹,而且很明显我们从硬件到软件,现在到了数据的时代,围绕数据我们是不是要构造一个新的操作系统?我觉得完全可能。数据库有可能下一步会发展成操作系统的东西,因为数据时代,操作系统专门针对文件和底层系统。

第一波批处理解决后,架构上还没稳定,自然而然提到了流计算,这在上午已经提到了,我就不多赘述了。

大数据技术有几个特点,跟其他技术发展轨迹一样,云原生,数据库一定要跟云结合,安全计算,主要是数据流通多方计算,运维自动化。我们面对数据越来越庞大,种类越来越复杂,靠人肯定搞不定。云计算需要运维自动化,数据也要运维自动化、智能化、标准化、技术化、工具化,因为人搞不定,数据太多了。还有资产化、容器化,我原来也专门提过这个概念。

因为我们解决了数据处理之后,马上面临的问题是如何交付,如何让处理和环境耦合。云计算搞出一个容器技术,让我们开发运营的环境能跟底层环境耦合,做数据库、数据管理的时候,你的软件是不是也应该跟底层操作系统环境耦合,趋势肯定是这样的,要想办法把它包起来,方便交付,还有数据中台。我们看到了新的技术,互联网公司引发了分布式数据库技术浪潮,正在改变全球数据库的市场格局。全球很多企业在做分布式数据库,很明显,因为这是针对新时代的新的明显的变化。

我们讲完数据,处理数据的东西叫算法,所以也必然有算法的治理,算法的杀熟问题。我们为什么不开放算法?有人说这是商业秘密,对,肯定是商业秘密,但是涉及到每个人权利的时候,法律问题的时候,这是必须要开放的。有些可以不开放,但是有些必须要开。我们的算法问题,如何管理、如何监管,很明显提到了议事日程。算法是机器语言书写的数字世界的规则,算法是工程师设计的判断、优先级、盲点和偏见。算法关注效率而不关注道德和公平、合理的问题,这是不可以的,如果只是在数字世界可以,但是现实世界不可以,所以我们必然面临着算法黑箱、算法歧视、算法疫情的问题,所以如何让算法保持中立,算法一定要是可解释的。如果算法建议你锯掉一条腿你会接受吗?所以可解释性的问题也很重要,透明可解释的问题。

数据资产方兴未艾,上午已经提到了,最近几年中国有20多家数据管理软件,30多家数据治理咨询公司。我们只是认识到数据是资产,还不知道如何把数据变成资产,如何变成资产?机会。为了适应数据流通的需要,多方安全计算技术已经趋于成熟,我们需要有新的技术解决流通的问题,刚才专门提到了。

数据流通有很多难题,这是很漫长的过程,纵观人类流通过程发现越大宗商品,建立成熟稳定的流通系统时间越长,我觉得一代人都搞不定,大家放心,这可以干一辈子,因为数据质量的问题,价值的问题,安全规范足够一个人干一辈子。数据是大宗商品,数据可能是迄今为止唯一的还没有变成大宗商品的大宗商品,这是最大的大宗商品,也可能会变成期货、衍生品,毫无疑问我们要做的事情太多了,时间很长,所以大家不用担心。

我们数据开放说了很多年,我们对照一下软件代码开放问题,当年也讨论了很长时间。软件代码是开和不开这么简单吗?不是这样的。软件代码开放之后中间有很长的灰色地带,全球有100多种开源软件许可证。拿到数据以后能干什么,不能干什么,我们缺少类似的概念,开放数据许可证是缺少的。所有的开放绝对不是1和0的问题,中间有很长的灰色地带,迄今为止全球还没有权威的,好使的,特别场景下的开放许可证。不是直接开的,一定是有游戏规则的,我们可以照抄一些开源方面的思路和方法。

责任编辑:采集侠
首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国 | 福建

Copyright © 2015 新闻资讯门户站 版权所有

电脑版 | 移动版