原创 | 破解个人数据“不可能三角”初探( 二 )


)的一个子集,自然人A的隐私,可以表示为
。A的个人信息是信息空间(
)的一个子集,即
;A的个人数据是数据空间(D)的一个子集,即

这些空间之间存在某种关系,我们用态射来表示,即
; 。而空间中子集之间的态射,表示为:

我们用此模型来分析隐私、信息和数据之间的相互作用 。
私密信息是隐私的组成部分,也是个人信息的子集 。由此,隐私与信息具有天然的联系 。但由于隐私、信息明显属于不同的空间(范畴),因此,可以将私密信息看作隐私在信息空间的投射[申卫星,2022] 。
由此,就可以比较清晰的界定隐私和信息之间的关系 。采用信息理论形式化的描述:事实空间的一个子集,如果满足“隐私1+3定义”,就称为隐私 。隐私存在可编码的部分和不可编码的部分 。其中,可编码的部分投射到信息空间,成为个人信息的一个子集 。
进一步,已知信息论和数据科学的发展指出,采用适当的算法,可以从信息、数据的输入中,推断出事实 。由此,可以很自然的推论,从个人信息、个人数据的输入中,也可以推断出关于个人的事实,其中一些事实可能满足“隐私1+3定义”[8] 。即,
式1-1揭示出,通过采集足够的关于某个人的信息、数据,某些算法能够“洞察”到这个人的“隐私” 。同理,从个人数据的输入中,也可以推断出关于个人的信息,其中一些信息属于个人信息 。即,
式1-2揭示出,只要有某个人足够的数据,某些算法也能够“洞见”这个人的个人信息 。示意图如下:
这样的案例很多 。例如,通过捕捉一段时间个人的眼球运动数据,就能推断很多关于这个人的个人信息 。通过分析一个人一段时间内的详细消费数据,购买什么产品、什么品牌,购买频率等,不仅能推断此人的宗教信仰,还能推断性别取向等私密信息和个人隐私 。
传统的安全技术,通过加密、保密以及可信计算环境都技术手段,来防止敏感个人数据的泄露和访问控制 。但从上面的分析可以看出,诸如隐私暴露、个人信息泄露等问题,不能仅通过加密、保密等传统安全技术和手段,还需要应对来自算法带来的非传统安全问题 。最直接的手段,当然是限制数据流通、以及某些算法的使用,切断算法洞察、洞见的能力 。
从上述隐私、信息和数据的简单分析模型可以看出,个人数据开发利用的“不可能三角”形成的必然性 。
个人的社会活动,需要与外界交换信息、数据 。个人数据的开放,不仅是构建信任的基础,同时也是获取商品、服务和从事各项活动的基础 。个人数据的开发性,可以采用数据层级深度、类型范围、颗粒度、更新频率等指标度里 。将更多的数据提供给外界,潜在的好处是可以让个人获得更个性化、更精准和更体贴的服务 。但由(式1-1)、(式1-2),很显然,当数据开放达到一个临界点后,必然的就会出现隐私、安全问题 。
为了保护隐私,只能减少数据的开放性 。但很自然的,这会引起诸如信任、各项活动受限等问题 。同样的,如果要想更安全,需要限制开放、提高安全防护级别,但这一方面不一定能带来安全,另一方面,会大大限制个人数据要素的流通、限制个人的很多活动,会间接的诱导其他安全问题 。
无论、还是范式,都采用场景一致性理论[9](CI理论)作为破解“不可能三角”的基础理论 。接下来,首先对CI理论做一个简要介绍,然后分析其为什么能够破解“不可能三角” 。
二、场景一致性理论(CI: )
CI理论指出,引发人们对个人数据开发利用日益担忧的根源并非数据是否可控、是否保密,而是技术、系统和实践中那些不合理的个人信息流通(non- flow) 。所谓不合理的信息流通,是指违反特定场景所应遵循的规范的信息流通 。