星期二, 八月 21首页

“大数据杀熟”?商家对数据的使用可能远超出想象

律师李欣然(化名)第一次对某大型旅行票务网站产生警觉是在去年暑假。为了带女儿去日本迪士尼,她相中一家酒店,但同一个房型,在她手机上显示的价格比在丈夫手机上贵了120元人民币。

刚开始,李欣然还以为是丈夫没选三人同住的缘故,但仔细核对后发现并不是。她向婆婆要来手机,以新客人的身份下载注册了同一款APP,还很严谨地用流量而不是家里WiFi联网,查询后发现,一些房间比丈夫手机上显示的价格还要更低。

“搜索以后的结果直接就有差异,我没有领优惠券也没有收到红包。”

因为工作原因,李欣然出差频繁,经常用APP给自己订商务型酒店。尽管不清楚具体的技术原理,但她凭直觉推断,自己是被平台的用户画像识别成了消费能力高的客户,所以会给她显示更高的价格。

李欣然和丈夫的收入都不低,自认为并不算对价格敏感的用户,如果APP用正常的价格调节方式给新用户发放一些额外优惠,她并不会介意。

让她不舒服的是,价格上的差异对待是在她完全不知情的情况下进行的:“我在乎的是知情权。如果我知道网站在搞活动,但我没资格参加,这就没关系;如果我知道有优惠券,但是需要分享到朋友圈、每天签到点赞或者掐时间抢,我不愿意牺牲这个精力来换优惠,我也心甘情愿。但现在我怀疑,是APP收集我的使用习惯暗地里对我区别定价,那我当然有负面情绪。”

在社交网络上,和李欣然一样因为感受到被区别对待而产生“负面情绪”的人不在少数,他们的集体控诉经由媒体报道后催生了一个新的概念:“大数据杀熟”。概念的发明反过来又刺激了更多网友把自己的经历对号入座。

几乎没有一个互联网产品不被怀疑“杀熟”——

有人说在电影购票APP里花钱买了会员,票价反而比非会员更高;

有人发现同样是买一年的视频网站会员,iPhone用户比Android手机用户多花几十块钱;

有人察觉到用旅行APP买机票,只要你没付钱,价格越搜越贵,余票越来越少,直到只剩一张,吓得你赶紧出手。可等付了钱再搜,这张机票还能买,而且又跌回了原来的优惠价。

有人抱怨玩卡牌游戏“越氪越非”(越花钱越难抽到价值大的卡牌),让不爱花钱的用户更容易抽到好卡,作为诱饵刺激有付费意愿的人继续掏更多钱……

舆论风暴中,携程大住宿事业部CEO陈瑞亮接受采访,以职业身份向用户保证,自家平台上没有过也不会有大数据杀熟的现象发生。他解释不同用户间显示的差价是优惠券造成的,携程会“努力优化页面展示,更清晰真实地展示优惠后的价格信息,避免误解。”至于有什么避免被“杀熟”的方法,他觉得“更多地还是要从公司层面来驱动”;而对于消费者而言,“能做的就是多进行价格比对”。

也就是说:做不做“大数据杀熟”,全凭公司自觉;而如果一家公司决定这么做,用户要付出很大的代价。

斗智斗勇

但李欣然觉得,这听起来显然非常不“互联网”。

她察觉到房间价格异样时,还没有“大数据杀熟”这个词的出现,但出于职业习惯,她敏锐地意识到了一个比“杀熟”更深层次的问题:我使用的APP,在试图了解和定义我。

“如果一个APP能判断我和我婆婆对价格的承受能力不同,那它一定知道我更多信息。”

携程技术中心基础业务研发部高级研发经理周源曾写过一篇文章,叫《手把手教你用大数据打造用户画像》,其中透露出来的一些信息,从侧面验证了李欣然的猜想。

据周源介绍,携程对用户数据的采集不仅来自于自家网站和APP,同样也会抓取合作站点,比如微博、知乎的用户信息。他们为用户建立画像的维度包括性别、年龄、消费能力、亲子偏好等等,“数据是海量的”。

文章中的一个图表显示,携程对用户的消费能力定义划分为“非常小气、一般小气、一般大方、非常大方”四个等级。 周源在文章中反复强调,要在携程内部调用这些数据需要非常严格的程序限制。

但身为消费者,很难在裁判缺失的情况下,相信企业们在利益面前会充分自律。

事实上,差别定价并不是什么了不起的新鲜技术,电商巨头亚马逊早在2000年9月就实施过类似的实验。为了冲击更高的零售额,他们选择了68款DVD碟片,根据用户填写的资料、购物历史、上网使用的操作系统等条件判断他们的购买力,给他们输出不同的价格。一个20美元出头的产品,新用户和老用户之间差价波动在4美元左右。

尽管68个产品在亚马逊超过千万种的商品列表里显得丝毫不起眼,但这个实验进行了不到一个月,还是被用户发现了。在一个叫DVDTALK的音乐论坛上,成百上千的网友通过发布自己买到的产品价格做人工比价,愤怒之余,讨论层面不可避免地上升到怀疑亚马逊在收集和分析用户的隐私数据,以至于当时的CEO不得不站出来保证,亚马逊永远不会对用户区别定价。

18年之后的中国,几乎类似的情境发生在更多公司身上,并且远远不止于此。

“大数据杀熟”刷屏之后,知乎用户“逻格斯”又提出另一个更可怕的假设叫“大数据售假”:如果消费行为大数据显示你是一个不爱写评价,几乎不会给出差评的用户,那么稍有良心的平台可以把别的客户退换的货物或者次品优先配送给你,但更夸张的可能性是,在某些真假混卖的电商平台,他们可以依据这项数据把假货发给你。

如何避免被大数据收集信息?作为一个对维权很敏感的人,李欣然开始关注和大数据斗智斗勇的方法。她弃用了大多数APP,重新回到网页时代,自学使用浏览器的隐身模式,不在电脑或者手机上留下访问网站的痕迹,还养成了手动清理cookie记录的习惯,不让网站有机会追踪自己的行为逻辑,以及用任何服务之前都会货比三家。

和李欣然一样,更多网友试图研究“调戏”大数据的方法。

豆瓣用户“大魔王·桶狗”就贡献了一条他的实验成果:

我昨天在A平台上打算买一桶油,下单前临时刹车,去B平台上看了一眼,B平台比A平台的会员价还便宜,于是把B平台的油加入购物车,再删除了A平台的购物车。然后,我再打开A平台,它给我发了一张粮油优惠券。

这条广播被他打上#与大数据斗智斗勇#的标签发布出来,成了当天豆瓣的热门广播,评论中不少网友都在互相交换自己常用的比价工具。

这样的试验或许有玩笑成分,但也反映了在大数据面前,一个普通用户想要保护自己的利益和隐私需要付出高昂的成本。

抵抗和伪装都是徒劳

对大数据的恐慌情绪愈演愈烈,也催生出很多错觉和谣言。

最典型的一个,是怀疑自己被监听。你一定听朋友讲过这样的“恐怖”故事:我前脚聊天时和别人讨论了去海边旅行,后脚打开购物APP就发现它在给我推荐泳衣。我什么都没搜,它是怎么知道我想干什么的?难道是利用麦克风权限在监听我?

事实上,如果人工智能真的能做到这么“智能”,别说手机抗不扛得住电量,市面上的语音识别服务也不至于还在错漏百出的阶段了。

公众的误解在于,比起监听,其实你手机里的APP有一万种性价比更高的方式了解你,而你几乎难以察觉。

以几乎每个APP都要求开放的位置授权举例:

知道你什么时间位于哪个范围活动后,通过简单的算法分析,就能推断出你的住址和工作地址——如果你夜里12点到早上8点都停留在一个地方没动,那这儿十有八九是你的家。

如果再综合比对你的邻居们和同事们的位置数据,知道和你有交集的人平时都在哪些消费水平的地段活动,就能轻松为你的消费能力划分等级。

从要求开放位置权限到获得用户的消费能力信息

同样的道理,开放读取短信授权,意味着APP可以读取你所有的信息往来,其中可能包括银行发给你的交易明细记录、你常消费的商家发给你的节假日问候、你出行预定机票酒店的确认信息。

从开放短信授权到获取用户全方位信息

还有更让人意想不到的是Uber经济研究主管Keith Chen在美国国家公共电台(NPR)做节目时曾经讲过一个案例:读取手机电量对APP来说也是一项很有用的数据。在手机电量即将耗尽时,用户愿意承受高达9.9倍的动态溢价。但他也强调,Uber不会这么做。这背后的心理原理很简单:手机没电的人等不了,如果是着急要去一个地方,花多少钱都在所不惜。

随着科技发展给人们提供越来越多的便利,“隐私”的概念也不仅仅是身份证号、电话号码这样的固定信息。那些你以为不太重要的数据,都在不经意间泄露着你的习惯。

知乎大V李小粥是国内某家互联网公司总部的高级产品经理,工作让他对大数据隐私产生了比普通人更敏锐的警觉:“现在大家对隐私的意识还是偏保守的,事实上有些场景下人工智能对人的监控,并不需要人的主动输入。比如你用可穿戴设备,它记录你的体重、心律、体温,由此给你推销一些对应的保险,这算不算泄露隐私呢?再比如,如果将来有一款类似于Google Glass的眼镜产品,获得你的授权可以读取你的虹膜,你路过一个橱窗对哪个产品多看了一眼,它就推送相关的产品广告给你,这算不算泄露隐私呢?”

事实上,早已经有公司应用了他所担忧的技术。

2014年,美国一家医疗公司会利用大数据推断病人的发病几率。比如一个哮喘病人,医院可以通过监测他是否购买过香烟、是否居住在高浓度花粉地区来判断急救率。再比如可以综合一个人在健身房锻炼和购买食品的记录,推断他突发心脏病的概率。而这些数据都是医院从相关的网站或者应用购买来的。

最近,亚马逊申请了两项关于手环的专利,能够根据手环的运动轨迹,追踪仓库工人的手部动作。如果发现工人的双手出现在非工作区域,或者不是工作应有的活动频率,可以用震动给他们发出警告……

在庞大的数据面前,人类越来越像一个提供输入的变量角色,任何试图伪装和保护自己的举动,在360度无死角的数据监控下都显得徒劳。

美国技术博客Gizmodo去年曾经采访过一个叫Leila的性工作者。为了保护自己的人身安全,她注册Facebook时使用了和客户联系时完全不同的邮箱、电话,也从不在社交网络上发布和现实身份相关的内容。但有一天,她在Facebook“可能认识的好友”推荐栏里发现了自己现实中的客户。

事实上,Leila自以为精妙的伪装在技术面前非常不堪一击——Facebook会识别用户的设备ID和上网IP来判断你的身份。尽管注册了不同的账号,但只要用同一部手机上网,就有可能被它判断为属于同一个人。

而当大数据对用户拥有充分的了解,多花钱只是大数据应用中对受众伤害最小的“坑”。

扎克伯格最近遇到的信任危机就应证了这一点。他亲自承认Facebook未能及时防范“假新闻”和“仇恨言论”散播、“用户隐私数据”遭窃用、外国势力利用平台“干预”2016年总统选举,并为此道歉。

在一篇叫《人民不再相信科技公司了》的评论文章中,科技媒体品玩的创始人骆轶航把社交网络用户这种在不知不觉的情况下被利用的感觉形容为:“被数据奴役了思维的耻辱感和不安感”。

灰色的不同意

“大数据杀熟”的全民讨论过后,公众对隐私保护的戒心越来越强烈,但互联网公司们肆意处置用户信息的案例依然层出不穷。

如果你的朋友下载注册了探探,并给它授权了读取通讯录权限,你大概率会收到一条类似这样的推广短信:“你的一位手机联系人在探探上将你设置为暗恋对象……”等你兴冲冲下载注册了,才发现一切都是套路。

职场社交APP脉脉曾经被昔日的合作伙伴微博起诉,理由是“非法抓取使用新浪微博用户信息”。如果用户通过新浪微博的账号登录脉脉,那么脉脉会把你通讯录里的联系人和微博好友做信息比对,识别他们的身份,即便你的朋友并没有注册和使用脉脉,他们也会被实名列举在你的“一度人脉”列表中。

最近,知乎用户打开APP,都会收到一份《用户隐私协议》弹窗,最后一条写道:“您使用或者继续使用我们的服务,即意味着同意我们按照本《隐私政策》收集、使用、存储、共享、转让和公开披露您的相关信息。”

其中“转让”和“公开披露”两个词格外刺眼。在前文的细则条款中,知乎列举的会被收集的用户隐私包括:姓名、性别、照片、身份证号、电话号码、位置信息等等。如果点了同意,就意味着授权知乎处置这些敏感信息。

这份协议下方虽然设置了同意和不同意两个按钮,但不同意的按钮是灰色的。如果用户点击同意,则会弹出一个说明,告知“我们将按照业界成熟的安全标准,采取相应的安全保护措施来保护您的个人信息。”至于业界标准是什么,没有再做进一步解释。用户只能选同意,否则就不能再使用知乎APP。

前不久,百度总裁李彦宏在中国发展高层论坛上说,“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。”

虽然这话不那么顺耳,但我们都清楚,这是实话。

前百度人工智能首席科学家吴恩达就曾经公开说,大公司的产品常常不是为了收入而做,而是为了用户的数据而做,在某一个产品上收集的数据,会用于在另一个产品上获利。这也就解释了为什么哪怕是一个手电筒APP,在安装时也需要用户同意包括读取位置信息、通讯录在内的几十项权限授权。

《南方日报》曾经对个人信息黑市做过相关调查,发现越来越多APP收集到的精准数据成为“黑产”链条的源头:“这种高精度的个人信息被用在网络诈骗等方面时,会让受害者难以辨识,更容易中招。”

也就是说,当产品和服务是免费的,你,具象地说是你的个人信息,就是商品本身。大数据时代,我们每个人都在被几十到几百个变量

发表评论

电子邮件地址不会被公开。 必填项已用*标注