大数据黑市调查

2021-03-26 09:01:29

  • 刚跟朋友聊完理财、美妆、买房、贷款等日常话题,怎么就收到包括抖音、腾讯新闻甚至一些视频网站推送的与聊天内容相关的广告。还有每天的陌生来电、垃圾短信。
  •  
  • 你是不是有过这样的疑惑,刚跟朋友聊完理财、美妆、买房、贷款等日常话题,怎么就收到包括抖音、腾讯新闻甚至一些视频网站推送的与聊天内容相关的广告。还有每天的陌生来电、垃圾短信。而巧合不止一次,让人不得不怀疑各大商家利用APP权限申请窃取个人隐私。
  •  
  • 对于个人隐私,人们从未如当下这般焦虑。
  •  
  • 3月15日,315晚会曝光了智联招聘、前程无忧、猎聘网等由于缺乏管理,大量个人简历遭遇泄露,被倒卖形成黑色产业。除此之外,内存优化大师、超强清理大师、手机管家Pro打着清理内存的旗号,却通过技术手段不断获取手机中的信息,包括应用列表、定位信息、通讯录等。互联网用户数据泄露再次成为公众关注焦点。
  •  
  • 近期,证券时报记者潜入了多个数据交易千人QQ群,来自各行各业的用户隐私数据被贩卖触目惊心。不时有人在群里喊单,“出一手GM(股民)、WD(网贷)、BJ(保健)信息,拼多多、淘宝、京东一手网购数据,需要数据的联系我……”这些数据按照行业划分被明码标价。不仅如此,还有五花八门爬取数据的软件,“爬”上网站,“嵌”入APP,“铲”下数据。
  •  
  • 而在整个数据交易过程中,内鬼、黑客、爬虫软件开发商、清洗者、加工者、料商、买家等寄生于此,催生出一个巨大规模的数据黑市。证券时报记者通过深入调查采访买卖双方获得大量一手材料,试图揭开数据黑市交易的全链条。
  •  
  • APP权限申请泛滥
  •  
  • 2020年网飞出品了一部最新纪录片——《监视资本主义:智能陷阱》中,形象地向人们展示了这样一副场景:
  •  
  • 社交软件后台“三名工作人员”正在紧张地分析眼前这个年轻人,他在每张图片下停留多长时间,什么样的情感更能让人产生共鸣,什么样的广告会吸引他点开。这三个人一个叫停留目标,根据停留的时间帮你选择下一个推送内容,让你一直滑动屏幕;一个叫增长目标,让你尽可能多的邀请你的朋友加入增加社交依赖;一个叫广告目标,确保你在对某物感兴趣时精准为你送上一条下单链接。
  •  
  • 这一切行为的背后也就是所谓的算法模型,而精准的算法背后都是依托海量数据作为支撑,从而将人数据化。
  •  
  • 那么这些数据从何而来?
  •  
  • 获取权限,是大大小小商家通过APP或者小程序收集用户隐私数据的第一步。当你在安装一款APP的时候,上万字的用户协议,呈现在你5.5英寸的手机屏幕上,你会逐字看还是快速按下“同意”?而“不同意”很可能导致APP退出无法使用。
  •  
  • 合法、正当、必要,是APP运营商采集用户信息的法定原则。然而,APP越界索权的现象已是不争的事实。
  •  
  • 证券时报记者从衣、食、住、行、社交、娱乐、理财等方面对25款APP相关权限获取进行统计,发现和用户社交圈紧密相关的通讯录权限已经成为APP权限标配。除此之外,这些APP还会通过一些特定功能读取通讯地址、手机存储、照片、甚至记录面部识别、日历还有通话记录。手机APP权限申请已经到了泛滥成灾的地步。
  •  
  • 以美图秀秀为例,实难想象,一款P图软件要获取一个人这么多信息,包括搜索记录、浏览记录,甚至是日历、地理位置。仔细阅读美图秀秀个人信息保护政策发现,若将美图秀秀内容分享至第三方平台时,还会读取用户的应用列表信息。美图秀秀还会向游戏合作伙伴提供身份证号信息,甚至还会向合作伙伴共享用户的付款信息。
  •  
  • 条款中还声明,基于现代移动互联网产品互联互通的特性,产品可能接入美图关联公司或外部合作伙伴上线的其他产品或功能,比如在使用钱包功能时,美图可能从第三方获取用户的手机号、授信额度、还款金额、放款成功状态、逾期状态等。
  •  
  • 也即是说,只要用户使用美图软件并授权,美图秀秀不仅可以从自家APP上获取用户信息,还会从第三方平台上进一步获取用户更为详细具体的信息。
  •  
  • 还有日常所用的搜狗输入法,在权限申请中出现了通讯录,甚至访问用户位置信息,拍摄照片和录制视频等,实属不解一款敲字工具为何还要访问用户通讯录、相册这些敏感信息,视频软件要求读取运动数据,资讯类APP却开启相机和麦克风录音权限等。
  •  
  • “这种行为其实十分普遍,国内用户可能对个人信息的保护意识并没有很强烈,这给了企业很大的选择度,行业称之为‘占坑’,有些数据现在不需要,但并不代表以后不需要。在获取用户授权后抓取到的用户信息当然越多越好。”某金融科技公司大数据风控架构师肖强称。
  •  
  • 当下几乎所有APP都在想方设法获取用户信息资料,因为碎片化的信息一旦被整合,便具有商业价值——用户的每一次输入、浏览、地点、消费、工作、旅游、求职招聘、吃喝玩乐都被互联网工具记录在案,从而形成万亿级别的大数据,这些大数据在算法分析的加持下不仅知道你在看什么,甚至还会知道你将要做什么,从而做到精准营销。
  •  
  • 可喜的是,APP过度申请权限收集数据正在被加强监管。
  •  
  • 3月22日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网应用程序必要个人信息范围规定》,明确了地图导航、即时通信、网络购物等39类常见必要个人信息范围,要求运营商不得因用户不同意提供非必要个人信息,而拒绝用户使用APP基本功能服务。
  •  
  • 不过,肖强向记者表示,“可能大家都知道APP在收集个人隐私数据,但除此之外,用户的数据还可能同时被隐藏在APP里的第三方SDK(软件开发工具)收集。”
  •  
  • SDK收集的用户信息可以详细到什么程度?北京网贷协会数据安全专家韩洪慧表示,“SDK一旦嵌入,如果你注册登陆了这个APP,并默认授权,所有的行为数据都能记录,它会在不知不觉中爬取手机通讯录、聊天记录、银行账号的密码口令、短信、通讯录、位置信息等。”
  •  
  • 因此,用户授权APP采集个人信息,但往往并不知道自己的个人信息在何时、以何种方式被共享给了第三方SDK。很多APP“隐私政策”的内容关于共享的相关表述中,最常见的是“可能会将用户的个人信息分享给第三方”。但是,几乎没有APP会在隐私政策中详细列举所谓的“第三方”究竟包括哪些。
  •  
  • 对于个人信息安全的忧虑,折射出的是用户日益敏感的神经,更是用户缺乏对个人数据的知情权和主动权的表现。SDK对于用户来说,犹如一颗隐藏的“定时炸弹”,危险性不言而喻。
  •  
  • SDK提供商泄露和滥用用户信息非常隐蔽,甚至成为了泄露用户隐私的源头之一。
  •  
  • 谁窃取了用户隐私?
  •  
  • 数腾科技一位祝姓销售经理向记者表示,他们有自己特殊渠道去拿取一些数据。其中最为主要的渠道就是通过第三方SDK获取数据。
  •  
  • “这个渠道拿到的数据会更精确,类似漏斗模式,会把数据按照需求进行筛选。比如说网贷行业的用户数据,用户登陆XX普惠,使用此款APP就要授权,一旦授权SDK就会收集这个用户的所有登陆痕迹。其他消费金融公司如果也使用了这家SDK软件开发包,同样也能共享。”
  •  
  • 记者进一步追问具体是跟哪家SDK友商合作时,祝经理以“敏感信息”为由拒绝透露。
  •  
  • 无法忽视的是,用户个人信息通过网络倒卖非常猖獗。近期记者潜入多个千人QQ群,发现群里不时有人喊单出售来自各行各业的公民个人信息。
  •  
  • “白酒、老年保健、男性男科保健、医疗、网贷、京东、淘宝、运营商实时数据……全部一手资源,带微信、实名,手拨百出6-12以上(注:人工打电话100个电话,有6-12个以上能接通),外呼万出80以上(注:机器呼叫,10000个电话有80个电话是可以被接通)接通率高,添加率高……”
  •  
  • 此外,甚至还有采集个人信息的系统展示,号称可以采集全国老板的私人联系方式。
  •  
  • 记者以买家身份接触了一位QQ名为“空城”的卖家,并提出先测试数据真实性为由,要求对方提供股民个人信息数据。
  •  
  • 为证明自己的数据来源,空城给记者提供了一张数据来源截图,收集的股民个人信息来自各大证券公司APP,广发证券、中投证券、国泰君安等都中招。
  •  
  • 正如空城所说,QQ群里的确有部分人在卖数据的时候打着“公司内部信息”旗号公开倒卖数据。“内鬼”监守自盗是个人信息流入黑产的重要渠道之一。可以接触到大量个人信息的职业,并非高门槛,岗位职级也不需要太高,泄露源可能来自各层级。
  •  
  • 2020年,公安机关打击利用工作之便窃取、泄露公民个人信息的违法犯罪行为,各行业内部都有涉案人员,查获重点行业内部涉案人员500余名,而这不过是冰山一角。
  •  
  • 一位叫吴青(化名)的网友主要从事数据采集软件开发,他向记者展示了如何通过他们研发的软件从京东、淘宝以及拼多多电商平台获取到用户信息。这款软件叫价3800元,用户只要购买,就能通过后台按照自己的需求,比如行业、地区、性别等导出自己想要的数据。
  •  
  • 除了“内鬼”泄密,还有通过各种技术手段窃取公民隐私。
  •  
  • 在调查采访过程中,黑市数据交易市场非常活跃且采集数据软件五花八门,其中一款名为汇容客的APP,号称“全网最全大数据获客软件”。其销售经理向记者称,“我们这款软件是全自动采集,只要搜索关键词,就能在各大网站、三大地图、三大运营商搜索出你想要的客户资源和群体,不仅是获客功能,我们还能提供营销素材,带货视频等,每档功能都会对应不同价格。”
  •  
  • 当记者问及跟哪三大地图合作时,该销售经理称主要是腾讯地图、高德地图以及百度地图,并且是经过授权使用他们的数据接口,并向记者发来跟三大地图运营商盖章的合同协议。
  •  
  • 就此记者向百度、腾讯以及高德公司求证是否授权汇容客使用平台用户数据,对方均一致表示不清楚这家公司,也不会将API(数据接口)随意授权。腾讯内部相关人士向记者称,这个章是假的,字体不一样。
  •  
  • 为力证此款软件的数据爬取能力,上述销售经理称可以帮忙后台注册后先测试。随后记者下载了此款APP,发现这款软件可以按照地理位置、行业、客户类型等进行搜索,然后导出相应的用户数据,并且一键添加微信。
  •  
  • “因为只是体验所以你不会看到客户手机号,这也是我们公司为了维护其他会员权益。我们会跟一些第三方SDK合作,也会跟一些大的互联网公司进行API数据接口对接,我们跟腾讯、百度、华为、阿里、抖音、快手、美团、饿了么都有战略级合作关系,资源高度整合。”该销售经理称。
  •  
  • 记者发现汇容客软件上显示数据来源主要为地图数据、工商数据、抖音、快手、阿里巴巴、美团、饿了么、京东互联网巨头。
  •  
  • 针对软件所提及的数据来源,证券时报记者向腾讯、阿里、美团、京东等都一一核实,多数均表示并没有将API数据接口跟名为汇容客的第三方共享,仅快手表示不回应。阿里公关进一步称,集团不可能允许该公司通过API接口爬取货调用蚂蚁用户信息,目前已经在深入调查此事。
  •  
  • 公开资料显示,汇容客采集软件的运营商为厦门惠榕软件科技有限公司,成立于2019年5月13日,注册资本1000万元,法定代表人为黄忠。网站公开内容显示,汇容客覆盖1.5亿+的企业信息,10亿+的联系方式,涉及家装、建材、美容、保险、金融、房地产、电商、服务、医药、新零售、旅游、教育等300+个行业品类客源数据。
  •  
  • “能从这些网站爬取到用户数据肯定是用了相关一些技术,其实爬虫技术并不神秘,‘爬’上网页,‘铲’下数据,然后再进行加工清洗。这类软件众多,大部分是在全网进行无差别爬取客户资料,后面通过加工进行精准分类。由此还延伸出职业清洗数据和标注的人。”专门编写爬虫代码的阿强向记者透露。
  •  
  • 除内鬼和通过技术手段之外,黑客是盗取大量个人信息的另一重要源头。从此前京东用户密码泄露事件到如家酒店的用户数据泄露,网站和黑客在用户数据上一直在进行着旷日持久的攻防战。
  •  
  • 而黑客通过技术入侵网站盗取公民个人信息并不难,少则几天多则一个月,而且很少被管理员发现。在黑客圈子里,大家都有个默契,入侵网站获取权限和信息后,都会互相交换数据,互通有无,让盗取的公民个人信息库越来越大,掌握的个人信息也越全。
  •  
  • 2020年全国公安机关在“净网2020”专项行动中,侦办黑客攻击及新技术犯罪案件1782起,共有2952名涉案黑客被抓获。事实上更多的黑客依然潜伏于地下。
  •  
  • 个人信息通过内鬼、网络技术、黑客等渠道流入了数据黑市,并进入了大大小小的各层级代理“料商”手中。
  •  
  • 料商倒卖,个人信息明码标价
  •  
  • 料商,即数据中间商,他们上通数据源头下达数据买家,是地下数据交易市场非常重要的一个角色。个人数据就是通过料商以不同价格在黑市流转。料商甚至还会发展自己的代理商,层级越高的料商数据源越多,数据信息更全。
  •  
  • 前文提到的祝经理就是行业料商之一,他向记者表示,仅包含个人普通信息比如电话号码、微信、QQ号等,平均拿货成本价每条信息在4毛左右,卖出去的单条价格在7-8毛左右,每条个人信息约赚3-4毛左右。“我每个月销售数据流水大概在40-50万元,金融、教育、医美等行业都做,这块需求量会比较大。”
  •  
  • 记者在与多位料商接触采访过程中了解到,祝经理并非一级料商,一级料商的进货成本在0.15元/条左右,类似祝经理的二级料商进货成本为0.4元/条左右,三级料商进货成本0.7-0.8元/条,对终端售卖均价在1.2-1.5元/条。
  •  
  • 上述不过是数据黑市交易中普通隐私数据价格。在数据黑市中,还有料商专门从事“渗透数据”交易,所谓的“渗透数据”就是所有信息都能够被抓取,除了电话号码、微信等基本信息以外,还包含用户的身份证号、出行记录、开房记录、通话记录、家庭成员、工作、婚姻状态、户籍所在地等。
  •  
  • 有料商甚至在QQ群里直接将“渗透数据”明码标价,查询个人简易信息15元/条,包含姓名、性别、手机号;中级信息50元/条,除了简易信息外,还包含户籍地址、身份证号、照片;高级信息100元/条,在中级信息基础上还包含现住地址、开房记录、车辆信息;VIP客户600元/条。
  •  
  • “‘渗透’数据价格这么低,一种可能是非常陈旧的个人信息;另一种可能就是以批发商角色直接跟黑客以最低价格拿货,而且要数据交易量非常大,至少10万条起交易,黑客才愿意冒这种风险。正常行情价仅通话记录,叫价在1500元左右,开房记录价格在2200-2500元左右,家庭成员信息在300元左右。”网名“风”的料商称。
  •  
  • 记者在采访中了解到,为避免无效数据和浪费人力,目前黑市数据交易一般都是采取定制化需求,即买家先提出去需求,比如需要哪个行业的数据,需要多少条,包含哪些个人信息,然后通过转账提前预付,料商再根据买家的需求去针对性的获取数据。
  •  
  • 据不完全统计,国内个人信息泄露数达55.3亿条左右。平均算下来,每个人就有4条相关的个人信息泄露,车辆、房产、地址、职业、年龄、电话号码、身份证信息等在黑市上频繁流动。
  •  
  • 国内知名信息安全团队“雨袭团”去年10月发布报告称,在一年半的时间内,高达8.6亿条个人信息数据被明码标价售卖,个人数据基本处于裸奔状态。
  •  
  • 终极流向,买家精准推销、诈骗
  •  
  • “本人求购炒股理财信息,数量上不封顶,有料的找我!”一位买家在QQ群内发布了这样一则消息,很快就有多位料商通过私聊向其推荐手上的数据资源。
  •  
  • 在经过沟通和比价之后,上述买家告诉记者,他已经从一位料商手中拿到了10000条理财的个人信息,包含了姓名、电话号码和微信,价格为1元/条。记者进一步追问拿到这些数据主要用途,该买家表示,仅仅是为了推销理财产品。
  •  
  • 综合多方采访,购买个人信息最多的是那些需要推销广告、出售假冒发票和发布垃圾信息、以及从事网贷催收的人。其中房地产中、理财公司、保险公司、母婴以及保健品行业、教育培训机构是对个人信息趋之若鹜的核心群体。
  •  
  • 被盗取的个人信息也不乏用于诈骗。比如保健品用户信息主要针对老年人,专门用来诈骗;学生信息,则用来推销教材和家教信息,或以中、高考加分为借口进行诈骗。
  •  
  • 记者在与买家接触中发现,他们大部分人都知道买卖数据交易属于黑产,但依然作此举动,一个重要原因在于通过正规渠道打广告,比如百度竞价排名,获客成本在60-80元/左右,而通过地下黑市买用户数据,成本能缩减十分之一。
  •  
  • 从信息收集到信息售卖再到信息利用,每一个交易环节环环相扣,而由此产生的“灰色产业链”让人难以估量。据猎网发布的《现代网络诈骗分析报告》称,目前中国网络黑产从业者已经超过40万人,依托其进行网络诈骗的行业人数至少有160万人,“年产值”在1000亿元以上。
  •  
  • 在调查采访过程中,黑市数据交易利益链已经可以清晰的划分为四级,第一级黑客或内鬼、高精深网络软件盗取公民个人信息;第二级盗取的公民个人信息进入料商手中,料商建立自己的信息数据库;第三级,是料商不断发展代理商,将数据进行倒卖;第四级就是信息使用者,也就是数据终极流向买家手中,他们拿到信息后,进行电话营销或实施电信诈骗。
  •  
  • 数据合规交易痛点
  •  
  • 海量的个人信息地下市场规模多大,目前没有准确数字统计。但从公安机关的专项打击行动中,可窥一斑。
  •  
  • 2020年全国公安机关深入推进“净网2020”专项行动,全年共侦办网络犯罪案件5.6万起,抓获犯罪嫌疑人8万余名。其中,侦办侵犯公民个人信息类案件6524起,抓获犯罪嫌疑人1.3万名;侦办黑客攻击及新技术犯罪案件1782起,抓获犯罪嫌疑人2975名;侦办网络黑产类案件1万余起,抓获犯罪嫌疑人1.5万名,扣押“手机黑卡”548万余张,查获涉案网络账号2.2亿余个,及时阻止1850万余张物联网卡流入黑市。
  •  
  • 但很显然,这并非黑市全貌。贵阳大数据交易所业务经理陈经理向记者表示,“目前通过正规渠道进行数据交易的不多,更多的数据可能还是在黑市交易。”
  •  
  • 贵阳大数据交易所是国内首家大数据交易所,2015年4月正式挂牌运营,喊出了未来3-5年每天交易量达到100亿多亿元的口号。如今,交易所成立已经6年,陈经理向记者透露,目前交易所日成交量远远没有达到当时定下的目标。
  •  
  • 大数据服务商聚立信CEO罗皓以及陈经理都同时提到,数据交易过程中产生的数据确权、数据回溯、交易过程中的安全性、合法性、隐私性保障等问题,迄今为止还没有得到很好的解决。尤其是数据确权,例如数据的采集、加工、采用、交易等环节可能有多参与方,什么情况下什么类型的参与方可以获得数据的权利,在实践中尚无达成一致共识。
  •  
  • 目前可见的红线是来源是否合法,以及交易数据是否脱敏(涉及敏感信息进行去个人化,隐私化处理)。但问题在于,在数据的流转过程中,其中掺杂非法来源以及未脱敏数据实际上很难被发现。
  •  
  • 另外,数据的开放程度还远远不够,导致市面上合法流通的数据品类和数量有限,玩家们难以施展拳脚。
  •  
  • 像腾讯、阿里这样互联网巨头,在拥有海量数据的同时本身还能实现大数据云计算闭环,他们更希望是打包成数据产品和服务卖出,比单纯买卖数据更值钱,也更能避免法律风险。这些玩家共享数据的意愿不强,这从腾讯、阿里与贵阳大数据交易所自合同到期再无续约就可窥见。
  •  
  • 但从技术角度来讲,目前已经有一种技术可以实现B2B之间的数据合规化交易。大数据服务商星云Clustar CTO张骏雪向记者表示,目前公司已经采用了一套“联邦学习”算法。简单理解,就是基于双方现有的数据去共同建立一个坐标体系,这个坐标体系就是所谓的建模,建模完成后,就能较为精准的判断客户处于坐标体系安全的点还是危险的点。但是在建模过程中,双方并不知道彼此的用户资料,不用担心用户隐私被复制泄露。
  •  
  • 根据张骏雪介绍,上述联邦学习算法目前只是解决了B2B之间的数据合规化交易,且主要还是用于银行金融机构之间的数据交易,且成本较高,并没有被大规模应用。
  •  
  • 大成律师事务所律师肖飒告诉记者,个人信息的合规使用目前在中国较大程度依赖于公司的自我约束,各大运营商对于用户隐私是否尽到了保护责任。如何在公众隐私保护和商业模式中寻找一个平衡点值得深究,在保护个人权益的前提下规范、安全、有序地利用个人数据,释放大数据的红利。
  •  
  • 【上书房信息咨询简介】
  • 上书房信息咨询公司是一家集市场调研、行业研究、第三方独立调研、政府/公众咨询、项目可行性研究等于一体的综合研究咨询机构。由业界资深专家和学术界优秀师资创建,多年来,经过研究团队不断的积累与创新,已累计为1000余家各类客户提供了专业研究咨询服务,赢得了广大客户的认可和支持,并构建了包括政府相关部门、主流科研院所、行业协会、自有调查网络等在内的立体式全方位调研渠道,以及科学、系统、专业的调研体系。总部位于深圳,并在广州、北京、长沙、重庆、成都、昆明、香港、新加坡设立有分支机构或办事处。
  •  
  • 上书房信息咨询以诚信为本、以专业立身、以速度闻诸于业界、以务实通达于客户。拥有强大的专家研究阵容,强有力的专业执行队伍,有着得天独厚的学术资源背景,以及丰富的调研专业经验。通过科学系统的策划;精准的执行;专业的数据分析;完善的报告研究,辅助客户准确地把握市场需求、舆论导向,识别和确定问题及机会,避免决策风险,并为客户制订正确发展战略提供依据,使客户在激烈的竞争中获得良好的生存环境和持续发展动力。
  •  
  • 【来源:证券时报】
  • 声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。

上一篇:央行最新居民投资理财调查数据出炉
下一篇:2020年全球福利态度调查报告