您当前的位置:首页 > 生活资讯 > 科技|生活

数据匿名化或不足以保护个人隐私 《自然-通讯》

时间:2019-07-31  来源:本站  作者:

   论文标题:Estimating the success of re-identifications in incomplete datasets using generative models

  

   期刊:Nature Communications

  

   作者:Luc Rocher,Julien M. Hendrickx,Yves-Alexandre de Montjoye

  

   发表时间:2019/07/23

  

   数字识别码:10.1038/s41467-019-10933-3

  

   微信链接:https://mp.weixin.qq.com/s/ndRujpvC-Tdyw31BZp7ygw

  

《自然-通讯》发表的一篇论文 Estimating the success of re-identifications in incomplete datasets using generative models 介绍了一种可以评估一个人的身份是否能够从一个不完整的匿名化数据库中被重新识别出来的方法。该论文认为目前的匿名化和数据共享方法可能不足以保护个人隐私或满足数据保护法律法规的要求,如欧盟的《通用数据保护条例》(GDPR)。

  

  

图1图源:VisualHunt

  

   数据科学和人工智能有望变革我们日常生活的方方面面,如医疗、卫生保健、商业和治理。这些方法依赖于大规模的详细个人数据,但是收集和共享个人数据引发了有关个人隐私的担忧。针对这个问题,目前的解决方法包括匿名化处理和公布不完全的数据集。但是,近期发生了利用匿名数据集,包括浏览历史记录、手机和信用卡数据,成功重新识别出个体身份的情况,这表明上述措施可能还不够充分。

  

   英国帝国理工学院的Yves-Alexandre de Montjoye及同事开发了一种统计方法,能够准确估算通过匿名数据集正确地重新识别个体身份的可能性。作者发现,只需要知道少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份——即使数据集是不完整的。已知属性越多,识别的可能性越大。例如,99.98%的马萨诸塞州人口可以通过15个人口统计学属性识别出来。因此,他们总结认为只公布取样数据集或不完全数据集不足以保护个人隐私。

  

摘要:While rich medical, behavioral, and socio-demographic data are key to modern data-driven research, their collection and use raise legitimate privacy concerns. Anonymizing datasets through de-identification and sampling before sharing them has been the main tool used to address those concerns. We here propose a generative copula-based method that can accurately estimate the likelihood of a specific person to be correctly re-identified, even in a heavily incomplete dataset. On 210 populations, our method obtains AUC scores for predicting individual uniqueness ranging from 0.84 to 0.97, with low false-discovery rate. Using our model, we find that 99.98% of Americans would be correctly re-identified in any dataset using 15 demographic attributes. Our results suggest that even heavily sampled anonymized datasets are unlikely to satisfy the modern standards for anonymization set forth by GDPR and seriously challenge the technical and legal adequacy of the de-identification release-and-forget model.

  

   (来源:科学网)

来顶一下
近回首页
返回首页
推荐内容
推荐文章
如何用 EndNote 编辑适合投稿杂志的参考文献格式
如何用 EndNote 编
如何进行医学论文发表与写作
如何进行医学论文
如何获取制作高质量SCI论文图片?
如何获取制作高质
虚拟现实、云技术、人工智能,未来教育有啥不一样?
虚拟现实、云技术
代写论文被发现 竟因毕业论文“高大上”
代写论文被发现 竟
如何使用Endnote X7进行文献管理?
如何使用Endnote
SCI医学论文写作及投稿技巧汇总
SCI医学论文写作及
“你的论文充斥着垃圾”:英文科研论文写作逆袭之路
“你的论文充斥着
赞助商链接
热门文章
  • 人体自救九大奇招:时刻检查心脏健康的
  • 从书写字迹看性格的不同
  • 吃鸡蛋5大误区
  • 专家建议七种食物必须吃
  • 美报:年轻科学家,去中国吧!
  • 最实用的5个刷牙诀窍
  • 夏日午休4个误区:午饭后不要立刻睡
  • 英国媒体评出全球29项最新环保科学技术
  • 揭密5种睡姿与疾病的神秘关系
  • 专家称女性用电脑过度易致电脑脸
  • 研究表明在幼儿园学到更多知识孩子长大
  • 两眼间距决定是否漂亮 女性最完美面孔
  • 最新文章
  • 人工智能识别健康和发病土壤
  • 科学家找到消除成瘾记忆的“橡皮擦”
  • 模型预测哪些儿童有肥胖风险
  • 青蛙是怎么变绿的
  • 科学家揭示随机光场中涡旋导致相干性退
  • 研究揭示造山型金矿流体来源和演化
  • 伊辛模型研究自旋玻璃获进展
  • 首例新冠母婴传播被证实
  • 压力升高促使二维钙钛矿发光性能提升
  • 海龟惊世航海壮举依赖粗糙的天然“地图
  • 木质文物保存状态可实现无损评估
  • 科学家研究证实每晚睡6-7小时可预防痴
  • Copyright © 2007-至今 yijy.com,All Rights Reserved 医家园