首页 > 热点资讯 >新闻内容

数据脱敏——什么是数据脱敏

2021年06月02日 12:06

一、什么是数据脱敏


数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。

百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。


二、为什么要进行数据脱敏


上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。

对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。

三、如何实现数据脱敏


按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

我们目前遇到的场景是日志脱敏,即在把日志中的密码,甚至姓名、身份证号等信息都进行脱敏处理。

脱敏前:


脱敏后:

如上图,仔细分析会发现,打日志之前,获得脱敏的数据就两个步骤:【拿到要输入的数据(user实体)】→【进行序列化】,所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理。


相关推荐

租客网:急房客所急,想房客所感!

坚信许多北京、上海市、广州市、深圳工作的大家对文章内容的题目一定感触颇深,从今年高考刚开始,就会有大量学员朝思暮想去这种大都市念书,造成这种大城市的高等院校录取分数每年增涨,学员根据自身的勤奋总算报考了自身心爱的高校,一家人都为此非常高兴。可是四年以后,这种学生会发觉一个心酸的情况:这座日常生活了四年的大城市压根留下不来你,由于你勤奋的步伐追赶不了上涨的楼价,这一次依靠自己勤奋不一定会出现好结果。到底是怎么回事?在一线城市,不论是逐梦的打工族還是大学毕业以后再次逐梦的在校大学生,要想凭一己之力在大城市购房,早已是不可能的事情。而被大部分人做为优选的租房子,也逐渐变成了高不可攀的琼楼玉宇。据新闻媒体,一线城市均值每一年房租会价格上涨约10%,月租费上涨幅度在200-300元中间,地区地区不一样很有可能略有不同。其身后的缘故,早就不仅是楼盘焦虑不安这一单纯性的难题了,很多资产的迁入,变成房产租赁销售市场的背后八卦掌。房主与租客中间的连接越来越低,很多中介公司服务平台的干预,造成很多空置房源注入中介公司销售市场,可是针对各种中介公司服务平台手上究竟有多少楼盘,及其每一个楼盘的实际信息内容,这种数据信息没法开展认证,也没有统一的管理方法和核查。租房子销售市场的饱和,一方面是因为一系列我国房地产调控现行政策的颁布,针对故意投资房产、炒高楼价的个人行为开展了严厉打击,针对选购二套房、三一套房的选购规定有严苛的操纵,楼价的涨幅有一定的稳定,买房销售市场展现逆龄的趋势。另一方面是每一年很多的外地人流动人口从经济发展落后地区涌进经济发展比较发达地域,造成租房销售市场一房难寻。中介公司服务平台针对代管的楼盘统一增涨价钱,攻占租房子销售市场绝大多数的价钱主导权。让房客们对于此事甚感无可奈何。在诸多信息内容多种多样、参差不齐的中介公司服务平台中,怎样寻找一个真实为房客服务项目、立在房客的观点上考虑到难题的中介公司是许多房客的理想,也是支撑点她们在这里座城市发展的基本。租客网就在那样的大环境下应时而生,急房客所急,想房客所感。为众多房客出示大量楼盘,而且价格实惠。针对租房子销售市场上,中介公司比房主收得都多的状况不屑一顾,不肯与他们蛇鼠一窝。坚持不懈做好品牌才是关键,保持清醒的认知,了解到这类毁坏经济规律、蹭热点炒高楼价的个人行为是急于求成的资产公司目光短浅的主要表现。

2020年08月13日 11:53

如何利用伪原创增加自己网站的原创文章

网站在SEO优化中是大家在日常都会做到的工作,而这里面的工作重点就是写原创文章,但对于没有文字功底的网站工作人员来说,写作便是种笔尖上的噩梦,为了解决这个难题,很多小伙伴便把精力集中在了写伪原创,那么什么才是真正的伪原创呢?百度又是如何评判文章的质量呢?要想弄明白这个道理要知道伪原创的定义,百度百科给的定义是:伪原创是指把篇原创的文章进行再加工,使其让搜索引擎认为是篇原创文章,从而提高网站权重。编辑方法有修改标题的关键词和首尾段落总结两种。既然知道了伪原创的定义,那么下面小编和小伙伴们起来分析下,如何写高质量的伪原创,其实所谓的高质量伪原创是将已经发布的片旧的文章经过我们人为的调整改动,又将其发布于网络,同时又巧妙的躲避百度蜘蛛的检索规则,使其认为是篇原创文章,看到这里,我想小伙伴都应该明白做伪原创的精髓在哪里了,我们要做的内容是如何躲避蜘蛛的层层审核,使其认为是篇原创文章。那么问题来了?这些和伪原创又有什么关系呢?其实其中的原理都是相同的,只不过发展到,其数据演变为云计算,功能更加便捷快速而已,下面给大家说下搜索引擎的爬行原理,以此来指导我们写出更好的伪原创。搜索引擎的排名原理,第步要做的是爬行和抓取,以此完成蜘蛛的数据收集任务,步是蜘蛛的链接跟踪,其中将涉及深度优先法则与广度优先法则,第三步将是根据搜集数据建立地址库。第四步是预处理,很多人将此步骤定义为索引,其实这里有必要说明下,预处理包含众多规则,而索引只是预处理中重要的步骤,下面到了我们本次要说的重要的步骤,也是关系我们是否能成功处理伪原创的问题。预处理第步:文字提取,因为正常的网页中包含大量的标签,JS程序等无法用于排名的东西,所以第步将是把这些无法用于排名的东西统统处理干净,只剩下利于我们排名的文字,当然除了这些标签代码外,搜索引擎也会提取出些特殊的信息代码,例如富媒体替代文字等。部是:中文分词,中文分词是搜索引擎特有的步骤,搜索引擎处理页面及用户搜索都是以词为基础,英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,个句子中的所有字和词都是连在起的。搜索引擎必须首先分辨哪几个字组成个词,哪些字本身是个词。第三步是:去停止词,无论是中文还是英文,语句中总会包含些嗯,得,的,and,or,the等词语,搜索引擎在索引页面之前会去掉这些词语,以减少无畏的计算。第四步是:消除噪声,绝大部分页面上都会包含对搜索排名没有贡献的些词语,这些词语也将统统被搜索引擎所CUT,接下来将是去重,正向索引,倒排索引,链接关系计算,特殊文件处理,后步是:排名。所以看到这里的小伙伴应该明白单纯的将篇原创文章拿来后经过修改标题,然后关键词植入是不会把搜索引擎蒙蔽的,更何况,XX搜索引擎接二连三的算法层出不穷,又增加了对句子,对段落的各种匹配模式,所以又增加了伪原创的难度,并且伪原创问题已经在各类搜索引擎中加入甄别算法,对核心关键词匹配度达到70%的将被认为为伪原创,并对词意进行分析,对词意相似度达到80%的将定义为伪原创。  作为我们这些辛苦的网站工作者,要做的是合理避开这些规则,让我们的伪原创成为真正的原创。让这些原创,真正的让百度收录,将会具有事半功倍的效果。

2020年04月04日 04:11

租客网:深圳租房“新政”来了

租客网:深圳租房“新政”来了3月17日,深圳市住房和建设局转发《深圳市新型冠状病毒肺炎疫情防控指挥部办公室关于疫情防控期间开展住房租赁有关工作的意见》(简称《意见》)。《意见》要求保持住房租金价格稳定,同时引导依法理性减免租金,支持住房租赁企业稳定现金流。《意见》指出,疫情期间,住房租赁企业应切实履行社会责任,保持住房租金水平的稳定,杜绝哄抬物价、不明码标价等违法行为。同时,住房租赁各方当事人应本着守法守约、互谅互让原则,协商分担疫情造成的租金损失,任何一方不能违法强制要求对方作出让步。轻资产住房租赁企业与业主就租金减免未协商达成一致的,不能违法停止支付业主租金;协商一致的,住房租赁企业应将业主减免的租金惠及承租人。住房租赁企业应切实保障承租人的合法居住权,不得违法违约驱赶承租人。《意见》亦明确,各有关单位要进一步落实《深圳市应对新型冠状病毒肺炎疫情中小微企业贷款贴息项目实施办法》(深工信规〔2020〕3号),为符合条件的住房租赁企业提供贷款贴息支持。鼓励银行业金融机构按照依法合规、风险可控、商业可持续的原则,向住房租赁企业提供金融支持。同时,对受疫情影响到期还款困难的住房租赁企业,可予以展期或续贷,不得盲目抽贷、断贷、压贷。(文章摘自网络,侵删)

2020年03月30日 15:22