DLP敏感数据识别技术与检测算法
在数字化浪潮的席卷下,企业数据的价值与日俱增,数据安全的重要性不言而喻。对于企业而言,核心数据是其发展的命脉,一旦泄露,可能会引发严重的后果,如商业机密泄露、客户信息被盗用等,给企业带来巨大的经济损失和声誉损害。
事前识别敏感数据是建设数据安全保护方案的第一步,通过敏感数据检测算法识别企业文件服务器和终端电脑上的各类数据,智能识别出其中的商业财产、产品数据、战略规划、研发代码等敏感信息,为数据保护奠定基础,从而确保终端人员能够正确安全地访问和处理敏感数据
天锐蓝盾数据泄露防护系统DLP 始终秉持以数据为中心的理念,运用数据敏感内容识别与发现的创新方法,对经过监控通道的数据进行深度剖析,一旦系统察觉到敏感数据有风险,便会迅速触发相应的安全行为,阻止数据泄露可能性的进一步扩大,为企业的数据安全保驾护航。
▷ 文档识别能力:
蓝盾DLP系统采用自主研发的内容识别引擎,具有强大的数据发现能力,在文件识别能力上可做到:
识别常见文件类型:包括doc/xls/ppt/pdf/zip/txt/jpg/gif等。
不依赖扩展名:对于不带扩展名或修改扩展名的文件,同样能根据其文件特征识别文件内容。
识别嵌套文档:能够识别以对象方式插入Word、Excel、PPT的文档。
识别不同位置内容:能够识别文档正文、页眉页脚、属性页等各种不同位置中的关键字。
▷ 检测算法技术:
在检测算法技术方面,蓝盾DLP系统更是融合了多种先进算法和检测方法,构建起全方位、多层次的检测体系:
1. 关键字检测
通过关键字和关键字对的检测技术对文件内容进行搜索和匹配,判断文件内容是否包含敏感内容信息。管理员可设置敏感信息的关键字,当含有该关键字的Office文档、PDF文件、压缩包等文档通过网络传输时,DLP即可自动检测出该文档包含敏感数据,并进行安全响应。
2、正则表达式
管理员制定好检测规则,当检测符合规则的文件时,即可触发相应的安全响应措施。适用于防护企业内部文档中包含:手机号码、身份证号、组织机构代码、IP地址等敏感字符信息的保护。
3、LUA表达式
管理员编辑或选择LUA脚本,当检测规则满足正则表达式时,通过LUA脚本进一步检测出细粒度的违规内容。
4、数据标识符
将正则表达式匹配与数据验证器相结合,以监测具备固定格式的内容,实现精确、简短格式的数据匹配,实现对敏感信息内容的匹配识别。
5、文件属性
可针对文件的类型、文件的大小、文件的名称、作者、编辑时间等进行检测,判断文件属性是否包含敏感内容信息,尤其适用于特定属性文档的识别,比如:某些重要员工编辑的文件、在投标时间段内未公开的文件等。支持文件防伪冒,精准识别原始格式,杜绝恶意修改文件类型试图躲过敏感内容检测的行为。
6、OCR图像识别
通过强大的OCR图像识别技术对图像文字进行分析识别处理,提取图像文字特征、图章印章等,与样本特征库进行查询对比匹配。
7、源代码识别
通过源代码识别技术检测终端用户外发或接收的文件并进行识别,以判断文件内容是否含有源代码,从而防止内部成员将源代码隐匿在其他类型的文档中泄露。
8、数据库指纹
支持根据精确指纹技术,精确识别数据库中表的各项内容。可读取并学习结构化数据特征,以防护敏感结构化数据泄露。适用于防护企业各种年度报表、财务报表、员工薪资条等敏感数据。
9、文件指纹
支持根据样本文件指纹库识别敏感文件内容匹配度。从样本文档进行学习和训练创建文档指纹特征,拿到敏感内容的文档时,提取敏感信息文档的指纹模型,将目标检测文档得到的指纹与训练的指纹进行比对,检测文档是否为敏感信息文档,以保护以文档形式存储的非结构化数据。例如 Microsoft Word 与 PowerPoint 文件、PDF 文档、财务并购文档,以及其他敏感或专有信息。
10、文件分类
支持根据特征进行“机器学习”,以提取共同特征来识别敏感文件内容。支持对文本文件、图片文件、办公文件、代码文件、压缩文件等数百种文件类型识别,有效检测压缩加密、文档加密、压缩嵌套、文档嵌套、文件伪装等容易发生逃逸行为的文件。
11、向量机检测
智能机器学习,根据导入的文档特征进行采集与学习,最后由系统进行敏感信息的判定。适用于管理不同部门、不同岗位产生的文档。
天锐蓝盾数据泄露防护系统DLP以敏感内容识别技术为核心,结合加密技术事前过滤数据,运用桌管技术事中安全管控,通过大数据分析技术事后监测预警,以灵活丰富的策略机制及完整有效的趋势报表,构建极具特色的全方位数据安全防护体系。