头等玩家官网

首页 - 新闻中心 - 公司动态

公司动态行业新闻

首页 - 新闻中心 - 公司动态

27日 2023年12月

上一篇返回列表下一篇

创新加快，头号玩家官网推动AI模型在非结构化数据分类分级中深刻利用

更新功夫：2023-12-27 起源：编纂：治理员浏览：3061

在数据的；ず桶踩蚕砉讨，分类分级是所有工作的前提。头号玩家官网一向于数据分类分级领域不休索求实际，沉淀出针对非结构化数据分类分级的AI模型。近期，技术团队突破创新，开创性地以数据安全底座为支持、以AI算法模型为驱动，推出全新基于NLP的无监督分类分级模型，并于数据安全项目中成功落地利用，守住数据安全防护最前列。

01

常见分类分级方式利用局限

当前各企业内部均堆集了大量的非结构化文档，其中大部门为无标签数据。目前常见的无标签文档分类分级选取的是正则表白式匹配方式，其处置流程是先通过人为查看部门非结构化文档，并总结出正则模式，而后对数据进行匹配，匹配成功则划分到对应分类分级，匹配不成功文档归类缺失。

但是这种处置方式有很多局限性：

??首先，企业堆集的非结构化文档数量巨大，正则匹配只利用了少部门无标签数据资源，更多的正则模式没有被提取出来，覆盖率低；

??其次，随着非结构化文档的不休堆集，数据散布可能会出现变动，初期开发的正则表白式不实时批改就会导致数据漏判和误判；

??此表，非结构化文档往往是拥有多页、字符数量多的长文本，使用正则表白式对全文进行匹配效能低下。

正则表白式匹配方式，对于非结构化文档的分类分级不够精准，既不能齐全切合合规要求，也难以对所有无标签数据设置分歧类型的；ご胧，使数据置于泄露风险之中。

02

非结构化数据自动分类分级技术规划

为破解传统正则表白式匹配方式的缺点，为行业内提供更高精准度、更高效的非结构化文档分类分级方式，更火快地驱动数据防护，头号玩家官网技术研发团队深刻解构天生式人为智能、UEBA等各项前沿技术，将AI大模型与数据分类分级场景深度融合，沉淀出多个技术模型。

在历经多轮尝试、多番能力验证后，头号玩家官网在原有模型基础上拓展升级，迭代出更智能的非结构化数据自动分类分级步骤，擘画数据安全与AI技术融合发展新蓝图。

该方法的主题是利用NLP技术有效结合无监督进建和监督进建模型，分阶段来实现对非结构化数据的分类分级。在初期阶段使用无监督进建模型，通过对比进建+聚类的方式对大量的无标签样本进行分类分级，来累积初始的标签样本；之后通过监督进建模型来进一步提升整体分类分级的正确性。

在无监督进建环节，头号玩家官网技术团队开发了“文本对比进建+KMeans聚类“的方式进行建模。

无监督对比进建模型自界说伪标签“文本类似”和“文本不类似”来构建正负样本，把自己界说的伪标签当作分类信号来实现建模和训练。提取模型中央层的了局作为文本向量。接下来通过对文本向量进行聚类，从而实现无监督分类分级。

NLP作为一种天然说话处置技术，是AI技术的一个沉要子领域，头号玩家官网将其深刻融入至非结构化数据分类分级模型的成立傍边；而跑通无监督对比进建模型，意味着表征能力更强，类似句的类似度更高，非类似句的类似度更低。头号玩家官网以AI技术领跑数据安全赛路，持续为客户打造当先的数据分类分级出产力。

03

基于NLP的无监督分类分级模型技术优势

基于NLP的无监督分类分级模型，是数据分类分级领域的一次沉大创新，目前已经在数据安全具体项目中落地利用，其前瞻性和实用性也获得了客户和权威机构的认可。凭据现实运行的数据，无监督进建模型已经被验证在覆盖领域、正确率、效能和扩大机能上实现了新突破，有效破除了正则表白式匹配方式的缺点。

01

高覆盖率

该步骤提取非结构化文档的短文本特点，并开发出分歧类型文档解析器，解析文档多领域特点，有效利用大量的无标签数据作为训练资源，可能对更大领域的非结构化文档进行特点提取。经过对比，该步骤预测数据的覆盖率能达到90%+，比正则匹配步骤覆盖率提升50%。

02

高匹配效能

该步骤设计了通用的文档解析器，能够急剧对长文档抽取出主题概括。同时该步骤搭载的基于NLP的无监督对比进建模型，是一种融合AI技术的无监督式文本向量抽取方式，实现的成效是在不监督数据的情况下天生高质量的句子向量。凭据现实运行数据，在GPU加快下，该步骤可能在1秒以内实现对长文档分类分级。而正则表白式匹配方式则需10秒以上，效能提升90%.

03

高正确率

该步骤中的文本对比进建模型参考了SimCSE结构，建模过程中使用Dropout层赋予神经元随机失活能力，实现统一数据得到2个分歧的文档特点向量职能。之后使用softmax分类器对特点向量进行2分类，即可实现“文档类似”和“文档不类似”的判定。模型自身先进性优厚，因而匹配的正确率可能一向维持高水准。

04

高扩大性

该模型结构能够直接迁徙到其他业务上：文档解析职能能够扩大到其他文德粪型；模型在设计上各环节解耦，获取到文档向量后能够选取多种方式进行分类分级，并不限于KMeans聚类；对比进建+聚类的结构能够利用在多个业务场景，使用对应的训练数据源即可。

将来，基于NLP的非结构化数据分类分级模型这类全新工具和新模型会不休涌现，推动AI技术和数据安全的融合创新，赋能数据分级分类利用技术进入一个新时期，为各行业带来更高效、更创新的数据安全解决规划。头号玩家官网将在技术落地性方面做出更多致力，推进AI+非结构化数据分类分级步骤更大领域利用实际，精准鉴别数据价值、深度防护沉点数据，护航数据安全。

创造更安全的数字将来 身份与接见安全 · 数据安全 · 安全治理与运营 · 安全服务

211217064502498

【网站地图】