CAJ | 학술논문

由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题.为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法.将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法.结果表明该算法是一种能更有效检测敏感信息的方法.
유우판공종단가능출현민감신식설로적풍험,대종단상적문당진행민감신식검측취현득십분중요,단현유민감신식검측방법중존재상하문신식무관적색인도치문당건모불준학、사순어의확전불충분적문제.위차,수선제출기우상하문적문당색인평활산법,구건진가능보류문당신식적색인;연후개진사순어의확전산법,결합영역본체중개념민감도괄당확대민감신식검측범위;최후장문당평활화사순확전융합우어언모형,재기기출상제출료문당민감신식검측방법.장채용불동색인궤제、사순관건자확전산법급검측모형적사충방법진행비교,소제출적산법재문당민감신식검측중적사전솔、준학솔화F치분별위0.798,0.786화0.792,각항성능지표균명현우우대비산법.결과표명해산법시일충능경유효검측민감신식적방법.