计算机应用
計算機應用
계산궤응용
COMPUTER APPLICATION
2014年
9期
2639-2644
,共6页
苏赢彬%杜学绘%夏春涛%李海华
囌贏彬%杜學繪%夏春濤%李海華
소영빈%두학회%하춘도%리해화
敏感信息%文档平滑%语义扩展%语言模型%检测方法
敏感信息%文檔平滑%語義擴展%語言模型%檢測方法
민감신식%문당평활%어의확전%어언모형%검측방법
sensitive information%document smoothing%semantic expansion%language model%detection approach
由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题.为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法.将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法.结果表明该算法是一种能更有效检测敏感信息的方法.
由于辦公終耑可能齣現敏感信息洩露的風險,對終耑上的文檔進行敏感信息檢測就顯得十分重要,但現有敏感信息檢測方法中存在上下文信息無關的索引導緻文檔建模不準確、查詢語義擴展不充分的問題.為此,首先提齣基于上下文的文檔索引平滑算法,構建儘可能保留文檔信息的索引;然後改進查詢語義擴展算法,結閤領域本體中概唸敏感度適噹擴大敏感信息檢測範圍;最後將文檔平滑和查詢擴展融閤于語言模型,在其基礎上提齣瞭文檔敏感信息檢測方法.將採用不同索引機製、查詢關鍵字擴展算法及檢測模型的四種方法進行比較,所提齣的算法在文檔敏感信息檢測中的查全率、準確率和F值分彆為0.798,0.786和0.792,各項性能指標均明顯優于對比算法.結果錶明該算法是一種能更有效檢測敏感信息的方法.
유우판공종단가능출현민감신식설로적풍험,대종단상적문당진행민감신식검측취현득십분중요,단현유민감신식검측방법중존재상하문신식무관적색인도치문당건모불준학、사순어의확전불충분적문제.위차,수선제출기우상하문적문당색인평활산법,구건진가능보류문당신식적색인;연후개진사순어의확전산법,결합영역본체중개념민감도괄당확대민감신식검측범위;최후장문당평활화사순확전융합우어언모형,재기기출상제출료문당민감신식검측방법.장채용불동색인궤제、사순관건자확전산법급검측모형적사충방법진행비교,소제출적산법재문당민감신식검측중적사전솔、준학솔화F치분별위0.798,0.786화0.792,각항성능지표균명현우우대비산법.결과표명해산법시일충능경유효검측민감신식적방법.