中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2012年
3期
129-136
,共8页
内容监控%中文论坛%特征提取
內容鑑控%中文論罈%特徵提取
내용감공%중문론단%특정제취
互联网上充斥着用户生成文档,如论坛中的帖子.如何对这些杂乱无章的内容进行监控是安全部门所关心的重点之一,话题识别与跟踪(Topic Detection and Tracking,TDT)是监控的有效手段之一.但是,网络论坛帖子的特点是回帖篇幅短、话题转移快,使得面向论坛的话题识别与跟踪变得异常困难.针对其特点,给出了三个TDT模型:首先给出一个基线模型;为了缓解“话题漂移”现象,提出了将一个话题表示为种子向量与后续向量的改进模型;在改进的模型上运用最新的命名实体(NE)权重调节策略.针对论坛帖子格式不规范及TDT系统对处理速度的要求,提出了一种特征提取方法.最后,在真实数据集上给出了所用TDT模型的实验结果,证实了所建模型及特征提取方法的有效性.
互聯網上充斥著用戶生成文檔,如論罈中的帖子.如何對這些雜亂無章的內容進行鑑控是安全部門所關心的重點之一,話題識彆與跟蹤(Topic Detection and Tracking,TDT)是鑑控的有效手段之一.但是,網絡論罈帖子的特點是迴帖篇幅短、話題轉移快,使得麵嚮論罈的話題識彆與跟蹤變得異常睏難.針對其特點,給齣瞭三箇TDT模型:首先給齣一箇基線模型;為瞭緩解“話題漂移”現象,提齣瞭將一箇話題錶示為種子嚮量與後續嚮量的改進模型;在改進的模型上運用最新的命名實體(NE)權重調節策略.針對論罈帖子格式不規範及TDT繫統對處理速度的要求,提齣瞭一種特徵提取方法.最後,在真實數據集上給齣瞭所用TDT模型的實驗結果,證實瞭所建模型及特徵提取方法的有效性.
호련망상충척착용호생성문당,여론단중적첩자.여하대저사잡란무장적내용진행감공시안전부문소관심적중점지일,화제식별여근종(Topic Detection and Tracking,TDT)시감공적유효수단지일.단시,망락론단첩자적특점시회첩편폭단、화제전이쾌,사득면향론단적화제식별여근종변득이상곤난.침대기특점,급출료삼개TDT모형:수선급출일개기선모형;위료완해“화제표이”현상,제출료장일개화제표시위충자향량여후속향량적개진모형;재개진적모형상운용최신적명명실체(NE)권중조절책략.침대론단첩자격식불규범급TDT계통대처리속도적요구,제출료일충특정제취방법.최후,재진실수거집상급출료소용TDT모형적실험결과,증실료소건모형급특정제취방법적유효성.