计算机科学
計算機科學
계산궤과학
COMPUTER SCIENCE
2007年
10期
226-228
,共3页
ttf%itf%规范化因子%质心%平均距离%标签影响因子向量
ttf%itf%規範化因子%質心%平均距離%標籤影響因子嚮量
ttf%itf%규범화인자%질심%평균거리%표첨영향인자향량
在Web文档中,同一个关键词处在不同Html标签中,其对中心思想影响程度各不相同.选择合适的标签影响因子,对于构建文档的数学模型至关重要.本文在总结前人研究基础之上,提出了一种新的推导算法,该算法提出了ttf(标引词标签频率)和itf(逆标签频率)等定义,构造出行序为标签、列序为关键词的文挡矩阵.从中抽取每个文档的某一特定行向量组构成一个新的向量集合,根据这个新集合中各个向量到质心的平均距离,就能得出该特定行向量集合所代表的标签的影响因子(针对训练文档集合).如果训练文档集合的容量放大到足够,就可以近似认为这个影响因子具有一般意义.通过试验验证,推导出的影响因子作用于新的文档集合的时候,在一定程度上改善了检索的性能.
在Web文檔中,同一箇關鍵詞處在不同Html標籤中,其對中心思想影響程度各不相同.選擇閤適的標籤影響因子,對于構建文檔的數學模型至關重要.本文在總結前人研究基礎之上,提齣瞭一種新的推導算法,該算法提齣瞭ttf(標引詞標籤頻率)和itf(逆標籤頻率)等定義,構造齣行序為標籤、列序為關鍵詞的文擋矩陣.從中抽取每箇文檔的某一特定行嚮量組構成一箇新的嚮量集閤,根據這箇新集閤中各箇嚮量到質心的平均距離,就能得齣該特定行嚮量集閤所代錶的標籤的影響因子(針對訓練文檔集閤).如果訓練文檔集閤的容量放大到足夠,就可以近似認為這箇影響因子具有一般意義.通過試驗驗證,推導齣的影響因子作用于新的文檔集閤的時候,在一定程度上改善瞭檢索的性能.
재Web문당중,동일개관건사처재불동Html표첨중,기대중심사상영향정도각불상동.선택합괄적표첨영향인자,대우구건문당적수학모형지관중요.본문재총결전인연구기출지상,제출료일충신적추도산법,해산법제출료ttf(표인사표첨빈솔)화itf(역표첨빈솔)등정의,구조출행서위표첨、렬서위관건사적문당구진.종중추취매개문당적모일특정행향량조구성일개신적향량집합,근거저개신집합중각개향량도질심적평균거리,취능득출해특정행향량집합소대표적표첨적영향인자(침대훈련문당집합).여과훈련문당집합적용량방대도족구,취가이근사인위저개영향인자구유일반의의.통과시험험증,추도출적영향인자작용우신적문당집합적시후,재일정정도상개선료검색적성능.