计算机工程与应用
計算機工程與應用
계산궤공정여응용
COMPUTER ENGINEERING AND APPLICATIONS
2012年
11期
137-142
,共6页
文本分类%向量空间模型%词共现模型%模拟退火%交叉覆盖算法
文本分類%嚮量空間模型%詞共現模型%模擬退火%交扠覆蓋算法
문본분류%향량공간모형%사공현모형%모의퇴화%교차복개산법
给出了一个词共现改进的向量空间模型(Word Co-Occurrence Mode Based On VSM,WCBVSM)与模拟退火交叉覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)相结合的文本分类新模型.传统的向量空间模型(VSM)采用词条作为文档的语义载体,没有考虑文本上下文词语之间的语义隐含信息,在词共现模型的启发下,提出WCBVSM,它通过统计文本中的词共现信息,加入VSM,以获得文档隐含的语义信息.针对交叉覆盖算法中识别精度与泛化能力之间的一对矛盾,结合模拟退火算法的思想,提出了SACA,改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力.实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度.
給齣瞭一箇詞共現改進的嚮量空間模型(Word Co-Occurrence Mode Based On VSM,WCBVSM)與模擬退火交扠覆蓋算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)相結閤的文本分類新模型.傳統的嚮量空間模型(VSM)採用詞條作為文檔的語義載體,沒有攷慮文本上下文詞語之間的語義隱含信息,在詞共現模型的啟髮下,提齣WCBVSM,它通過統計文本中的詞共現信息,加入VSM,以穫得文檔隱含的語義信息.針對交扠覆蓋算法中識彆精度與汎化能力之間的一對矛盾,結閤模擬退火算法的思想,提齣瞭SACA,改進瞭傳統交扠覆蓋在覆蓋初始點選取時的隨機性,併通過增加每箇覆蓋所包含的樣本點來減少覆蓋數,從而增彊瞭覆蓋的汎化能力.實驗結果錶明提齣的文本分類新模型在加快識彆速度的基礎上,提高瞭分類的精度.
급출료일개사공현개진적향량공간모형(Word Co-Occurrence Mode Based On VSM,WCBVSM)여모의퇴화교차복개산법(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)상결합적문본분류신모형.전통적향량공간모형(VSM)채용사조작위문당적어의재체,몰유고필문본상하문사어지간적어의은함신식,재사공현모형적계발하,제출WCBVSM,타통과통계문본중적사공현신식,가입VSM,이획득문당은함적어의신식.침대교차복개산법중식별정도여범화능력지간적일대모순,결합모의퇴화산법적사상,제출료SACA,개진료전통교차복개재복개초시점선취시적수궤성,병통과증가매개복개소포함적양본점래감소복개수,종이증강료복개적범화능력.실험결과표명제출적문본분류신모형재가쾌식별속도적기출상,제고료분류적정도.