商业经济
商業經濟
상업경제
BUSINESS ECONOMY
2012年
2期
30-32
,共3页
文本分类%偏最小二乘法%Logistic回归%20Newsgroups
文本分類%偏最小二乘法%Logistic迴歸%20Newsgroups
문본분류%편최소이승법%Logistic회귀%20Newsgroups
鉴于文本分类具有高维性和高相关性的特点,已有文本分类研究采用能够有效降维和消除共线性的主成分Logistic模型。然而,这种模型定式在提取主成分时没有考虑解释变量与被解释变量之间的相关性,可能导致与文本分类关系密切的解释变量信息的丢失,从而削弱模型的分类能力。考虑到这一缺陷,在分析中引入偏最小二乘方法,并对20newsgroups语料库进行分类,结果显示,在高维分类时,其分类性能相对于主成分Logistic模型具有明显优势,表明这种方法用于文本分类的有效性。
鑒于文本分類具有高維性和高相關性的特點,已有文本分類研究採用能夠有效降維和消除共線性的主成分Logistic模型。然而,這種模型定式在提取主成分時沒有攷慮解釋變量與被解釋變量之間的相關性,可能導緻與文本分類關繫密切的解釋變量信息的丟失,從而削弱模型的分類能力。攷慮到這一缺陷,在分析中引入偏最小二乘方法,併對20newsgroups語料庫進行分類,結果顯示,在高維分類時,其分類性能相對于主成分Logistic模型具有明顯優勢,錶明這種方法用于文本分類的有效性。
감우문본분류구유고유성화고상관성적특점,이유문본분류연구채용능구유효강유화소제공선성적주성분Logistic모형。연이,저충모형정식재제취주성분시몰유고필해석변량여피해석변량지간적상관성,가능도치여문본분류관계밀절적해석변량신식적주실,종이삭약모형적분류능력。고필도저일결함,재분석중인입편최소이승방법,병대20newsgroups어료고진행분류,결과현시,재고유분류시,기분류성능상대우주성분Logistic모형구유명현우세,표명저충방법용우문본분류적유효성。