小型微型计算机系统
小型微型計算機繫統
소형미형계산궤계통
MINI-MICRO SYSTEMS
2009年
8期
1541-1545
,共5页
编辑距离%树匹配%数据挖掘%剪枝
編輯距離%樹匹配%數據挖掘%剪枝
편집거리%수필배%수거알굴%전지
在互联网中,网页等半结构化文本通常由不同的语义区缺组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善.
在互聯網中,網頁等半結構化文本通常由不同的語義區缺組閤而成,定位和挖掘這類區塊對網頁內容理解、頁麵結構分析等有著重要的作用.然而由于不同網頁在結構和內容上都存在著較大的區彆,準確的從不同的網頁中定位特定的結構區域是一箇相對複雜的任務.主要提齣一種基于樹匹配的方法用來挖掘網頁中的語義區塊,併通過剪枝等策略優化算法.實驗錶明該方法能有效提高F值,同時算法的性能有較大改善.
재호련망중,망혈등반결구화문본통상유불동적어의구결조합이성,정위화알굴저류구괴대망혈내용리해、혈면결구분석등유착중요적작용.연이유우불동망혈재결구화내용상도존재착교대적구별,준학적종불동적망혈중정위특정적결구구역시일개상대복잡적임무.주요제출일충기우수필배적방법용래알굴망혈중적어의구괴,병통과전지등책략우화산법.실험표명해방법능유효제고F치,동시산법적성능유교대개선.