中文信息学报
中文信息學報
중문신식학보
JOURNAL OF CHINESE INFORMAITON PROCESSING
2011年
5期
3-8
,共6页
魏超%陈飞%许丹青%张敏%刘奕群%马少平
魏超%陳飛%許丹青%張敏%劉奕群%馬少平
위초%진비%허단청%장민%류혁군%마소평
信息检索%网页质量评价%Ordinal Logistic Regression
信息檢索%網頁質量評價%Ordinal Logistic Regression
신식검색%망혈질량평개%Ordinal Logistic Regression
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题.在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regression模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素.
網絡數據的飛速增長為搜索引擎帶來瞭巨大的存儲和網絡服務壓力,大量冗餘、低質量迺至垃圾數據造成瞭搜索引擎存儲與運算能力的巨大浪費,在這種情況下,如何建立適閤萬維網實際應用環境的網頁數據質量評估體繫與評估算法成為瞭信息檢索領域的重要研究課題.在前人工作的基礎上,通過網絡用戶及網頁設計人員的參與,文章提齣瞭包括權威知名度、內容、時效性和網頁外觀呈現四箇維度十三箇因素的網頁質量評價體繫;標註數據顯示我們的網頁質量評價體繫具有較彊的可操作性,標註結果比較一緻;文章最後使用Ordinal Logistic Regression模型對評價體繫的各箇維度的重要性進行瞭分析併得齣瞭一些啟髮性的結論:互聯網網頁內容和實效性能否滿足用戶需求是決定其質量的重要因素.
망락수거적비속증장위수색인경대래료거대적존저화망락복무압력,대량용여、저질량내지랄급수거조성료수색인경존저여운산능력적거대낭비,재저충정황하,여하건립괄합만유망실제응용배경적망혈수거질량평고체계여평고산법성위료신식검색영역적중요연구과제.재전인공작적기출상,통과망락용호급망혈설계인원적삼여,문장제출료포괄권위지명도、내용、시효성화망혈외관정현사개유도십삼개인소적망혈질량평개체계;표주수거현시아문적망혈질량평개체계구유교강적가조작성,표주결과비교일치;문장최후사용Ordinal Logistic Regression모형대평개체계적각개유도적중요성진행료분석병득출료일사계발성적결론:호련망망혈내용화실효성능부만족용호수구시결정기질량적중요인소.