热门搜索: 论文 发表 社科期刊 北大核心 南大核心 cssci 科技期刊 教育

当前位置:主页 > 教育论文 > 对外汉语论文 >

一种主题爬虫文本分类器的构建

发布时间:2019-01-06 19:19  文章来源:笔耕文化传播
【摘要】:该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
[Abstract]:This paper uses the method of feature selection based on DF and CHI statistics to extract features from web pages related to Chinese as a foreign language on the Internet, and on this basis, A two-step classifier based on the combination of title and text is constructed. The experiment shows that the efficiency and recall rate of the classifier are higher than that of the traditional classifier. At present, the classifier has been used to provide data sources for the construction of large Chinese as a foreign language corpus.
【作者单位】: 北京师范大学信息科学与技术学院;
【分类号】:TP391.1

【参考文献】

相关期刊论文 前2条

1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期

2 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

相关硕士学位论文 前1条

1 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年

【共引文献】

相关期刊论文 前10条

1 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期

2 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期

3 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期

4 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期

5 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期

6 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期

7 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期

8 朱培毅,黄敏;基于Boosting算法的文本自动分类器模型设计[J];高校图书馆工作;2004年05期

9 何峰;;一种基于粗糙集理论的文本分类方法[J];自动化与信息工程;2006年03期

10 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期

相关会议论文 前2条

1 Zhao Shuanzhu Chen Junjie Guo Xin College of Computer and Software Taiyuan University of Technology,Taiyuan,Shanxi,Chnia,030024;Research on the Frame Structure and Its Implement of a Special Field-based Content Information Mining System on Web[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 8)[C];2005年

2 Zhenxing Wang Jingbo Zhu Institute of Computer Software and Theory,Northeastern University Shenyang,China,110004;Improving K-NN Text Categorization by Bootstrap Technique[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

相关博士学位论文 前10条

1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年

2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年

3 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年

6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年

8 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年

9 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年

10 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年

相关硕士学位论文 前10条

1 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年

2 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年

3 邱宇红;向量空间模型在医学文献相关性研究中的应用[D];中国医科大学;2006年

4 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年

5 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年

6 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年

7 邹金凤;基于综合评价理论的多分类器容器[D];大连理工大学;2005年

8 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年

9 廖海波;基于投影寻踪回归的文本分类研究[D];江西师范大学;2005年

10 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年

【二级参考文献】

相关期刊论文 前9条

1 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期

2 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期

3 宋枫溪,郑如冰,王积忠;自动文本分类中两种文本表示方式的比较[J];计算机工程;2004年18期

4 周水庚,关佶红,俞红奇,胡运发;基于Ngram信息的中文文档分类研究[J];中文信息学报;2001年01期

5 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期

6 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期

7 张文进;文本信息检索中的概率模型[J];情报杂志;2005年03期

8 肖明,沈英;自动分类研究进展[J];现代图书情报技术;2000年05期

9 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期

相关硕士学位论文 前1条

1 陈本庆;遗传算法研究及其在排课问题中的应用[D];西南交通大学;2003年

【相似文献】

相关硕士学位论文 前2条

1 盖慧敏;DF公司管理信息系统改进方案研究[D];西北大学;2012年

2 曹群;DF集团ERP实施关键成功因素研究[D];兰州大学;2010年



本文编号:2403220


论文下载
论文发表
教材专著
专利申请


    下载步骤:1.微信扫码 2.备注编号 2403220. 3.下载文档
    注:1.必须备注编号;2.正常10分钟可下载。有问题,加微信微信


    本文链接:http://www.bigengculture.com/jiaoyulunwen/duiwaihanyulunwen/2403220.html