现代信息检索学习报告

(图与内容无关)

moderninformationretrieval现代信息检索学习报告

姓名:

班级:

学号:教师:

76993082.doc

一,我的感想

在报这课程时,对这门课程并不了解,只是简单的认为信息检索就是翻翻书找找文献等是单纯的查找。但是经过这一学期的课程,我发现每一条信息,每一篇文章都是系统的归类,划分范围类型,而检索的途径也很多种,如有作者途径检索、分类途径检索等,检索式更是分类齐全繁多。

有很多收获,感觉很充实,发现我们的生活中时时刻刻都在检索信息.在老师的指引下,我们对检索工具一步一步地熟悉和应用,对于检索的方法,我觉得不管是在哪个网站检索,最重要的还是关键词的选择。关键词选的“关键”,不仅可以提高检索速度,而且大大提高了检索结果的质量,可以很容易找到自己需要的资料,总之要缩小范围。

二,学习收获

信息检索课是无意间报名的,如不是一个偶然的事件,要不是我找错教室,也许我就会错过了一个真正的学习的机会。根据cnnic最新统计调查显示,在互联网应用中,信息检索已经排在了第二位,成为仅次于电子邮件的互联网应用。搜索网站可以帮助我们快速便捷地在互联网中进行信息的检索、查询。信息检索对我们来说并不陌生,在这个信息泛滥的年代,很难想象如果一夜之间如果没有了internet将对我们的生活产生怎样的影响。

以前我在网上找资料基本上处于一种盲目的状态。在百度里输入

76993082.doc

关键词,不少检索出来的东西,基本上用处不大,或者并没有什么依据,只是网友自己的解答。本学期上了信息检索课,我学习到了检索的一些知识,并且也由此及彼地把这些知识应用到信息的检索中。在学习阶段,通过上信息检索课我对信息检索的认识又上升到了一个新的高度。

我觉得信息检索可以应用在我们每个课程中,自己可以给自己觉得有意义的课题,进行一个追踪或者资料的查询,可以把自己学到的知识巩固,并且可以深化自己随着方面的理解。例如在我们的一堂《企业财务管理》课程,老师布臵了一个作业,一个企业并购案例分析,香港巨商李嘉诚之子,李泽楷,盈科数码动力主席与新加坡总理李光耀之子,李显扬,新加坡电信行政争夺香港电讯的收购权。在分析这道题时,就涉及到信息的检索,首先要看看这三家公司的经营情况,还要检索当时参与收购的财团,还有收购的获胜方,收购价格,最终收购后的经营状况等等。最后通过自己查到的这些资料分析为什么盈科数码动力会获胜,但是经营确是赔本的。

通过学习以后发现,信息检索的策略也是非常重要的,我原来误以为一个好的检索策略只能提高查准率,大不了我多查几篇资料,现在发现它还能提高你的查全率,而且对于你从较高层次上把握课题的研究方向、发展脉络是极有帮助的。

附:常用搜索网站信息和基本检索技巧

一,八大搜索网站简单介绍

1、“google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能

google(http。//www.6dgww.com)将网页、网站和新浪自己的内容结合在一起,网页搜索使用google的搜索技术,网站搜索依靠制作人员与网友人工编辑的网站目录来实现。

3、“雅虎”中规中矩,网页搜索表现不错,但死链率较高,对搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了

雅虎中国(http。//cn.yahoo.com)支持网页、网站搜索,搜索速度快而且准确性比较高。

4、“网易”网站搜索非常出色,但缺少提示,网易搜索的操作界面不太方便,在使用的过程中也缺少提示

网易搜索(http。//search.163.com)支持网页、网站搜索,网页搜索使用的是百度的搜索技术,除了分页方式以外,其他的返回结果都与百度一样,但推荐的站点比较少。

5、“搜狐”曾是ie默认的中文搜索网站,网站搜索值得推荐,但重复现象较多搜狐的搜索结果中没有标出关键字,查阅起来非常不便

搜狐(http。//search.soho.com)支持网页、网站搜索,在国内享有很高的声誉,曾经一度是微软ie浏览器使用的默认中文搜索网站,在ie浏览器地址栏直接输入关键字即可进行搜索。

6、“慧聪”是出色的行业搜索网站,但缺少高级搜索功能,死链率也不低,而且搜索结果中重复的网站较多

长期以来,国内的搜索技术提供厂商很少,百度作为先驱者,占据了大部分份额。到了2002年,国内搜索市场中出现了一匹黑马,那就是慧聪搜索(http://www.6dgww.com)是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。天网搜索的ftp服务器文件搜索功能非常强大,而且还为用户整理了一份庞大的热门搜索关键字目录,方便用户浏览和下载所需的文件。二,信息检索技巧

1、选择恰当的关键字

互联网上流传的所有搜索技巧都是在如何确定关键字上做文章,选择一个好的关键字是搜索成功的关键。关键字代表着我们要搜索资料的特征,如果您找不

76993082.doc

到所需的信息,大部分情况是因为在关键字的选择方向上发生了偏移。找出关键字可不是一件简单的事情:首先您需要知道或者估计出目标网页内包含的文字,在脑子里形成一个比较清晰概念,再从中提炼出此类信息最具代表性的关键字。尽量不要选择常用词汇进行搜索,但可以同时使用多个关键字并加入与、或、非等多种逻辑关系进行搜索,这样才能避免返回无关的搜索结果。

a.避免输入及逻辑关系错误首先我们要避免输入的关键字中有错别字,以及其他错误的操作。不同的搜索网站往往都有各自的特点,在某些搜索网站上,您可以使用“wherecanifindsoftware。”这样的自然语言进行搜索;但在某些搜索网站上,您甚至不能成功地使用单个汉字作为关键字进行搜索。另外,在使用多关键字通过与、或、非逻辑关系进行搜索时,不同的搜索网站所采用的逻辑关系表示符号也可能有所不同。所以我们有必要针对不同的搜索网站选择不同的关键字,并在首次使用一个搜索网站时,花一点时间阅读搜索网站的帮助文档,这是非常有必要的。

b.使用多关个键字来提高检准率对于大部分的搜索任务来说,一般都能够通过搜索网站找到需要的网页,但是如果不细心选择关键字,搜索网站可能会返回很多并不是您需要的结果。此时,如果您将另外一个跟搜索目标相关的关键字加在一起搜索,返回的结果就会少很多,也更加准确。因此,很多时候我们需要使用多个关键字查询的方法来提高搜索准确率。但需要注意的是,搜索网站对关键字的个数可能会有限制。另一方面,也要注意搜索内容之间的逻辑关系是否合理。

2.句子检索法可有效提高文本检准率

在使用搜索网站时,不少人经常被“关键字”这个名称所限,而忘了关键字可以是一个字、一个词,甚至一句话。例如在搜索小说、文章等文本内容时,最简单的方法,是用文本的标题搜索,但最高效的方法,则是用文中的一句话来搜索,可以让您的搜索效率提高不少。

3.文件检索法利于快速查找文件目标

如果您的搜索目标是一个文件,如一个公司logo的图像文件,或者一个设备驱动程序的压缩包,您除了可以用公司的名称或者设备的名称进行搜索外,还可以从文件的名称入手。例如,当您在搜索设备驱动程序时,如果选择设备的品牌、型号为关键字时,搜索网站会返回许多无关的信息,这时,如果在这些关键字的后面再加上zip或rar等常见压缩文件扩展名,您会有意外的收获。4。“抛砖引玉”法利于快速查找相关信息如果您有一个非常喜欢的专业网站,并希望从互联网上找到更多同类的网站,这时怎么选择关键字最有效呢。或许搜索这个网站的内容类型会找到一些不错的站点,例如使用“军事网站”、“医学站点”做关键字,但很多时候这种搜索方法也可能一无所得。实际上最有效的方法是抛砖引玉,用您最喜欢的网站的站点地址作为关键字。因为链接到那个站点的往往是同类站点,用这种方法您肯定能够找到一些相关的网站。

5.中西结合检索法可以很好地完成某些搜索任务

在使用搜索网站时,灵活地结合中文和英文可以很好地完成某些搜索任务。您除了可以将要翻译成中文的英文词汇用作关键字,并指定搜索网站只返回中文网页的结果,尝试将搜索网站当成翻译机器来使用;还可以将中文词汇的一部分翻译成英文,例如您正想将“土豆烧牛肉”翻译成英文,只要您知道土豆的英文,您就可以输入关键字“土豆烧牛肉potato”,从互联网上找到含有土豆烧牛肉

76993082.doc

的英文网页。

三,信息检索的应用

本学期选修了现代信息检索课程,觉得很有用,虽然在一开始对于这门课程,到底能够学下什么,到底可以应用多少产生过质疑。觉得现代信息检索,名字叫得听高级,到底学什么不了解,但在这门课程学完后我有了理解。“快速便捷地找到自己所需要的信息”是这门课程的要求,那怎么才能应用与我所学的旅游管理专业上呢。

随着互联网技术的广泛应用,旅游业的网上营销是近期行业内探讨的热门话题,而其中一个重要的推广手段——搜索引擎,在企业中发挥的作用也渐渐突显出来。对搜索引擎以及旅游行业专业人士——“去哪儿”旅游搜索引擎的了解,综观搜索引擎对推动在线旅游业发展方面所创造的价值,可以让旅游业界人士对运用搜索引擎来最大化收益有个更清晰的理解。

通过对“去哪儿”旅游搜索引擎的了解,可以看整个在线旅游行业的现状,细致分析了消费者利用网络查找及预订相关旅游服务的情况,不但有利于完善和丰富旅游搜索引擎自身的发展,对旅游运营商——航空公司、酒店及旅游代理商了解搜索引擎的及消费者购买流程更是大有裨益。

“去哪儿”的调查发现,使用网上预订的旅客都是旅游常客,进行网上预订的消费者是热衷旅游的人士,26%称在过去一年中他们至少度假4次;虽然中国的网络用户主要是在中国境内旅行,越来越多的中国人计划出国旅行,将近40%的人希望下一次旅行时能够走出国6

76993082.doc

门。

对于网上旅行者特征的调查,“去哪儿”的报告显示,这部分消费者是属于吸引力很强的人群,73%使用信用卡,22%拥有并驾驶小汽车,88%拥有大学学历。

而对他们的预订方式的调查发现,更多的人愿意使用互联网预订旅行。“去哪儿”的报告显示,一半以上的互联网用户曾经在某个地方在网上购买机票,略低于一半的人曾在网上预订酒店。

从市场应用角度来讲,航空旅游行业对搜索引擎的依赖性是比较强的。我们可以从用户的反馈看到,凡是在网上有旅行预订经历的用户,有97%的人都会通过搜索引擎来寻找旅游产品。这也给航空公司、旅行代理,还有酒店一个很强烈的信号——利用搜索引擎来传达他们的相关信息,是企业推广的有效手段之一。”

关于信息检索的应用有部分摘抄自2007的一个腾讯新闻网的《关于旅游业与搜索引擎的发展关系》,其中还有介绍google的旅游搜索引擎,但由于google2010年3月推出中国内地,转至香港,就不做介绍分析。

以上为我对现代信息检索的感想,学习收获,和现代信息检索在游业方面应用的看法,可能不是太全面,或者太狭隘,望何老师见谅和指导。

2011年12月5日星期一

第二篇:信息检索学习报告信息检索学习报告

第一部分:对自己的学习做个自我评价,

对于“信息检索”这门课程的学习,我给自己的评价是8分(10分制)。

首先,我对检索确确实实有了更深入、更准确的理解。它不再是我之前观念中那种单纯的搜索查找,而是一项系统的技术。在通过课堂的讲解和教材的指导后,我也基本掌握了对各种信息进行检索的方法、技巧以及对检索系统与工具的选择。一定程度上达到了学习本课程的目的。

其次,由于检索技术概括的面之广,而在实际使用与操作中,涉及的检索对象有限,使用的系统、语法、方法、工具等都集中在一些常用或习惯的部分,导致很多内容只是到懂得、知道的地步,远达不到熟练使用与操作。

最后,通过系统的学习,我已经可以检索到自己需要的资料,实现学以致用的目的。第二部分:每次课堂学习的收获,

开学以来,在c203上理论课的时间一共是7节。针对我们所学专业——地理资源和城乡规划管理作了举例和讲解。其中详细、具体学习的内容如下:

a)信息检索基础知识——信息与信息检索的认识,明白检索的对象、意义等。然后重点以信息检索工具及其选择原则、信息检索方法及途径、检索式的拟定、信息检索和分析步骤进行学习。其中检索语言类型、检索语言的规范、检索词的用法最为实用,学习后就立竿见影解决了平时检索的很多像检索不全、不准或过多等问题。

b)网络信息检索——就与网络相关的检索,弥补了除对图书、期刊的检索的局限性,让学习的知识可以在平时的娱乐、休闲中起作用。对搜索引擎的了解虽不是像一门技术可以掌握,但至少了解其工作原理。网络资源、导航的学习可以说切切实实节省了时间,提高了我们检索的效率。

c)学术论文的写作——作为学习这门课程的几大目的之一,掌握论文写作是必要的。通过学习知道了其格式、要求和写作程序,但还没实际操作,以至记忆不深刻,还不能不翻书完全对立完成写作。

d)对图书、期刊、特种文献、数据与事实信息的检索——不同的信息在不同的检索系统和工具上完成。在之前学习的基础上,只要清楚在哪里才能检索哪种信息就可以有效的找到相关资料,当然这也要求我们能将检索目标准确的判断为哪种信息和较好的使用检索语言。第三部分:完成上机实验题目的收获,

我们上机实验的题目主要是对检索语言的练习和利用一检索系统对相应信息进行检索的练习。这两方面与我们现在的学习、生活联系相当密切,直接的操作比上理论课更直观的感受了我们学习的内容有什么作用,对我们有什么帮助。也同样检查了我们是否真正掌握这些方法,让我知道在什么情况要做何处理。

第四部分:对信息检索这门课做个评价,

上完这门课,我才知道为什么其他学校同学争先恐后选修这门课。它比起其他很多课程更具有实用价值,学完即用。学时短,但成效可以非常显著,现在我已经可以利用学到的很多东西了。但是,上机时间有些短,如果可以再增加两堂实验课,再多布置一些题目进行练习,我想可以更好地在课堂中发现自己不知道如何处理的情况和不清楚的方法并处理这些问题。

第三篇:现代信息检索论文期末课程论文

论文标题:课程名称:信息检索技术课程编号:学生姓名:尹江津学生学号:所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:

文本分类及相关技术研究

12205001100310230

2013年7月2日

文本分类及相关技术研究

信息检索(informationretrieval,ir)是研究信息的表示、存储、组织和获取的一门学科,其目标是为用户快速、准确地提供其所需的信息。信息检索起源于20世纪50年代,在60年代取得了关键性进展,其中最著名的是gerardsalton开发的smart系统以及cymcleverdon提出的cranfield评价方法,smart系统和cranfield评价方法有力地推动了信息检索的发展。在70年代和80年代,多种关于文档检索的模型被提出,文本检索会议(trec)于1992年开始举办,该会议推动了大规模文档集合环境下的信息检索技术的发展。随着互联网上信息的迅速增加,为了进一步提高用户信息检索的质量和效率,网络上出现了更高效地信息索工具——搜索引擎(google,yahoo,bing,百度等),搜索引擎为用户在互联网这个分布式环境下检索需要的信息提供了极大的方便。

文本分类是一个监督学习过程,它根据一个类信息已知的训练文档集合,训练出文本特征和文本类别间的关系模型,然后通过这个学习得到的模型对待分类文本进行分类。文本分类技术是处理和组织文本数据的重要手段,同时也是信息检索的重要基础,把大量的文本信息按主题层次进行组织可以极大地简化信息检索的过程,按照类别对文档进行检索或对检索结果进行分类,都可以提高检索的查准率。由于文本分类技术可以对大量的文本进行分类,文本分类在信息检索、自然语言处理、垃圾信息过滤、web挖掘等领域得到了广泛应用。

一、文本分类概述1.文本分类的一般过程

数据分类是数据分析的一种重要形式,数据分类通常用两个步骤:学习和分类。在学习步,分类算法利用训练数据来构建分类器,训练数据有多个元组以及与元素关联的类标签构成。元组x被表示为n维的属性向量,每一个元组属于一个或多个事先定义好的类别,类别由类标号属性(classlabelattribute)决定,类标号属性由离散、无序值构成。由于每一个训练元组的类标号已知,因此,学习步是一个监督学习过程。学习步可以看作是学习映身函数

,函数,对于给定的元组z该函数可以预测与x关联的类别标号。文本是数据的一种具体形式,也是语言的实际运用形态,文本在人们生常生活中无处不在,任何有具体一定含义的文字都可以统称为文本。文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地对待分类文本进行分类,确定待分类文本的类别。其数学公式表示如下:

其中,a为类信息未知文本的集合,b为分类体系中类别信息的集合文本分类一般包括以下5个过程:文本预处理、文本表示、特征降维、分类器的选取与训练以及分类结果的评价。

文本分类系统的主要功能模块为:

(1)文本预处理:

为了使文档的格式满足分类器的输入要求,首先需要对原始语料进行处理,将其格

式进行规范化,;

(2)文本表示:将文本分解为基本处理单元,用数学模型来表示;(3)特征降维:降低特征空间的维数,提高分类器的效率和准确率;(4)分类器:选择合适的分类器并用训练数据集进行训练;(5)性能评价:选择对分类器的性能进行评估的性能评价标准。

2.文本预处理·

自动文本分类的第一步是文本预处理。通常情况下,各种不同类型的文档的来自不同的领域,从而文档的存储形式各异,并且计算机处理的文本不仅包含文字内容,还包含有功能性标签等不规范符号,文本分类模型不能直接对原始文档进行处理。必须对原始文本进行预处理,去除其中的噪声,规范化其形式,从而使文本满足分类模型的输入要求。文本预处理是影响文本分类准确度的关键因素,文本预处理的主要任务是从原始文本提取主要内容并对其格式进行规范化,一般包括以下几个步骤:去除文档中的格式标记、过滤非法字符、字母大小写转换、去除停用词和稀有词、词干化处理。

3.文本表示

文本本身不能被直接用来分类,为了使文本能够输入到计算机中进行处理,首先应将原始文本转换为数学模型,然后用计算机对数学模型进行处理。在实际应用中,将原始文本转为文本向量和词频矩阵后,这些数学模型非常庞大,计算机处理时需要花费大量的时间,为了提高处理效率,一般都假设词语与词语之间相互独立,词语在文本中的位置被忽略,文档被表示为不同特征项的集合。这种方法被称为“朴素(naive)”的方法或“词袋”模型。文本表示模型主要有布尔模型、向量空间模型以及统计语言模型,虽然这三种模型采用不同的方法来表示文档,这三种模型都采用了“词袋”模型的思想。

4.信息增益

信息增益是指某特征项在文本中出现前后的信息熵之差,在机器学习领域中,经常用信息增益来衡量某个特征项的重要性。对于词语t和文档类别c,通过统计c中出现和不出现t的文档数来衡量t对c的信息增益。特征项t的信息增益用如下公式计算:

其中,pr(ci)表示在文本集合中属于白类的文本出现的概率,pr(t)表示文本集合中包含特征项t的文本在文本集合中的出现概率,pr(ci|t)表示在文本中包含词语f的条件下文本属于类ci的条件概率,pr(t)表示文本集合不包含特征项t的文本在文本集合中的出现概率,pr(ci|t)表示在文本中不包含词语t的条件下文本属于类ci的条件概率,m是类别总数。根据公式计算出各个特征项的信息增益后,除去增益值小于指定闽值的特征项,剩余的即为选中的特征;或按特征项的信息增益从大到小排序,删除信息增益很小的单词。

二、文本分类方法1.naivebayes方法

naivebayes分类方法(以下简称nb法)是一种简单而又非常有效的分类方法。nb法的一个前提假设是:在给定的文档类语境下,文档属性是相互独立的。假设面为一任意文档,它属于文档类c={cl,c2,.,ck)中的某一类cj。根据nb分类法有:

对文档反进行分类,就是按计算所有文档类在给定di情况下的概率,概率值最大的那个类就是di所在的类,即:

可知,对于给定分类背景和测试文档,用nb法分类的关键就是计算p(cj)和p(di|cj)。计算p(cj)和尸(硝lcj)的过程就是建立分类模型(或者说学习)的过程。根据.p(dj|ci)计算方式的不同,可以将naivebayes方法分为最大似然模型(maximumlikelihoodmodel)、多项式模型(multinomialmodel)、泊松模型(poisonmodel)等[elm03]。

2.使用最大熵模型进行中文文本分类

最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法,它可以综合观察到的各种相关或幂相美的概率知识,对许多问题的处理结果都到这或超过了其他方法的最好结果。但是,将最大熵模型应用在文本分类中的研究却非常少,本章使用最大熵模型进行了中文文本分类的研究。通过实验,比较和分析了不目的中文文本特证生成方法,以及使用平滑技术的情况下,基于最大熵模型的分类器的分类性能;将其和bayes、knn、svm三葶争典墨的文本分类器进行了比较;使用bagging来提高最大熵模型的分类稳定性。

1).最大熵模型

最大熵模型是用来进行概率估计的。假设a是某个事件,b是事件a发生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b)。更一般地,设所有可能发生的事件组成集合为a,所有环境组成的集合为b,我们想知道,对于任意给定的aa,bb,概率p(a,b)是多少。

我们抱这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件的发生环境,我们想知道包含词b的文档属于某一类a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义a={a1,a2,a,am)是文档所属类别集,b={bl,b2,a,bm}是文档的特征词集,num(ai,bj)为疆练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计:

这个方法有个很大的问题,即“稀疏事件”(sparseevidence)问题,即便是很大的训练文本,很多

隐藏内容

此处内容需要权限查看

  • 普通用户特权:8.8积分
  • 会员用户特权:免费
  • 网站代理用户特权:免费推荐
会员免费查看

作业上交时间:6月20日

地点:新区图书馆三楼技术部(3-12)电话:6089229

温馨提示。综合报告中所提及的概念在课堂上、书本上都有讲过,如果不记得,可网络自助查询,此过程不必写入报告。