信息检索小论文

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

综述：关键词搜索，口语化搜索转化为关键词搜索口语化搜索，例如：“怎么把我iphone手机上的照片传到电脑上”，简化为关键词搜素"iphone照片传到电脑”。限定特定网站（site），site：将搜索范围限定在特定站点中，你如果知道某个站点中有自己需要的东西，就可以把搜索范围限定在这个站点中，提高查询效率。限定文件类型（filetype），这个命令在搜索专业文档、资料时很好用如：很多专业文档都是pdf、ppt、doc、jpg格式。限定时间（20XX20XX），用时间语句20xx—20xx实现特定时间内的关键词搜索。减去某关键词（减号-），用“—”排除特定关键词。将关键词限定在标题中（intitle），这样可以避免百度找到许多零零散散，相关度很低的内容，大大提高搜索效率。信息检索(Information Retrieval)，是用户进行信息查询和获取的主要方式，是查找信息的方法和手段。信息检索起源于图书馆的参考咨询和文摘索引工作。信息检索方法包括，普通法、追溯法和分段法。

论文信息检索

会议论文的检索字段包括论文题名、论文作者、作者机构、论文摘要、论文关键词、引文、全文、会议名称、主办单位、会议地点、编者、出版单位等。会议论文一定是针对某个学术会议投稿，并且由学术会议的会务组决定是否录用。会议论文录用后，可以选择参加会议或者不参加会议，但是学术会议必须召开。会议论文出版后一般会寄送论文集。检索的分类：1、传统文献检索传统文献检索经常使用到的工具是索引卡片，即将文献资料的信息记录在索引卡片上。索引卡片上一般会记载文献的题名、作者、主题词、摘要等信息。2、网络检索在网络时代，人们无时无刻地进行着检索。在因特网上进行检索主要有两种方式：目录浏览和使用搜索引擎。除了搜索引擎之外，图书馆订购的各种数据库也是信息检索的重要途径。美国国会图书馆参考咨询馆员托马斯·曼就介绍了关键词检索、引文检索、相关性检索等检索方法。

标准检索、快速检索、专业检索、作者发文检索、科研基金检索、句子检索和期刊检索

信息检索与文献检索

首先在Google 学术搜索里进行搜索，里面一般会搜出来你要找的文献，在Google学术搜索里通常情况会出现“每组几个”等字样,然后进入后，分别点击，里面的其中一个就有可能会下到全文，当然这只是碰运气，不是万能的，因为我常常碰到这种情况，所以也算是得到全文文献的一条途径吧。可以试一下。同时,大家有没有发现,从Google学术搜索中,还可以得到一些信息,Google学术搜索中会显示出你搜索文章的引用次数,不过这个引用次数不准确,但是从侧面反应了这篇文章的质量,经典文章的引用次数绝对很高的同时如果你用作者进行搜索时,会按引用次数出现他写的全部的文章,就可以知道作者的哪些文章比较经典,在没有太多时间的情况下,就可以只看经典的

文献检索方法很多，下面我介绍几种：1）顺查法顺查法是指按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献，它适用于较大课题的文献检索。例如，已知某课题的起始年代，现在需要了解其发展的全过程，就可以用顺查法从最初的年代开始，逐渐向近期查找。（2）倒查法倒查法是由近及远，从新到旧，逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。（3）抽查法抽查法相对于顺差和倒查而言的方法，是在文献中选择一个点，然后依次划分出不同的区域进行检索的方法，这种方法可以更多的排除不属于检查范围的文献。

找相应的数据库搜索引擎，如Google 学术找文献作者要，邮件所取图书馆借找牛人，如知名高校同学

确定与课题相关的关键内容确立合适的索引或材料来源确定与研究有关的潜在的标题有选择地将材料按内容或重要性程度排序或分类对包含相关的信息摘要或总结，并写出文献评论;(文献评论包括：限制和确定研究课题及假设，与当前研究有关的思路和方法，该领域研究者已做的工作)教育文献检索的主要方法：顺查法、逆查法、引文查找法、综合查找法

文献检索与信息检索

文献检索方法很多，下面我介绍几种：1）顺查法顺查法是指按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献，它适用于较大课题的文献检索。例如，已知某课题的起始年代，现在需要了解其发展的全过程，就可以用顺查法从最初的年代开始，逐渐向近期查找。（2）倒查法倒查法是由近及远，从新到旧，逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。（3）抽查法抽查法相对于顺差和倒查而言的方法，是在文献中选择一个点，然后依次划分出不同的区域进行检索的方法，这种方法可以更多的排除不属于检查范围的文献。

首先在Google 学术搜索里进行搜索，里面一般会搜出来你要找的文献，在Google学术搜索里通常情况会出现“每组几个”等字样,然后进入后，分别点击，里面的其中一个就有可能会下到全文，当然这只是碰运气，不是万能的，因为我常常碰到这种情况，所以也算是得到全文文献的一条途径吧。可以试一下。同时,大家有没有发现,从Google学术搜索中,还可以得到一些信息,Google学术搜索中会显示出你搜索文章的引用次数,不过这个引用次数不准确,但是从侧面反应了这篇文章的质量,经典文章的引用次数绝对很高的同时如果你用作者进行搜索时,会按引用次数出现他写的全部的文章,就可以知道作者的哪些文章比较经典,在没有太多时间的情况下,就可以只看经典的

这个需要到知网、万方、维普官网上检索下载。

找相应的数据库搜索引擎，如Google 学术找文献作者要，邮件所取图书馆借找牛人，如知名高校同学

信息检索和文献检索

文献检索含义(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索,这是广义的信息检索狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程文献检索步骤：文献检索是一项实践性很强的活动,它要求我们善于思考,并通过经常性的实践,逐步掌握文献检索的规律,从而迅速、准确地获得所需文献一般来说,文献检索可分为以下步骤：（1）明确查找目的与要求（2）选择检索工具（3）确定检索途径和方法（4）根据文献线索,查阅原始文献文献检索方法（1）、直接法又称常用法,是指直接利用检索系统（工具）检索文献信息的方法它又分为顺查法、倒查法和抽查法（1）顺查法顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找（2）倒查法倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法此法的重点是放在近期文献上使用这种方法可以最快地获得最新资料（3）抽查法抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法（2）、追溯法是指不利用一般的检索系统,而是利用文献后面所列的参考文献,逐一追查原文（被引用文献）,然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围,一环扣一环地追查下去的方法它可以像滚雪球一样,依据文献间的引用关系,获得更好的检索结果（3）、循环法又称分段法或综合法它是分期分交替使用直接法和追溯法,以期取长补短,相互配合,获得更好的检索结果

回答您好，您的问题我已经看到了。正在整理答案，马上回复您、文献信息检索的含义、分类、检索语言 1、文献信息检索：文献检索含义是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关的信息过程，所以它的全称又叫“信息的存储与检索,这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分，即从信息集合中找出所需要的信息的过程，相当于人们通常所说的信息查寻。计算机信息检索，是指以计算机技术为手段，通过光盘和联机等现代检索方式进行信息检索的方法。一次文献 (primary document)：是指作者以本人的研究成果为基本素材而创作或撰写的文献，不管创作时是否参考或引用了他人的著作，也不管该文献以何种物质形式出现，均属一次文献。二次文献 (secondary document)：是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物，是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。检索工具书和网上检索引擎是典型的二次文献。三次文献 (tertiary document)：是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。如大百科全书、辞典等。零次文献它是指未经过任何加工的原始文献，如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。用检索标识与文献的存储标识相比，如果能够取得一致，就叫"匹配"，就可得到"命中文献"。 2、文献检索语言文献检索语言是一种人工语言，用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。检索语言按原理可分为3大类： (1)、分类语言它是将表达文献信息内容和检索课题的大量概念，按其所属的学科性质进行分类和排列，成为基本反映通常科学知识分类体系的逻辑系统，并用号码（分类号）来表示概念及其在系统中的位置，甚至还表示概念与概念之间关系的检索语言。 (2)、主题语言是指经过控制的，表达文献信息内容的语词。主题词需规范，主题词表是主题词语言的体现，词表中的词作为文献内容的标识和查找文献的依据 (3)、关键词语言指从文献内容中抽出来的关键的词，这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化，也不需要关键词表作为标引和更多21条 

首页

> 论文期刊知识库

信息检索小论文