现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。
问答题 简述信息、知识、文献概念及其三者间关系 答:信息:事物存式、运状态及其特征反映事物发信号、消息 知识:类自界、类社各种现象、规律信息反映进行思维析加工提炼经系统化、理论化结 文献:记录知识切载体 三者概念范畴看信息于知识于文献知识信息部理论化系统化信息文献知识记载部 文献按载体形式同哪几种类型并举例说明 答:文献按载体形式同: 手写型文献甲骨文、金文 印刷型文献图书、期刊 缩微型文献缩微胶卷、缩微胶片 视听型文献录像带、录音带、科技电影 电型文献数据库文献网络文献 文献级别及其相互关系 答:文献按照加工程度同零、、二三文献四种 其零文献指未公版实验记录、原始录音(像)、书信、手稿、口交流信息或实物等;零文献作者加工处理公版进入社流通领域变文献;根据文献各种特征按照定规则其进行整理、加工、浓缩形文献二文献;利用二文献线索量文献内容进行综合、析、加工、提炼形文献三文献 计算机检索何缩检索范围 答:计算机检索缩检索范围包括: (1)增加用and连接检索词或用二检索 (2)用特定副主题词进行限定 (3)用字段限定检索标题词检索、主题词检索、加权检索等 (4)进行文献类型、语种、重要期刊、临床核期刊、份等限定检索 (5)进入更专指类范围内输词检索 获取文献全文哪些 答:获取全文包括: (1)检索网全文数据库 (2)利用网版社、杂志 (3)利用图书馆馆藏目录(馆藏联合目录) (4)利用网全文传递服务 (5)向著者索取 用检索途径哪些 答:用检索途径包括: 自由词检索、主题词检索、类检索、著者检索、机构检索、引文检索、限定检索等 简述信息检索原理 答:信息检索原理:描述特定用户所需信息提问特征与信息存储检索标识进行异同比较找与提问特征致或基本致信息本质用户信息需求与存储信息集合信息进行比较选择 即匹配程 计算机检索通包括哪些步骤 答:信息检索步骤包括: (1)析检索课题明确目要求 (2)选择合适检索工具 (3)选择检索途径确定检索标识 (4)查找文献线索 (5)浏览检索结获取原始文献 简述IM主题索引编排规则 答:主题索引排列规则 (1)整索引按主题词字顺排 (2)同主题词按副主题词字顺排 (3)相关内容文献题录别纳入相应主题词或者主题词/副主题词;般总论性文献直接入主题词专指性文献入相应副主题词;同文献题录入主题词 (4)同主题词或副主题词文献题录先排列英文文献排列非英文文献非英文文献英译标题用"[ ]"括起示区别 (5)英文文献按刊名缩写字顺排 (6)非英文文献先按文种缩写字顺排同文种按刊名缩写字顺排 《医主题词表》(MeSH)字顺表参照系统哪几种?举例说明其意义 答:第组:用代参照用于处理词与词间等同关系MeSH词表于同义词采用其比较科通用词作规范化主题词其词作非主题词(即款目词)用款目词see主题词主题词X款目词表示:Cancer see Neoplasms Neoplasms X Cancer 第二组:属参照用于处理词与词间等级关系即整体与部位概念与位概念间关系某些范畴较主题概念主题词包含某些范畴较主题词内容范围较广词主题词其内容范围较窄词作主题词作要主题词用要主题词see under 主题词主题词XU 要主题词表示:Health Priorities see under Health Planning Health Planning XU Health Priorities 1991始取消种参照关系所要主题词升格主题词 第三组:相关参照用于处理词间相关关系达扩检索提高查全率目用主题词see related 主题词主题词XR主题词表示:Population Control see related Family Planning Family Planning XR Population Control 提高查全率便检索MeSH词表于19911992先增设应考虑参照(consider also)主题词/副主题词组配参照 按照存储内容同数据库通哪些类型? 答:书目数据库、事实数据库、数值数据库、全文数据库、图像数据库 叫主题词扩展检索优越性何 答:选择主题词扩展功能同检索主题词所位词检用所选主题词更专指主题词标引所文献更提高检索查全率扩展情况检用所选主题词标引文献检位词即些更专指主题词标引文献 查全率查准率二者间何关系? 答:查全率指系统进行某检索检相关文献量与系统文献库相关文献总量比率反映该系统文献库实用相关文献量程度检索 查全率=【检相关文献量/文献库内相关文献总量】×100% 查准率指系统进行某检索检相关文献量与检文献总量比率反映每该系统文献库实际检全部文献少相关 查准率=【检相关文献量/检文献总量】×100% 查全率与查准率呈互逆关系要想做查全势必要检索范围限制逐步放宽则结相关文献带进影响查准率企图查全率查准率都同提高容易强调面忽视另面妥应根据具体课题要求合理调节查全率查准率保证检索效 影响查全率查准率素哪些? 答:(1)影响查全率素 影响查全率素文献存储看主要:文献库收录文献全;索引词汇缺乏控制专指性;词表结构完整;词间关系模糊或确;标引详;标引前致;标引员遗漏原文重要概念用词等外情报检索看主要:检索策略于简单;选词进行逻辑组配;检索途径太少;检索员业务熟悉缺乏耐;检索系统具备截词功能反馈功能检索能全面描述检索要求等 (2)影响查准率素 影响查准率素主要:索引词能准确描述文献主题检索要求;组配规则严密;选词及词间关系确;标引于详尽;组配错误;检索所使用检索词专指度够检索面宽于检索要求;检索系统具备逻辑非功能反馈功能;检索式允许容纳词数量限;截词部位检索式使用逻辑或等 独立型搜索引擎工作原理 答:独立式搜索引擎工作原理: 定期运行搜索软件(或工)搜集网络信息 利用索引软件进行自标引建立数据库 Web页面形式向用户提供关信息资源导航、目录索引及检索界面由用户输入检索式 通检索软件进行检索匹配按相关度排序输 何提高检索查全率 答:提高查全率: (1)降低检索词专指度选些位词相关词补充检索式 (2)调节检索式网罗度减少逻辑与组配面 (3)进行族性检索采用类检索或用组同义词、近义词相关词用或连接检索式 (4)采用截词技术取消某些限制严限制符 何提高检索查准率 答:提高查准率: (1)提高检索词专指度换用专指度较强规范词或自由词 (2)增加与连接进步限定主题概念 (3)限定检索词所检字段用位置算符控制检索词词间顺序与位置 (4)限制输文献外部特征限制限、语种、文献类型等 (5)用逻辑非限制与提问相关文献输 (6)用主题词检索用或少用自由词检索 依据我专利专利哪几种类型 各种类型专利效期 答:依据专利保护象三种类型:发明专利、实用新型专利、外观设计专利 发明专利专利主要保护象发明专利权效期各同我自申请起20 实用新型专利我实用新型专利权效期自申请起10 外观设计专利我外观设计专利权效期自申请起10 信息检索系统基本要素 答:信息检索系统构包括: (1)检索文档即文献检索标识机集合 (2)技术设备即能存储信息及其标识并实现存储检索操作各种技术设备 (3)作用于系统:文献加工者、用户、系统维护员、管理员 (4)检索工具:检索语言、文献标引规则、输入输标准等 何谓数据库顺排文挡倒排文挡 答:顺序文档(Sequential file)文献记录作信息存储单元按文献记录入藏存取号顺序排列形目录式文档由于存储关于每篇文献完整信息所通称主文档(Master File)相于印刷型检索工具文部倒排文档(Inverted file)记录切检字段或属性值抽按某种顺序重新加组织所种文档倒排档主文档派所叫做辅助文档 获取网络信息资源主要工具哪些 答:获取网络信息资源主要工具包括: (1)电邮件 (2)FTP (3)Archie (4)Telnet (5)Gopher (6)Usenet (7)www浏览器 (8)搜索引擎 核期刊主要特点 答:少数刊载某科量高质量专业论文期刊称核期刊其主要特点: (1)刊载专业文献密度高信息含量高; (2)水平较高代表本科新发展水平; (3)版相稳定所载文献寿命较; (4)利用率引率较高 试述特网搜索引擎概念、类型 答:搜索引擎Internet具查询功能网页统称即允许用户递交查询检索与查询相关网页结列表并且排序输 根据检索内容:综合性搜索引擎专业性搜索引擎; 根据检索功能类:目录式搜索引擎、全文式搜索引擎、智能式搜索引擎; 根据检索范围类:独立搜索引擎元搜索引擎 简述议论文概念特点内外议论文检索系统哪些 答:议文献指各种科技术议所发表论文、报告稿、讲演稿等与议关文献 议文献主要特点:传播信息及、论题集、内容新颖、专业性强、质量较高数量较版类型种往往代表某科或专业领域内新术研究基本反映该科或专业术水平、研究态发展趋势议文献科技查新重要信息源 外议论文检索工具包括:ISIProceedings(ISTP+ISSHP);Papers First(OCLC first search库);IEEE/IEE Electronic Library;AIPCofference Proceedings 内进行议论文检索系统包括:术议论文全文数据库(万数据);重要议论文全文数据库(CNKI) 周红同检索课题第检索结 172 条文献建议采用何种式缩检索范围 答:缩检索范围包括: (1)提高检索词专指度换用专指度较强规范词或自由词 (2)增加与连接进步限定主题概念 (3)限定检索词所检字段 (4)用位置算符控制检索词词间顺序与位置 (5)限制输文献外部特征限制限、语种、文献类型等 (6)用逻辑非限制与提问相关文献输 (7)用主题词检索用或少用自由词检索 MedlinePubmed区别 答:PubmedMEDLINE区别主要体现: (1)文献收录范围:Pubmed除收录MEDLINE数据库外收录PREMEDLINE数据库及版商直接提供给Pubmed数据 (2)数据库更新间:MEDLINE联机数据库周更新MEDLINE光盘报道差1-3月Pubmed每更新 (3)检索机理:MEDLINE检索途径两主题作者掌握Mesh表检索首要条件Pubmed具词汇自转换匹配功能主题词自扩展功能 (4)连接功能:Pubmed具与原文链接、相关文献链接、相关图书链接、相关物数据库链接功能 (5)免费全文:Pubmed提供超60期刊免费全文浏览检索功能 (6)费用:MEDLINE光盘需每租赁数据库Pubmed免费 专利文献概念及特点 答:专利文献实行专利制度家及际组织审批专利程产官文件及其版物总称专利文献具特点: (1)专利文献集技术、律经济信息于体种数量巨、内容广博战略性信息资源; (2)利文献传播新技术信息; (3)专利文献格式统规范高度标准化并且具统类体系便于检索、阅读; (4)专利文献发明创造揭示完整详尽技术内容相靠 要查找关乙型肝炎流行病面外文文献选择哪些数据库请选择其种数据库简要检索策略 答:查找乙型肝炎流行病文献选用文检索系统包括:CNKI、维普、万、CBM等 选外文检索系统包括:MEDLINE、Pubmed、EDSCO、springerlink、Open Access等其CNKI检索策略: 检索项:篇名;检索词:乙型肝炎;逻辑:或者 检索项:篇名;检索词:乙肝; 逻辑:并且 检索项:主题;检索词:流行病 CBM检索策略:肝炎乙型/[扩展全部树]流行病 通哪些检索系统查明济宁医院图书馆否computer communications本期刊 答:选用检索系统包括:图书馆联机检索系统、超星数字图书、书数字图书馆 请列5Google高级检索语并举例说明其用 答:列语任选5举例 (1)link运算符: 查找与某特定网页建立链接所网页亦高级检索模式实现 (2)related运算符:自查找与某网页处于同级别相似网页亦通高级检索模式及检索结界面类似网页实现 (3)info运算符:获取Google库存关某网页全部信息 (4)site运算符: 检索结限制某网域通高级检索界面网域选项 (5)Allintitle运算符:要求提问词全部网页标题现 (6)allinurl运算符:要求提问词全部URL现 (7)inurl运算符:要求提问词部URL (8)filetype:运算符Google发非强实用搜索语面接文档类型限制获取某文档类型网页接文献类型举例 CBMW0版查找某作者发表文献几种式别 答:四种 基本检索著者检索三种式: 检索入口拉彩旦选择作者字段检索提问框内输入著者姓名; 二直接检索提问框内输入著者姓名加in au; 三直接检索提问框内输入au=跟著者姓名 作者检索式:直接检索提问框内输入著者姓名 循证医证据主要类型哪些 依据按质量靠程度体五级(靠性依降低): 级:按照特定病种特定疗收集所质量靠随机照试验所作系统评价或Meta析; 二级:单本量足够随机照试验结; 三级:设照组未用随机组研究; 四级:照系列病例观察; 五级:专家意见或基于理、病理理基础研究证据 列举6种检索引文数据库 答:检索引文数据库:(任写6种均) (1) SCI (2) SSCI (3) H&ACI (4) 《科技论文与引文数据库》(CSTPC) (5) 《科引文数据库》 (6) 《文社科引文索引》 (7) 《文科技期刊引文数据库》 (8) 知识基础设施工程引文数据库 (9) 《物医文献数据库》 信息检索类型及特点 答(1)信息源:聚集量事某工作领域信息及关各种事物发展态信息 (2)组织机构信息源:主要指组织机构内部信息源 (3)实物型信息源:实物文物、产品本、模型、雕塑等形式表现信息资源 (4)文献型信息源:文字、图片、符号等各种式记录各种载体知识信息资源 1)图书:图书称书籍指内容比较熟、资料比较系统、完整定型装帧形式版物 2)期刊:期刊称杂志指些定期或定期版汇集位作者论著连续版物 3)位论文:本科、研究取位资格撰写专业性研究论文 4)科技报告:作科研式报告 5)专利文献:由政府专门机构版、创造发明设计、制作工艺详细说明表明定限内发明所者享制造、使用、销售占权律性文献 6)标准文献:由权威机构批准、颁发、供执行技术规格规范性文献 7)产品本:厂商介绍推销其产品印发文献 8)议文献:指际各内专业术议所发表论文报告 9)政府版物:由政府机构制作指定版机构版文献 (5)电型信息源:主要指通使用电技术实现信息存储传播信息 数据库组 答:数据库由文档、记录字段组 (1)文档:按定结构组织相关记录结合 (2)记录:构文档基本数据单元 (3)字段:比记录更单元组记录基本单元 类语言 答:类语言按文献科属性给予相应类号用类号表达文献主题概念根据类表顺序编排类索引提供类途径共检索文献使用 类语言运用逻辑类原理按文献内容科、专业集文献知识类角度揭示各类文献内容区别联系 类语言较体现科专业系统性 类语言体系类语言组配语言两种目前内普遍采用前者 主题语言 答:主题语言高度概括语词解释文献主题并标识组织检索系统语言 主题语言标题词、元词、关键词叙词 (1)标题词:自语言选取并经规范化处理表示事物概念词、词组或短语 (2)元词:指能够用描述文献所论及主体、基本词汇 (3)叙词:使用能表达文献主题并经严格规范化词语 (4)关键词:直接文献标题文献或全文抽选具实质意义、能表达文献主题概念未经规范化处理自词语词汇 信息检索途径 答:类文献:按文献内容所属科类别检索文献途径通类号或类别进行检索 主题途径:通反应文献内容主题词语检索文献途径 关键词途径:用非规范化词语自由标引直接取自原文能够表达文献内容主题、起关键作用词语 著者途径:指按文献作者、编者、译者姓名或机构团体名称字顺检索文献途径 题名途径:指按书名、刊名或文章篇名字顺进行检索种途径 号码途径:利用文献代码、序号编排号码索引种途径 信息检索素养内涵 答:信息意识:指信息脑反应即各种信息自觉反应反应信息信息认识、态度、价值趋向定需求 信息知识:指与信息关理论、知识 信息能力:指效利用信息技术信息资源获取信息、加工处理信息及创造交流新信息能力 信息道德:指信息获取、使用、创造传播程应该遵守定伦理规范 信息检索策略 答:析检索课题明确目要求 信息检索总按照定课题需要进行每项检索课题都明确目具体要求进行检索前首先要检索课题进行认真细致析研究明确检索目要求目同要求同选择连锁工具、连锁等所同 检索系统数据库选择 信息检索数据库选择主要主要考虑其所收录科范围、存贮限、更新周期、标引质量、独特性、所需费用、系统性能辅助服务等面考虑要注意综合性专业性数据库配合使用 选择检索途径、确定检索标识 所谓检索途径数据库检索项(字段)指哪角度或哪向入手进行检索 检索标识指确切表达文献信息内容及外表特征使用符号或词语类号、主题词、关键词、作者姓名、期刊刊名等检索要求准确找检索标识避免误检 编辑检索表达、调整检索策略 检索表达式用表达检索提问逻辑检索表达式选择检索标识根据检索要求运用同运算符号进行组配达较理想检索效 实际检索程用既定检索表达式检结往往能达满意需要根据检索情况析原及调整检索策略 获原始文章 (1)检索网全文数据库 (2)利用网版社、杂志 (3)利用图书馆馆藏目录(馆藏联合目录) (4)利用网全文传递服务 (5)直接向著者索取 通述步骤查找获文献全文通式获
信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。1 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图2 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网
内容如下:实习目的:掌握网络信息检索基本方法,熟练使用搜索引擎和各种开放资源,能用网络解决学习中的一些问题,并善于识别、利用网络信息资源,提高利用网络学习的能力。