首页

> 论文期刊知识库

首页 论文期刊知识库 问题

数据挖掘最新的文献综述

发布时间:

数据挖掘最新的文献综述

[摘 要 ]随着 In te rne t在 中国 的迅速 发展 ,人们日常生活中越来越多地使用这项新的技术来为自己的工作和学习服 务 。由于 W EB 页面能把文本 、图像、声音 、动画 、视像等多种媒体信息集于一体 ,不但使信息的显示更加生动 ,而且使 信息的浏览更为方便 ,同时 W EB 页能实现网上交易平台 、客户信息反馈方便了企业与客户之间信息交流 ,因此许多企 业纷纷建设网站以增强企业知名度 。[关键词 ]网站规划 PH P +M YSQL 数据库1 引言互联网的快速发展使企业可以实现快捷的信息传送以及直接的客户介入 ,但企业中各个系统的相对独立性使信息渠道 比较混乱 。企业系统中各类人员的信息渠道多种多样 ,互不兼 容 ,没有一个统一的应用界面让系统使用者可以根据自己的需 要获得想要的信息 , 这不利于电子商务应用模式的建立和开 展 。如何通过建立一个单独的界面给企业遍布全球的现实客 户 、潜在客户、供应商 、雇员和合作伙伴提供全面的企业信息和应用呢 ? 于是企业门户 ( En te rp rise Po rta l) 诞生了 ,并成为一个 新的热点 。2 如何定义企业门户目前 ,尚不能准确地对企业门户下一个完整的定义 , 企业门户与 IT业有些名词一样 , 不同的专业人士和机构对之有不同的理解 ,并有很多术语用于描述企业为其客户 、合作伙伴和员工的方便而采用的“门户 ”,如企业门户 、社团门户、员工门户等 。同时根据应用的具体功能不同又把企业门户细分为信息门户 、知识门户和应用门户等 ,并且这种划分方法已逐渐得到 认可 。下面介绍一下这 3类门户 。( 1 ) 企业信息门户企业信息门户 ( En te rp rise Info rm a tion Po rta l, E IP) 的基本作用是为人们提供企业信息 。企业信息门户提供了一个了解企业的访问入口 ,所有访问者都可以通过这个入口获得个性化的 信息和服务 。对企业来说 , 信息门户既是一个展示企业的窗 口 ,又可以无缝地集成企业的内容 、商务活动及社区等 ,动态地 发布存储在企业内部和外部的各种信息 ,同时还可以支持网上 的虚拟社区 。企业信息门户强调对结构化与非结构化数据的 收集 、访问 、管理和无缝集成 ,这类门户必须提供数据查询 、分 析和报告等基本功能 ,企业员工、合作伙伴 、客户及供应商都可 以通过企业信息门户方便地获取自己所需的信息 。( 2 ) 企业知识门户企业知识门户 ( En te rp rise Know ledge Po rta l, EKP)是一个平台 ,该平台是知识加工平台 、决策平台、知识发布与获取平台的集成 ,它使企业各部门职员之间的信息共享和交流更加流畅 。这里的“知识 ”不仅包括数据库 、文档 、企业政策方针和过程手续等 ,甚至包括存在于员工头脑中的工作经验与专业技能等非 具体化的信息资源。企业知识门户是企业信息门户的延伸与发展 。信息门户的重点是信息的收集 、整理及传输 , 有效利用 企业已有的信息 、知识和公共关系 ,并能收集 、分析 、增值 、共享 信息和知识 。企业知识门户的重点是企业信息的加工与处理 。 企业知识门户的目的是使恰当的人在恰当的时间使用恰当的 知识 ,企业信息门户主要通过数据挖掘 、数据加工技术使零散 的信息成为知识 ,供决策支持服务 。( 3 ) 企业应用门户企业应用门户 ( En te rp rise App lica tion Po rta l, EA P)实际上是对企业业务流程的集成 。它以商业流程和企业应用为核心 ,把商业流程中功能不同的应用模块通过门户技术集成在一起 。从某种意义上说 ,我们可以把企业应用门户看成是企业信息系 统的集成界面 ,企业员工和合作伙伴可以通过企业应用门户访 问相应的应用系统 ,实现移动办公 ,进行网上交易等 。以上 3类门户虽然在侧重点有所不同 ,但随着企业信息系 统复杂程度的增加 ,越来越多的企业需要能够将以上 3 类门户 有机地整合在一起的通用型企业门户 ,这已是一种趋势 ,我们 在这里把它们统一称为企业门户 。最后 ,让我们试图通过企业 门户的作用来帮助读者理解企业门户的定义 。维持客户的最 基本战略因素是企业整体强大 、互利关系网 , 包括客户 、供应 商、合作伙伴和员工本身 。这些关系的培养主要通过各方之间 的相互沟通和信任感 ———即各方及时收到相关信息 、信息准确 并且服务最优 。企业门户被认为能够满足这种需要 ,通过使用 户利用方便、可靠的工具接入实现有效的信息交换 。或者说 , 企业门户能为用户提供建设信息型企业网站的应用 ,包括网站 生成 、信息发布 、信息管理 、信息反馈、网站管理等系统 ,实现企 业网上形象展示及对外沟通的需求 。3 有无必要建立企业门户在国外 ,特别是在美国 ,实施企业门户战略已经被列入了许多大企业的日程表中 。与国外相比 ,国内了解企业门户概念的企业十分少 ,而计划建立企业门户的企业就更加微乎其微 。但是 ,互联网在国内的发展速度相当迅速 ,中国企业建立自己的门户网站 ,为自己的客户 、员工和代理商提供综合性服务的重要性不言而喻 。从网络经济的特点来看 ,速度和知识是网络经济的两大支 柱。首先 ,企业只有借助于网络才能获得发展的先机 , 这就要 看谁能够以最迅捷的动作联系客户 、供应商和代理商 ,组织生 产和销售 。毫无疑问 , 企业门户是实现上述目标最有力的手 段。从资源利用的角度来看 , 企业门户是以最小可能成本 , 实 现最大程度开发利用现有资源目标的可行途径 。首先 ,企业门 户将本需要占用多台不同硬件系统的应用集成到较少的系统 设备上 ,从而节约硬件的投入 。其次 , 减少了多种未经集成的 应用软件的总体维护成本 。除了新设立的企业 ,其他实施企业 门户的企业都已有多种应用系统和以数据库 、文档等形式存储 的信息资源。这些资源往往条块分割 ,分散维护成本高昂 。新 的企业门户将现有的资源加以整合 ,并经过一定的处理 ,最后 集成到企业门户这样一个统一的平台上 ,提供给更多的用户 。 由于它的继承和集成 ,企业可以实现集中维护 ,从而降低维护 成本 。第三 ,企业门户采用高效的互联网作为信息传输的工 具 ,相比建设或租用线路价格低廉 ,同时减少了人力投入 。第 四 ,企业门户的实施可以改进企业的供应链管理 ,企业门户能 够帮助企业实现真正意义上的零库存 。由此看来 ,企业尤其是大中型企业 , 不论是从节约成本角 度还是从提高竞争力角度考虑 , 建立企业门户都是有效的方 法。4 如何建立企业门户既然企业门户功效如此之大 ,那么企业要想建立企业门户应该如何去操作 ? 一般来说 ,企业要成功地部署企业门户可按照如下几方面进行 。( 1) 前期准备工作企业在建立企业门户之前 ,要进行大量的信息调查工作 ,弄清楚企业的商业信息是如何使用的 。对于大多数企业而言 ,这意味着要进行商业信息应用的调查和研究 。调查的目的是了解谁使用信息 ,信息如何使用 ,以及信息如何流入和流出 。( 2) 产品与技术的选择在进行完信息的使用调查之后 ,企业就要选择门户产品和技术 。门户软件不仅要满足商业信息和应用访问的需要 ,还要满足事先定义的技术层面 (如协议 )的要求 。目前 ,由于有相当数量的公司推出了企业门户解决方案 ,这为企业提供了较大的选择余地 。

NoteExpress软件能解决你的问题。它是北京爱琴海软件公司开发的一款专业级别的文献检索与管理系统,其核心功能涵盖“知识采集,管理,应用,挖掘”的知识管理的所有环节你可以上网找找,有破解版的。

据学术堂了解,毕业论文的文献综述一般包括:摘要、引言、主体和参考文献。  一、摘要  摘要一般在200字以内,是一段扼要地说明研究工作的目的、研究方法和最终结论等的简短的陈述,其中结论是摘要的重点。  注意:摘要不能含有图表、冗长的公式以及非公知的符号、缩略语。  二、引言  引言,也叫前言、绪论,就是论文正文前面的一段话,是论文的开场白,向读者说明本研究的来龙去脉,吸引读者对此篇论文产生阅读的兴趣。引言内容大致包括:此项研究的历史背景和理论依据是什么?为什么要做这项研究?选择该题的理论或者实践依据是什么?有哪些创新点?本项研究在学术理论、实际应用中有哪些意义?  引言的语言要求简洁,开门见山,避免篇幅过长,论述过于笼统,题不扣文。  三、主体  主体部分是综述的主体部分,写法多样,没有特定的格式综述,但是无论你选择哪种综述,都要将收集到的文献资料进行归纳、整理以及分析比较。  1、主题的层次标题  标题要简洁明了,不带标点符号,控制在15字以内。标题阶级划分及编号一概使用阿拉伯数字分级编号,一般用两级,第三级用圆括号()中间加数字的形式标识。  2、插图  插图具有自明性,图片要清晰明了,切记不要与论文中文字和表格重复,插图下方要注明图序和图名。  3、表格  表格结构简洁,线条清晰,内容不应与论文内容和插图重复,最好使用三线表,可以适当加注辅助线,但是注意不要使用斜线和竖线,表格应该注明表序和表名。  4、正文  是综述的重点,没有固定的写法,只要能较好的表达综合的内容即可。正文主要包括论据和论证两个部分,通过提出问题、分析问题和解决问题,比较不同学者对同一问题的看法及其理论依据,进一步阐明问题的来龙去脉和作者自己的见解。  正文需要运用好连接性语言,结构和层次要围绕观点自然展开,要有严谨的逻辑性。  四、参考文献  参考文献的多与少,可以体现作者阅读文献的广度和深度,虽然毕业论文并没有对参考文献的数量有硬性要求,一般以30条为宜。  在选择文献时,要注意有些观点是否存在差异,所存在,则要特别说明;尽量多引用一次文献(即原始文献),避免二次文献可能存在较为片面的观点;尽量引用近几年的内容较新的文献,避免观点陈旧;建议引用与本研究有直接相关的经典文献。

文献综述是在确定选题后,在对选题所涉及的研究领域的文献进行广泛阅读和理解的基础上,对该领域的研究现状进行的综合分析、归纳整理和评论,通过了解选题的研究现状,发现前人研究中存在的问题,从而为自己的研究找到突破口和创新点。

数据挖掘文献综述

是这个不?  传统运输向物流业发展的途径分析  2007-5-28 共有 人次浏览  国务院在今年下发的《关于加快发展服务业的若干意见》中提出。要优先发展运输业,大力发展第三方物流,提升物流的专业化、社会化服务水平。通过发展服务业实现物尽其用、货畅其流、人尽其才,降低社会交易成本,提高资源配置效率,加快走上新型工业化发展道路。  服务是交通运输的本质属性。交通行业从传统产业向现代服务业转型,将进一步提升交通服务经济和社会发展全局、服务社会主义新农村建设、服务人民群众安全便捷出行的能力。在本组对国务院发展研究中心市场经济研究所副所长王微博士的采访报道中,您可以从中了解到交通运输业向现代物流业升级的必要趋势和如何理解物流与交通运输的关系等内容。  国务院发展研究中心市场经济研究所副所长王微博士认为,道路运输业的发展对于整个物流体系的建设、物流成本的降低、物流效率的提高具有决定性的影响,交通部应在物流政策制定中发挥更大的作用。  交通运输是物流活动开展的基础和前提  传统运输业与现代物流业的区别与联系  物流与交通之间的关系,不仅是一个非常重要的理论问题,也是一个非常现实的政策问题。我个人认为,物流是国民经济运行中有关商品空间转移的各种经济活动的总称。商品从生产到消费的空间转移过程,需要依托和使用国民经济中许多行业的资源,如运输、仓储、流通、金融、信息服务等。运输是商品实现空间转移过程中重要的一种经济活动,是依靠道路等基础设施和各种运输工具来实现商品从生产地向消费地转移的服务活动。从这个意义上来看,物流活动涉及整个国民经济运行过程,需要利用和整合相关行业资源来进行。而运输是物流活动中的一个重要组成部分,是物流活动最为基础且最为繁多的服务活动,因为大量的物流都必须依托交通运输设施和运输服务来完成。因此,在市场经济条件下,发达的交通运输设施和良好、高效的运输服务,是物流活动开展以及物流效率不断提高的基础和前提条件。没有好的运输设施和运输服务,物流活动就无法进行。另一方面,随着国民经济中物流规模的不断扩大,物流服务水平和运行效率的不断提高,将带动和促进运输技术、运输组织、运输设施、运输管理、运输服务的升级和创新,实现运输行业的快速发展。  运输服务业向现代物流业升级是必然趋势  物流行业的出现实际上是与交通运输行业的发展密切联系在一起的。从国际、国内物流企业的发展来看,许多物流企业都是从交通运输企业发展演变而来的。如马士基等国际知名的大型航运企业,自上世纪80年代以来,依托其规模庞大的客户资源和航运网络,小断拓展和延伸物流服务,通过物流服务的创新,提升其在航运市场的竞争能力。随着物流服务规模的不断扩大,物流服务已经成为包括马士基在内的所有大型国际航运企业的主营业务之一和主要利润来源,并在企业的组织框架下形成了专门从事物流服务的专业公司。自1999年以来,我们对中国物流企业的发展进行了长期的跟踪研究。总体来看,中国的物流企业主要有三种类型:一是国外的物流企业来华开办的分公司;二是新兴的民营物流企业;三是传统运输、仓储企业通过服务功能拓展、服务网络延伸、业务重组等途径转变形成的,如中远物流公司、中外运物流有限公司等。这类物流企业数量较多,比例较大。可见,运输企业通过自身服务功能的拓展和提升、服务范围的扩大、企业内外资源的整合与重组,实现从传统运输企业向现代物流企业的升级和发展。从这个角度讲,运输服务业向现代物流业的发展和升级,是一个必然的趋势。  通过各种形式创新实现升级  运输企业大致有这样一些途径进入物流领域:  一是运输企业依托客户资源及其需求提供物流服务产品。而逐步进入物流服务领域。在以前,运输企业只需要简单地把物品从一个地方运送到另一个地方,而在当前市场竞争日益激烈的环境下,包括制造企业、零售和批发企业以及其他服务企业,对商品物流活动的要求不断提高,如果运输企业只是简单地从事运送商品的服务,可能就不能满足客户的要求,并在竞争中失去客户和市场。因此,运输企业需要根据客户需求的提升,增加新的服务内容,提升服务水平。  二是大型运输企业通过内部业务整合、服务细分和专业化发展而进入物流服务领域。成为物流企业。比如中远集团旗下通过业务整合和业务细分,整合形成了集装箱公司、物流公司、船公司等更加专业化的服务企业。  三是运输企业通过收购、兼并以及联盟等方式。整合企业内外资源,进入物流服务领域。一些运输企业在规模扩张、提高竞争能力的过程中,根据企业自身发展要求,利用资本手段收购、兼并物流企业,或者加盟物流企业以及与物流企业建立战略联盟等方式,达到迅速获得物流服务资源、形成服务能力、进入新市场的目的。  总之,运输企业可以通过服务创新、组织创新、发展方式创新等方式,实现向现代物流的升级和发展。  以升级提高道路运输业发展能力  向现代物流业升级,对于传统交通运输行业来说具有的意义  其意义在于提升交通运输行业的竞争力和整个行业的发展能力。目前,交通运输行业的核心优势仍然主要集中在设施能力和整体运力规模方面,而比较突出的一个问题,就是行业的整体竞争能力不强,散、小、弱特征比较突出。其主要表现:一是运输行业缺少产业组织,大多数运输从业者是个体户和小型私营企业,行业集中度不高。缺乏具有集中能力的大型龙头企业和领先企业。二是行业现代化程度较低。特别是道路运输行业的管理水平、经营水平、技术水平普遍不高。三是缺乏支持行业发展的有效资源和能力。如人力资源,现代服务业发展的核心资源是高素质的人力资源,而交通运输业的人力资源水平是比较低层次的:再如在科技创新方面,比较重视车辆、装载等运输和设施技术的研发和现代化,而对运输的管理技术、组织技术、服务流程管理方面的创新能力及技术没有给予足够的重视。交通运输行业整体竞争能力不高和发展能力的不足。是当前制约行业发展的重要瓶颈,这不仅难以满足国民经济发展对交通运输服务和物流服务不断提高的要求,而且也难以应对曰益开放、全球经济加速发展背景下日益激烈的国内外竞争挑战。交通运输行业不具备太强的竞争能力,而使得行业的发展受到了很大的制约。因此,当前以及今后一段时间交通运输要加快发展,需要转变传统的以提升运力、增加投入为主线的发展思路,寻求提高行业整体竞争能力和发展能力、提高现代化水平的发展方式,以实现交通运输行业的加快发展和向现代服务业的转型。由传统运输服务向现代物流服务转型和升级,是交通运输行业加快转型的一个行之有效的途径。通过引入现代物流的服务理念、运行方式、管理方式和企业组织形式,推动传统运输企业的服务创新、管理创新和组织创新,创造新的运输和物流服务品牌和有竞争能力的现代化企业,以带动运输行业整体竞争能力的提升和加快发展。  向综合交通运输体系服务职能转变  在我国,与交通运输相关的政府部门。不仅涉及交通部、民航总局、铁道部等多个行业管理部门,还涉及发改委等综合管理部门,存在比较明显的条块分割现象,造成政府管理资源的分散。这种管理的分散在一定程度上影响着我国综合交通运输体系的形成和发展,各种运输方式协调一致发展的格局目前尚未形成。一方面,不同运输方式和运输行业在发展秩序、市场结构、竞争程度、规制水平方面存在较大差距,有的行业是过度竞争如道路运输业,有的行业如铁路处在绝对垄断的状态。另一方面,各种运输方式之间合理分工、能力和设施的相互衔接和配套远未形成,这是我国交通运输行业整体能力虽然提升很快,但运行效率依然较低的一个重要原因。交通运输行业由此难以形成一个整体的力量参与国内和国际市场的竞争。这是交通运输行业本身发展的一个很大的问题。  交通运输行业向现代服务业转型的发展过程中。政府职能的转型和新的综合交通运输管理体制的形成,增强政府在交通运输领域的公共服务职能,是一个非常重要的内容。  政府职能的转变。  一是要加快推进从简单的行业部门向综合交通运输体系服务职能转变,尽快形成各种运输方式协调发展的新机制。  二是要强化面向交通运输全行业和全社会的公共服务。公共服务职能除了过去所认识到的要给全社会提供一个较为发达、通畅、便利、安全的交通基础设施平台之外,更重要的是要建立好行业规制、标准。加快建立统一规范、相互衔接的运输行业规制和标准。物流活动贯穿整个经济系统过程。如果把物流、运输活动的相关标准相互割裂开来,那么运输活动就很难相互衔接、成为整个物流价值链上的基础和核心,物流活动也就很难顺畅运行。所以综合运输体系的形成、管理体系标准的统一,是传统交通运输业向更高的服务领域进发的重要条件,是政府部门面临的非常紧迫的任务。  三是要制定整个行业发展的总规划和方向性的政策。目前,政府比较重视交通运输基础设施的发展和规划,而对交通运输业的发展则缺少明确的行业发展的政策导向。整个交通运输行业的发展目标、发展重点和主要任务是什么,需要什么样的体制机制,行业将来的市场格局是什么,竞争的规范是什么,需要什么样的政策来支持行业的发展,这些都需要进一步的明确。新时期交通运输行业发展规划和政策的制定,不仅有利于有关部门理清发展思路和认识,也有利于引导运输企业加快发展,有利于动员各方面的资源支持运输行业的发展和转型。(来源:浙江物流网)

文献综述,是指就某一时间内,作者针对某一专题,对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。综述属三次文献,专题性强,涉及范围较小,具有一定的深度和时间性,能反映出这一专题的历史背景、研究现状和发展趋势,具有较高的情报学价值。

这篇文献综述写的还可以,你可以参考下2国内外研究现状1 国内外文献综述(1)关于融资结构理论的文献回顾20世纪初我国开始出现关于我国投融资结构优化理论的研究和探索,这一研究方面国外的学者率先对这一研究领域也开展了许多密切相关的研究,取得了一定的学术研究成果。其中,美国著名经济学者David Durand(1952年)总结了美国的企业资本结构理论,将其资本结构分为净经营收益理论、净收益理论以及美国的折衷经济理论收益法三类。其中,净经营收益理论收益法认为当企业的债务清偿成本和企业权益成本固定保持不变时,企业的负债成本占比越大,其资产附加值越高。而净经营收益理论则持另一个观点,认为企业自身的价值并不直接受企业财务成本杠杆的影响。不久后,美国的学者Modigliani和Miller(1958年)先后提出了著名的MM权衡理论,其观点就是指出在企业资本市场有效且无税等市场经济条件下,企业的资本结构和其融资方式与企业的市场经济价值基本无关。随后,在MM理论的影响下,企业融资的方式与影响公司经营绩效的理论又一次有了新的研究发展Robichek(1967年)、Rubinmstein(1973年)、Kraus(1973年)、Scott(1976年)、Mayers(1984年)先后提出了权衡的理论。该权衡理论的观点是认为资本市场结构的最理想状态下的平衡应该就是通过税盾的效应与企业的财务费用和企业的代理成本之间达到平衡。我国学者在企业融资的结构理论上的深入研究的主要目的是对国外专家学者研究企业融资情况的成果进行评述或介绍和完善,还没有新融资结构理论的研究成果出现。张维迎(1995年)对国外的激励管理模型、控制模型和国内的信号传递管理模型的研究进行了详细的介绍。吴冲锋、范晓虎和陈很荣(2000年)分三个阶段对国外的企业融资结构理论的形成过程及其成果进行深入的研究和评述。(2)关于企业融资选择理论的研究国外关于企业控制权融资方式选择的控制权理论主要分为融资优序理论和控制权理论。关于控制权的理论,Jensen和外源理论Mcekling(1976年)指出,在上市公司的多数股权在大股东控制的实际情况下,大小股东之间的矛盾和利益冲突更多地表现为代理问题。关于融资优序理论,Myers(1984年)提出了企业融资选择优序控制权理论,即我们认为通过内源企业融资更多地具有降低企业融资的成本,提高企业投资收益和效率的重要作用,因此企业在正确选择融资的方式时,应先内源后选择外源。以企业信息不对称为理论基础,Majluf和Myers(1984年)通过研究构建了企业信息非对称经济条件下的企业投资决策模型,证实了(1)在企业信息不对称的情况下,股东与公司管理层与市场投资者之间相比有更多的机会可以获取更多非公开的直接影响其预期投资收益的外源融资相关数据和信息,从而使股东达到"自利";(2)对比外源融资,内源融资具有成本和风险比较低的优势。我国的学者们在国外专家学者深入研究的宝贵经验基础上,结合了中国实际的情况,提出了以下的结论:程书萍(2001年)指出现在上市公司在融资结构中的比重的不断增加主要是受上市公司的股权偏好的直接影响,且对上市公司股权的融资偏好主要是对低廉的股权融资管理成本、低效的上市公司内部治理结构以及对失衡的股权融资管理体系的一种理性融资选择。(3)关于融资结构影响因素的文献回顾国外已经有许多的学者通过理论和实证的方法对企业融资结构盈利水平影响杠杆率因素的重要性进行了深入研究,Friend、Mehran(1992年)等国家的学者在研究中发现管理者对企业持股的比例与企业债权的多少负是正相关的。zingales与mehrajan(1995年)的研究发现企业盈利杠杆率的水平在很多西方发达国家的企业中是与该国家企业的债权和杠杆比率的多少呈现正负相关。国内一些专家学者在对融资结构理论的研究基础上,结合了我国的国情,主要是运用理论和实证的手段对于我国上市企业公司进行融资结构以及影响融资决策因素的研究展开了深入研究。黄泰岩,侯利(2001年)等人认为融资成本、风险和收益的控制权,制度经济环境变量和其他宏观经济环境变量等因素会影响我国企业进行融资和决策。王玉荣(2005年)发现我国上市公司的资产负债率与其主营业务获利的能力、非债权税盾、收入的波动性等因素呈负相关,而与上市公司的规模、成长性、有形资产的比率、非流通股的比率等因素呈正相关。姚琼(2003年)实证验证了企业的规模、经营风险、资产的实质性是影响我国农业上市公司的最主要因素,次要影响因素是则是企业的成长性、盈利性以及对行业发展。在此研究验证上述结论的基础上,田洪红,欧瑞秋(2017年)通过上述实证分析研究进一步证实了:公司法人股比例、国家股比例、董事会会议的出席次数与对股权管理者融资的偏好显著正相关;而第一大股东与法人持股的比例、大股东的投资联盟与对股权融资的偏好显著性呈负相关。(4)关于融资结构现状及优化的文献回顾国内一些专家学者在对融资结构选择理论以及对企业股本和融资结构选择理论的研究基础上,具体分析了近年来我国中小企业融资结构的发展现状,并对此提出了一些融资结构优化的建议。孙世敏,徐亮(2004年)和曹卫华(2004年都发现)目前我国大部分上市公司的融资行为与西方现代中国企业管理关于资本结构的理论并不一致,表现出较强的债权和股权融资偏好的现象,这种情况可能直接导致企业资本结构的扭曲。葛永波(2007年)国外学者发现尽管我国的农业中小企业的融资结构选择行为基本吻合西方企业融资啄食构选择理论的"内源融资—债权融资—股权融资"两种偏好的顺序,但是企业融资的偏好与企业融资的结构特征之间仍然存在明显的背离偏好现象。在此次课题的研究基础上,温军,杨斌,李湛(2007年)的研究发现了中国上市公司的融资方式和结构发生了由“股”到“债”的转变,并进一步指出未来中国的银行应进一步加快和发展直接向债券市场,稳步发展企业股票市场,扩大直接融资融资的规模和比重,以有效防范和化解商业银行债权风险,实现中小企业多渠道直接融资。2 文献评述通过以上国内和国外的相关文献对比和综述我们可以清楚地发现,我国较发达国家在对融资结构的研究起步较晚,而发达国家的研究已经步入了成熟期,而实际上我国目前只是进一步借鉴和研究完善国外比较成熟的融资相关研究理论。国内外学者对于融资影响因素方面都运用了实证等研究的方法对其进行验证,并且对结构的宏观影响因素和对企业内部经济影响因素的综合考虑做得比较全面。在对优化融资结构方面,国外的研究学者发现严格遵循对融资优序的理论有利于对企业进一步调整和改善内部融资结构。国内的研究多是探讨如何从股权和债权融资入手优化企业的融资结构。本文以这些丰富的学术文献和资源的综合研究基础,结合近年来关于我国的农业类上市公司的融资方式和结构的发展现状,将为本文深入研究的农业类上市的公司关于企业融资方式和结构如何优化的研究工作开展提供了宝贵的经验和科学方法的指导。

文献综述是对某一方面的专题搜集大量情报资料后经综合分析而写成的一种学术论文,它是科学文献的一种。  格式与写法  文献综述的格式与一般研究性论文的格式有所不同。这是因为研究性的论文注重研究的方法和结果,特别是阳性结果,而文献综述要求向读者介绍与主题有关的详细资料、动态、进展、展望以及对以上方面的评述。因此文献综述的格式相对多样,但总的来说,一般都包含以下四部分:即前言、主题、总结和参考文献。撰写文献综述时可按这四部分拟写提纲,在根据提纲进行撰写工。  前言部分,主要是说明写作的目的,介绍有关的概念及定义以及综述的范围,扼要说明有关主题的现状或争论焦点,使读者对全文要叙述的问题有一个初步的轮廓。  主题部分,是综述的主体,其写法多样,没有固定的格式。可按年代顺序综述,也可按不同的问题进行综述,还可按不同的观点进行比较综述,不管用那一种格式综述,都要将所搜集到的文献资料归纳、整理及分析比较,阐明有关主题的历史背景、现状和发展方向,以及对这些问题的评述,主题部分应特别注意代表性强、具有科学性和创造性的文献引用和评述。  总结部分,与研究性论文的小结有些类似,将全文主题进行扼要总结,对所综述的主题有研究的作者,最好能提出自己的见解。参考文献虽然放在文末,但却是文献综述的重要组成部分。因为它不仅表示对被引用文献作者的尊重及引用文献的依据,而且为读者深入探讨有关问题提供了文献查找线索。因此,应认真对待。参考文献的编排应条目清楚,查找方便,内容准确无误。关于参考文献的使用方法,录著项目及格式与研究论文相同,不再重复。

数据挖掘最新的文献

数据挖掘综述论文

数据挖掘是从大量数据中提取人们感兴趣知识的高级处理过程, 这些知识是隐含的、 事先未知的, 并且是可信的、 新颖的、 潜在有用的、 能被人们理解的模式。随着信息化的普及和数据库的广泛应用,很多大型企业事业单位积累了数百亿字节的数据, 分析利用如此海量的数据,是数据挖掘技术的用武之地。数据挖掘在争取与保留客户、 交叉销售、 趋势分析与市场预测、 欺诈检测与风险防范等方面的成功应用令人鼓舞。

寿险行业数据挖掘应用分析  寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的开放、外资公司的介入,竞争逐步升级,群雄逐鹿已成定局。如何保持自身的核心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。信息技术的应用无疑是提高企业竞争力的有效手段之一。寿险信息系统经过了多年的发展,已逐步成熟完善,并积累了相当数量的数据资源,为数据挖掘提供了坚实的基础,而通过数据挖掘发现知识,并用于科学决策越来越普遍受到寿险公司的重视。  数据挖掘  数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。  目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。CRISP-DM(Cross-Industry Standard Process for Data Mining)就是公认的、较有影响的方法论之一。CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。  商业理解就是对企业运作、业务流程和行业背景的了解;数据理解是对现有企业应用系统的了解;数据准备就是从企业大量数据中取出一个与要探索问题相关的样板数据子集。建模是根据对业务问题的理解,在数据准备的基础上,选择一种更为实用的挖掘模型,形成挖掘的结论。评估就是在实际中检验挖掘的结论,如果达到了预期的效果,就可将结论发布。在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估并不是单向运作的,而是一个多次反复、多次调整、不断修订完善的过程。  行业数据挖掘  经过多年的系统运营,寿险公司已积累了相当可观的保单信息、客户信息、交易信息、财务信息等,也出现了超大规模的数据库系统。同时,数据集中为原有业务水平的提升以及新业务的拓展提供了条件,也为数据挖掘提供了丰厚的土壤。  根据CRISP-DM模型,数据挖掘首先应该做的是对业务的理解、寻找数据挖掘的目标和问题。这些问题包括:代理人的甄选、欺诈识别以及市场细分等,其中市场细分对企业制定经营战略具有极高的指导意义,它是关系到企业能否生存与发展、企业市场营销战略制定与实现的首要问题。  针对寿险经营的特点,我们可以从不同的角度对客户群体进行分类归纳,从而形成各种客户分布统计,作为管理人员决策的依据。从寿险产品入手,分析客户对不同险种的偏好程度,指导代理人进行重点推广,是比较容易实现的挖掘思路。由于国内经济发展状况不同,各省差异较大,因此必须限定在一个经济水平相当的区域进行分析数据的采样。同时,市场波动也是必须要考虑的问题,一个模型从建立到废弃有一个生命周期,周期根据模型的适应性和命中率确定,因此模型需要不断修订。  挖掘系统架构  挖掘系统包括规则生成子系统和应用评估子系统两个部分。  规则生成子系统主要完成根据数据仓库提供的保单历史数据,统计并产生相关规律,并输出相关结果。具体包括数据抽取转换、挖掘数据库建立、建模(其中包括了参数设置)、模型评估、结果发布。发布的对象是高层决策者,同时将模型提交给应用评估子系统根据效果每月动态生成新的模型。  应用评估子系统可以理解为生产系统中的挖掘代理程序,根据生成子系统产生的规则按照一定的策略对保单数据进行非类预测。通过系统的任务计划对生产数据产生评估指标。具体包括核心业务系统数据自动转入数据平台、规则实时评估、评估结果动态显示、实际效果评估。规则评估子系统根据规则进行检测。经过一段时间的检测,可利用规则生成子系统重新学习,获得新的规则,不断地更新规则库,直到规则库稳定。  目前比较常用的分析指标有: 险种、交费年期、被保人职业、被保人年收入、被保人年龄段、被保人性别、被保人婚姻状况等。  实践中,可结合实际数据状况,对各要素进行适当的取舍,并做不同程度的概括,以形成较为满意的判定树,产生可解释的结论成果。

FineBI数据挖掘内置了决策树模型,该模型支持使用各种类型的值预测离散化的值(文本或离散化的数值、时间)。模型训练得到的决策树是预测结果的依据。

数据挖掘最新的文献类型

数据挖掘概念综述数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。 一、什么是数据挖掘 1、数据挖掘的历史 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对”人们被数据淹没,人们却饥饿于知识”的挑战。另一方面计算机技术的另一领域——人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery in Databases)的产生,因此,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。 2数据挖掘的概念 从1989年到现在,KDD的定义随着人们研究的不断深入也在不断完善,目前比较公认的定义是Fayyad 等给出的:KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义可以看出,数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。 一般来说在科研领域中称为KDD,而在工程领域则称为数据挖掘。 二、数据挖掘的步骤 KDD包括以下步骤: 1、数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖 掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、冗余数据)、推测(推算缺失数据)、转换(离散值 数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。如果KDD的对象是数据仓 库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD 的第一个步骤,也是比较重要的一个步骤。数据准备是否做好将影 响到数据挖掘的效率和准确度以及最终模式的有效性。 2、数据挖掘 数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、 聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式 模型。 3、评估、解释模式模型 上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事 实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 这个步骤还包括把模式以易于理解的方式呈现给用户。 4、巩固知识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一 致性检查,解决与以前得到的知识互相冲 突、矛盾的地方,使知识得到巩固。 5、运用知识 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就 可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化 三、数据挖掘的特点及功能 1、数据挖掘的特点 数据挖掘具有如下几个特点,当然,这些特点与数据挖掘要处理的数据和目的是密切相关的。 1、处理的数据规模十分巨大。 2、查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求。 3、由于数据变化迅速并可能很快过时,因此需要对动态数据作出快速反应,以提供决策支持。 4、主要基于大样本的统计规律,其发现的规则不一定适用于所有数据 2、数据挖掘的功能 数据挖掘所能发现的知识有如下几种: 广义型知识,反映同类事物共同性质的知识; 特征型知识,反映事物各方面的特征知识; 差异型知识,反映不同事物之间属性差别的知识 ;关联型知识,反映事物之间依赖或关联的知识; 预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是”买面包和黄油的顾客十有八九也买牛奶”,也可能是”买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。归纳起来,数据挖掘有如下几个功能: 预测/验证功能:预测/验证功能指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归树预测方法等。 描述功能:描述功能指找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。 四、数据挖掘的模式 数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F中数据的特性,E 所描述的数据是集 合F的一个子集FE。E作为一个模式要求它比列举数据子集FE中所有元素的描述方法简单。例如,“如果成绩在81 ~90之间,则成绩优良”可称 为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89 或90,则成绩优良”就不能称之为一个模式。 模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如,根据各种 动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判别此动物是否是哺乳动物。 描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。例如,在地球上,70 %的表面被水覆盖,30 %是土地。 在实际应用中,往往根据模式的实际作用细分为以下6 种: 1、分类模式 分类模式是一个分类函数( 分 类 器),能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树,根据数据的 值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。 2、回归模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物是哺乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在6000元以下,还是在6000元到1万元之间,还是在1万元以上。 3、时间序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年 等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有 多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。 4、聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几 个组和什么样的组,也不知道根据哪一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。 5、关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力偿还贷款的人当中,60%的人的月收入在3000元以下。” 6、序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件 发生的时间。例如,在购买彩电的人们当中,60%的人会在3个月内购买影碟机 五、数据挖掘的发现任务 数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP 方法,另外还有面向属性的归纳方法。 从挖掘任务和挖掘方法的角度而言有数据总结、分类发现、聚类和关联规则发现四种非常重要的发现任务。 1、数据总结 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对象所包含的信息总是最原始、基本的信息(这是为了不遗漏任何可能有用的数据信息)。人们有时希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 1、多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如着名的SAS数据分析软件包、Business Object公司的决策支持系统Business Object,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。 2、为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。 2、分类发现 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v1, v2, …, vn; c );其中vi表示字段值,c表示类别。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(rough set),其知识表示是产生式规则。 不同的分类器有不同的特点。有三种分类器评价或比较尺度:1 预测准确度;2 计算复杂度;3 模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务,目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据库,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎;例如,采用规则表示的分类器构造法就更有用,而神经网络方法产生的结果就难以理解。 另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺值, 有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。 3、聚类 聚类是把一组个体按照相似性归成若干类别,即”物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 在统计方法中,聚类称聚类分析,它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分;因此它要求所有的数据必须预先给定,而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。 在机器学习中聚类称作无监督或无教师归纳;因为和分类学习相比,分类学习的例子或数据对象有类别标记,而要聚类的例子则没有标记,需要由聚类学习算法来自动确定。很多人工智能文献中,聚类也称概念聚类;因为这里的距离不再是统计方法中的几何距离 ,而是根据概念的描述来确定的。当聚类对象可以动态增加时,概念聚类则称是概念形成。 在神经网络中,有一类无监督学习方法:自组织神经网络方法;如Kohonen自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里,见报道的神经网络聚类方法主要是自组织特征映射方法,IBM在其发布的数据挖掘白皮书中就特别提到了使用此方法进行数据库聚类分割。 4、关联规则发现 关联规则是形式如下的一种规则,”在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油 ( 牛奶 )。用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间 ,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)。 由于条形码技术的发展,零售部门可以利用前端收款机收集存储大量的售货数据。因此,如果对这些历史事务数据进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起),帮助如何规划市场(怎样相互搭配进货)。由此可见,从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。 如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中,一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度,它反应了关联规则的最低可靠度。 在实际情况下,一种更有用的关联规则是泛化关联规则。因为物品概念间存在一种层次关系,如夹克衫、滑雪衫属于外套类,外套、衬衣又属于衣服类。有了层次关系后,可以帮助发现一些更多的有意义的规则。例如,”买外套,买鞋子”(此处,外套和鞋子是较高层次上的物品或概念,因而该规则是一种泛化的关联规则)。由于商店或超市中有成千上万种物品,平均来讲,每种物品(如滑雪衫)的支持度很低,因此有时难以发现有用规则;但如果考虑到较高层次的物品(如外套),则其支持度就较高,从而可能发现有用的规则。另外,关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间上或序列上的规律,因为,很多时候顾客会这次买这些东西,下次买同上次有关的一些东西,接着又买有关的某些东西。

NoteExpress软件能解决你的问题。它是北京爱琴海软件公司开发的一款专业级别的文献检索与管理系统,其核心功能涵盖“知识采集,管理,应用,挖掘”的知识管理的所有环节你可以上网找找,有破解版的。

懒惰阿。。。开题还是论文?这个没有,你问多少人也不会为这点分给你现写的。告诉你个好方法:从中国知网(没账号密码?不好意思,再悬赏200分自己问去吧)上搜索往年的论文,然后把NK格式的大论文的前言部分找自己需要的粘贴下来,再自己添几句话使之看起来不象别人的文章,多搜几篇1000字很好搞定,就看你想不想做了。话已至此,得分~~

相关百科

热门百科

首页
发表服务