| 资料库

请登录

注册

数据挖掘技术在随书光盘中的应用

2014-10-07 14:57:18 大云网
A A
摘 要:本文分析了目前图书馆随书光盘管理方面存在的问题,阐述了数据挖掘技术在随书光盘应用中的需要,通过对随书光盘信息进行数据挖掘,发现读者借阅历史记录中隐藏的一些关系,并对隐藏的这些关系进行了具体的
摘 要:本文分析了目前图书馆随书光盘管理方面存在的问题,阐述了数据挖掘技术在随书光盘应用中的需要,通过对随书光盘信息进行数据挖掘,发现读者借阅历史记录中隐藏的一些关系,并对隐藏的这些关系进行了具体的分析。
关键词:随书光盘 数据挖掘 关联规则

  随着科学技术的不断发展和进步,现在越来越多的图书都附带随书光盘,它主要是存储与书籍内容相关的图像、音频和视频。读者通过对光盘内容的进一步学习,不仅可以大大地丰富其理论知识,而且还能够相应的拓展其知识面,主要是可以把他们学习到的理论知识很好地运用到实际工作和生活中。
  目前,已经有许多图书馆采用数据挖掘技术为图书馆的信息管理服务,但一般以书籍借阅信息作为原始数据进行处理。随着图书馆随书光盘的不断增多,读者自由选择范围的增大,图书馆的图书借阅量呈直线上升趋势。如何对随书光盘借阅产生的大量数据进行有效的分析,怎样找出有价值的信息更好地为图书馆的管理服务,让图书馆的纸制资源、随书光盘和电子资源整合并统一进行数据挖掘,具有重大的理论价值和现实意义。
 
1 随书光盘管理的现状
    图书馆随书光盘的管理主要有三种模式:一是光盘随书进行流通管理,这种方式管理方便,缺点是容易造成混乱和损失。二是光盘和图书分开进行管理,读者需要借阅光盘时进行单位借阅和拷贝,优点是减少损失,缺点是借阅不便。三是通过计算机网络进行数字化管理,优点是方便读者借阅,缺点是管理成本高[1]。
  在光盘和图书分开借阅的管理方式下,
读者需要进行二次借阅,造成借阅量不高,使得许多图书资源得不到有效利用,为知识的传播带来不便。为了更好的向读者提供服务,方便读者使用随书光盘,提高图书馆资源的使用率,目前随书光盘正越来越多的采用网络存储管理。网络管理的方式需要有相应软硬件设备,比如网络设施、存储设备和相应的软件,不仅要对原始光盘的数据进行相应的处理和存储,还要在使用过程中对相应的软硬件设施进行相应的维护。随书光盘的网络借阅管理将会产生大量与读者查询下载相关的借阅信息,如何利用这些借阅信息进行有效的数据分析,是提高图书馆服务水平的重要工具。
 
2 数据挖掘
2.1 数据挖掘概述
  数据挖掘就是从大量数据中提取或者“挖掘”知识,但这些数据是不完全的、模糊的、含噪声的和随机的,而数据挖掘就是要从中提取出那些隐含的、未知的、有价值的和潜在的信息的过程,它也可以看作是一种决策支持过程,通过对各组织的海量数据进行分析,归纳推理并从中挖掘出潜在的模式,其结果将可为管理层的决策提供支持[2]。
2.2 数据挖掘工作的流程(见图1)
               
第一,确定数据源对象。确定数据挖掘任务的应用要求,对所需要处理的大量原始数据进行收集。第二,确定目标数据。根据数据挖掘的任务要求确定数据目标,从原始数据中选出需要进行挖掘的数据。第三,预处理及转换数据。预处理需要对目标数据进行处理,检查数据是否符合一致性要求,去除掉数据含有的噪声。数据转换的主要任务是对预处理的数据进行相应操作,用以降低数据维数,减少数据数量。第四,数据挖掘。根据对数据进行挖掘的目标和用户的需要,确定要用到的挖掘算法,因为根据不同的任务目标,可能用到的挖掘方法也不一样,比如有分类、总结、聚类和关联规则等方法。对数据通过确定的算法进行相应的数据挖掘,得到用户需要的模式。第五,解释评价。对得到的模式进行解释评价,经过用户或机器的评估后,当有冗余或无关的模式,要将其去掉;当发现模式不是用户期望要求,就需要重新选取数据,采用新的数据变换方法,设定新的数据挖掘参数值,甚至换一种挖掘算法重新进行数据的挖掘。第六,得到用户需要的模式,并对它进行评价以用户可以理解的方式显示给出来[3]。
 
3 图书馆随书光盘的数据挖掘 
3.1 关联规则挖掘概述
  关联规则挖掘是为了发现数据库中不同数据项集间隐藏的关联关系。关联规则有两个重要的标准:一是支持度(Support),表示在事务中A和B同时出现的概率有多大,可用概率 P(AB)表示;二是可信度(confidence), 它表示关联规则A出现时B同时出现的可能性有多大,它可用条件概率P(B|A)表示。关联规则的挖掘算法是要在事务中找出具有设定的最小支持度和最小可信度的关联规则。
3.2 Apriori算法及在光盘挖掘中的应用
  目前有大量关于关联规则挖掘的研究成果,出现了各种各样的挖掘算法。如Apriori、抽样算法和DIC算法等[4]。 在随书光盘挖掘中将使用Apriori算法对光盘借阅信息进行关联规则挖掘。
  Apriori算法中首先要生成频繁项集然后频繁项集根据最小支持度和最小可信度产生关联规则。
Apriori算法的步骤如下[5]:
输入:事务数据库D,最小支持度阈值minsup
输出:D中的所有的频繁项集
L1=search_frequent_1_itemsets( D );// ?所有频繁?1?项集?
for(k=2;Lk-1 !=φ;k++)? 
begin
     Ck=apriori_gen(Lk-1,minsup);   //生成候选项集  所有的k-项集中满足其(k-1)- 子集都在Lk-1里的全体
     //扫描数据库事物集
  for?each?transaction?t?in?D    
     begin
    Ct=subset(Ck,t);  
       // Ct是Ck中被t包含的候选集的集合
       for?each?candidate?c?in Ct
           ?c.count++;?      
     end
     Lk?={c?∈Ck|c.count>=minsup};  
     // Lk?是Ck中满足不小于minsup的全体项集
end
Result=Result∪Lk;   //得到所有频繁项集
3.3 随书光盘的信息挖掘形式
  其一,利用图书查询和借阅信息进行综合的数据分析,可以找到光盘的关联关系。由于现在知识更新的非常快,所以只提取近十年的数据。首先需要把读者按专业和年级进行分类,然后根据学生的专业、班级等内容按学期把学生借阅历史信息提取出来。
  从借阅历史记录中搜寻的原始数据可能存在许多空的数据和含有噪声的数据,这会影响最后挖掘结果的准确性。在进行数据挖掘前要对这些数据进行预处理以消除噪声和冗余信息。以一年级计算机专业为例,对光盘按登录号进行排序。下表1为根据学期分类的借阅信息。
  
                                                         表1 光盘借阅信息表
借书证号  班级号 光盘1 光盘2 光盘3 光盘4 光盘5 光盘6 光盘7 ……
14010112 030402 1 1 1     1 1 ……
14010113 030402   1 1   1 1   ……
14010202 030402 1     1     1 ……
14010212 030402       1 1 1 1 ……
 
      读者借阅了光盘1又借阅了光盘2,就说明光盘1和光盘2之间有关联关系。从中可以找出具有关联关系的光盘数据,然后进行统一处理,把有效的内容推荐给读者。根据学生开课进行组织列成序列,形成课程相关的推荐图书和光盘的内容。
其二,可以引入与学生的学习成绩相关的信息,根据与学生所开设的课程相关的图书和光盘信息,分析学生怎样使用图书和随书光盘进行学习可以不断提高学习效率,并找出具有针对性的光盘数据向学生进行推荐。首先要找出学生开设的课程,然后根据开设的课程对其借阅的图书和光盘进行分类,消除产生的大量冗余信息,分析学习这门课的每个学生所借阅的与课程相关的各种光盘,如表2 所示。
                                                       表2 学生学习成绩和光盘借阅信息表
             
借书证号  成绩 光盘1 光盘2 光盘3 光盘4 光盘5 光盘6 ……
14010112 A 1 1 1     1 ……
14010113 A 1 1     1   ……
14010202 B 1     1     ……
14010212 C       1 1 1 ……
 
  采用关联规则算法,把最小支持度设为30%,进行数据挖掘可以得到关联规则。
  3.4 结果分析
  数据挖掘结束后,要对所得到的用户模式进行解释与评估,比如借阅光盘1的学生成绩要好于不借的学生。可得出光盘1有效地提高了学习效率。那么就可以推荐学生进行相应的学习。通过引入数据挖掘,发现随书光盘之间的关联关系,并且找出能有效提高学生学习成绩的图书光盘,按照读者的学习进度推荐相关的内容。
  根据任务要求整个系统由三部分组成数据预处理、关联规则挖掘和分析评估。主要系统可采用PHP程序语言、Linux操作系统、Apache服务器和MySQL数据库来实现。
  
4 结语
  随书光盘作为一种重要的图书馆资源,它对读者学习起到的作用不言而喻,尤其在计算机应用广泛普及的今天,大学里图书馆的服务对象主要是学生,如何让学生更好的利用随书光盘进行相应的知识学习,不断提高学习效率,值得我们进一步探讨和研究。在图书馆的日常工作当中,有效地对随书光盘进行管理和使用已经成为一项重要的工作内容,我们借助于数据挖掘技术对其进行了整体分析,目的就是让读者能够有效地利用书籍和随书光盘,同时也让图书馆的工作效率进一步提高,为读者提供更多的学习支持和服务。 
大云网官方微信售电那点事儿
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞

相关新闻