Web教学资源自动搜索系统的研究与实现
2023-04-03
来源:二三四教育网
第29卷第6期 青岛科技大学学报(自然科学版) Vo1.29 No.6 2008年12月 Journal of Qingdao University of Science and Technology(Natural Science Edition)Dec.2008 文章编号:1672—6987(2008)06—0546—04 Web教学资源自动搜索系统的研究与实现 黎孟雄 。 (1.中国矿业大学计算机科学与技术学院,江苏徐州221008;2.连云港师范高等专科学校计算机系,江苏连云港222006) 摘 要:对Web教学资源自动搜索系统进行了总体设计,系统引入了智能分词技术,并 在搜索模块采用了改进的PageRank算法,有效地解决了传统搜索引擎在教育资源领域 方面存在检索精度不高、信息反馈量过大的问题。 关键词:教学资源;搜索系统;PageRank算法;采集规则 中图分类号:TP 319 文献标识码:A Research and Implementation of Auto。searching System on Web Teaching Resources LI Meng-xiong ’ (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221008,China 2.Department of Computer,Lianyungang Teacher’College,Lianyungang 222006,China) Abstract:The overall designation of an auto—searching system on web instruction re— sources and some key technologies involving in the system are introduced.The system integrates the technology of intelligent segmentation and uses the improved PageRank algorithm in the search module,which solved the problem of low searching precision and overloaded feedback information for the traditional search engine in the field of instruc— tion resources effectively. Key words:instruction resources;searching system;PageRank algorithm;acquisition rEl】es 随着教育信息化的快速发展,Internet上 业性搜索需求等问题。因此,为了使现有的Web Web教学资源也呈几何级数增长。这些丰富的 教学资源得以充分的利用,满足人们在教育领域 多媒体教学资源,有效地解决了传统教学环境下 的专业性搜索需要,有必要研究专门的智能化 教学资源缺乏、理论性知识难以直观呈现的问题。 Web教学资源自动搜索系统。该系统首先对用 但是,从如此海量的Web教学资源中快速准确地 户检索条件进行智能分词处理,然后对检索到的 获取真正需要的教学资源又成为教学过程中亟待 Web教学资源页面进行优化,即对web页面进 解决的新问题。由于目前传统搜索引擎普遍基于 行修正和页面解析,以得到Dom树,最后利用已 关键词匹配技术,对用户输入的查询条件缺乏理 经形成的基于自学习的采集规则获取有效的教学 解能力,而教学资源又有其自身的学科特点,以至 资料。获取的结果以XMI 形式展现,并与其他 于在教育资源搜索领域普遍存在检索精度不高、 系统或异构数据源进行交互。 信息反馈量过大、资源分类过于笼统、不能满足专 收稿日期:2008 01—1O 基金项目:江苏省现代教育技术研究“十一・五”规划重点课题基金项目(2006 R 2396) 作者简介:黎孟雄(1973~),男,讲师. 第6期 黎孟雄:Web教学资源自动搜索系统的研究与实现 547 1系统总体设计 统的覆盖率。针对Web教学资源的分布性特点, 系统采用增量式采集和广度优先算法 ],在提高 Web教学资源自动搜索系统主要由智能分 搜索效率的同时,尽量提高教学资源的查全率。 词模块、搜索模块、索引模块、采集模块等关键部 1.3索引模块 分构成。系统结构模型如图1所示。 索引模块的功能主要是理解教学资源素材的 信息,从搜索到的教学资源Web页中抽取出索引 项,用于表示文档以及生成文档库的索引表。 对于自动搜索系统而言,索引模块中索引词 的选择是一个比较核心的问题,如果选常用词做 索引词表,虽然检索时内存需求较少,但每个索引 词的出现频数会很高。而且因为很多词未收录在 索引词表中,做倒排表时就会把它们切成单字处 理。单字的出现频数越多,则检索时所做的合取 操作就越多,导致系统查询响应时间变长。反之, 图1 系统结构模型图 Fig.1 System structure model diagram 若索引词表的数量较大,在检索时就会占用很多 的内存资源,很多出现频数很低的索引词在检索 1.1智能分词模块 时很少被使用,白白浪费了内存资源,因此索引词 由于自然语言语句中词的同义或多义现象, 的平衡选择非常重要。 用户的学习背景、认识能力、基础水平、语言习惯 索引模块的另一个重点是需要使用倒排索引 的不同,输入的检索条件与查询结果关键词相比 技术,倒排索引包括建立正向索引和反向索引。 极可能是模糊而不同的,往往导致资源反馈信息 1.4采集模块 的有效查全率和查准率还存在一定缺陷。 采集模块的功能是把经过PageRank算法排 智能分词模块的作用是提供友好与实用的用 序的教学资源Web页面集作为样本进行清洗和 户接口。具体来说,就是系统在接收用户检索条 解析转化为Dom页面集。然后根据教学资源元 件的时候能接受灵活多样、内涵丰富的自然语言 数据规范的标准制定该页面集合的语义模型,并 句子,能理解常用的检索用语,在检索功能方面具 根据此语义模型对Dom页面集进行标记,建立 有求解复杂问题的能力,即具备汉语检索的智能 页面信息内容与语义对象的对应关系,然后系统 接口,以充分适应人类的思维习惯。 把此关系通过学习获取教学资源中各语义对象的 智能分词模块采用基于分词词典的分词策 采集规则段列表,并把采集规则段写入到规则库 略、组合型歧义和交集型歧义的统计消歧算 中。对各语义对象的采集规则段进行组合获取采 法口 ]。初步的测试和实验表明,该分词策略和消 集规则之后对采集规则进行装配形成教学资源信 歧算法具有较高的切分正确率和排歧效率。 息采集知识,并把此知识写入到采集知识库中。 1.2搜索模块 最后就可以对Web页面进行实时采集,将获取的 搜索模块的主要功能是依据用户需求,通过 资源内容写入到本地教学资源库中并反馈给用 网络蜘蛛(Spider)对Web教学资源进行检索。 户。 网络蜘蛛在Internet通过网页的链接地址来寻找 目标网页,从网站某一个页面(通常是首页)开始, 2系统关键技术 读取网页的所需内容,再找到在网页中的其它链 2.1 PageRank技术 接地址,然后通过这些链接地址寻找下一个网页, PageRank技术应用在搜索模块中,搜索 这样一直循环下去,直到把这个网站所有的网页 Web教学资源时检查整个网络链接结构,其数值 都抓取完为止。如果把整个互联网当成一个网 的计算基于链接的数量与质量,然后进行超文本 站,那么网络蜘蛛就可以用这个原理把互联网上 匹配分析,以确定哪些Web网页与正在执行的特 所有的目标内容都采集下来。 定搜索相关。在综合考虑整体重要性以及与特定 搜索模块的性能直接关系到整个资源搜索系 查询的相关性之后,PageRank算法可以将最相关 548 青岛科技大学学报(自然科学版) 第29卷 最可靠的教学资源搜索结果放在首位。简单地 说,PageRank算法类似于科技论文中的引用机 制:谁的论文被引用次数多,谁就是权威。在In— ternet上PageRank就是基于网页中相互链接关 系的分析得出的,并确定Web网页重要性。 PageRank算法主要步骤如下: (1)找到所有与搜索关键词匹配的网页; 源[ 。 采集规则装配技术的策略是:为语义模式中 每一个有采集规则的语义对象生成一个FLWR (For—Let—Where—Return)表达式,其中成员对象 由于其个数不确定生成一个“FR”形式(表示For 子句和Return子句)的表达式;集合对象和原子 对象生成一个“I R”形式(表示Let子句和Re— turn子句)的表达式;没有采集规则的语义对象 (2)根据页面因素如标题或关键词密度等排 列等级; (3)计算导入链接的锚文本中的关键词; (4)通过PageRank得分调整搜索到的Web 网页并进行排序。 但是,由于传统PageRank算法在传递网页 的PageRank值时,采用了平均传递的策略,使得 主题不相关的网页获得了本不该得到的PageR— ank值,导致PageRank值的分布出现偏差而无 法区分某些网页中的超链接是否和搜索主题相 关,即无法判断网页内容上的相似性,这样就容易 导致出现主题漂移问题。比如,从一个关于数据 库优化为主题的网页开始,最后可能会漂移到高 校教学资源为主题的网页上去。 针对传统PageRank算法中出现的主题漂移 现象,系统搜索模块作了一定的改进。采用了基 于虚拟文档的主题相似度模型和基于主题相似度 模型的PageRank改进算法 ]。只要选择不同的 相似度计算模型,就可以得到各种不同的Pager— ank改进算法,形成一个算法簇。该算法在不需 要额外文本信息,也不增加算法时空复杂度的情 况下,就能极大地减少主题漂移现象。 PageRank改进算法的核心思想为:根据链接 到网页的主题相关性的高低来传递PageRank 值,而不采用平均传递策略。为了算法不增加额 外信息需求而直接通过网页间的链接关系来得到 网页间的主题相关性,并且利用虚拟文档向量来 表示一个网页,并通过两个网页的虚拟文档向量 的余弦相似度来描述它们的主题相关性,以此实 现针对链接到的网页主题相关性的高低来传递 PageRank值 ]。 2.2采集规则装配技术 在系统的采集模块已经拥有各语义对象的采 集规则时,随后的任务就是对这些采集规则进行 装配形成采集知识。在教学资源信息采集的过程 中就是调用这些知识进行采集,根据每条知识都 可以采集出来结构化信息表现模式的教学资 仅生成一个构造算子,然后将子对象的FLWR表 达式(或者构造算子)放人父对象的FI WR表达 式的Return子句内部(或者构造算子内部)。此 时各语义对象的FLWR表达式(或者构造算子) 按模式树的嵌套层次组织,以实现按语义模式结 构输出[ 。 采集规则装配算法的主要思想是:首先为模 式树中的叶节点对应的语义对象产生相应的FL— WR表达式,然后再逐步为内部节点对应的语义 对象产生相应的FLWR表达式或者构造算子,并 将其子对象形成的FLRw表达式或者构造算子 放到合适的位置,以构成正确的嵌套关系。 采集规则装配算法: 输入:模式树和最优规则列表 输出:教学资源采集知识 AssemblyRule(SemRootNode) Begin //如果当前节点有子节点,则继续 If SemRootNode.hasChild()Then Begin //当前节点的子节点的数目 N—SemRootNode.ChildNodeCount: //用于临时存放当前节点所有孩子节点 形成的表达式或者构造算子的字符串的 和 TemRule一‘‘”: //按照节点数目进行遍历 For(i一0;i<N;i++) Begin ChildNode—SemRootNode.Child Eli;//取得第i个子节点 //递归调用 TemRule=TemRule+AssemblyRule (ChildNode); End 根据SemRootNode的类别为其产生相应形 第6期 黎孟雄:web教学资源自动搜索系统的研究与实现 549 式的FLRW表达式(或构造算子),并将Tem— 进一步的研究。 Rule放到该表达式中Return部分的构造算子内 部,形成文本串放入ResultRule变量,形成文件, 参 考 文 献 保存到数据库中。 E1]温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工 End 程,2004,30(19):119-120. Else [2]肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中 Begin 的组合型歧义[J].计算机工程与应用,2001,19:87—89. [3]宋聚平,王永成,尹中航,等.对网页PageRank算法的改进 为原子对象生成相应形式的FLRW表 [J].上海交通大学学报,2003,37(3):397—400. 达式作为函数结果输出 [4]黄德才,戚华春,钱能.基于主题相似度模型的TS-PageRank End 算法[J]_小型微型计算机系统,2007,28(3):500—514. End [5]Taher H.Haveliwala.Topic—sensitive pageRank[C']//Pro— ceedings of the 1 lth International Conference on World Wide 3 结语 WEB,Honolulu,Hawaii,ACM Press,2002. ・ 本研究详细介绍了面向Web教学资源的自 [6]Richardson M,Domingos P.The intelligent surfer:probabi— listic combination of link and content information in PageR— 动搜索系统的总体设计及其关键技术,该系统能 ank[J].Advances in Neural Information Processing Systems, 在信息浩瀚的Internet上搜索与教学资源相关的 2002,14:144卜1448. 信息并进行采集。采用本系统不仅能有效地提高 [7]Lin H,Ho J-M.Discovering informative content blocks web教学资源搜索的查全率,而且更能提高相关 from web documents[C]//the proceedings of the ACM 教学资源的查准率,极大地方便了用户有效利用 SIGKDD International Conference on Knowledge 网络收集教学资源。但本系统在对Web页面集 Discovery&Data Mining(SIGKDD 02),Alberta,Canada, 2002. 结构发生变化的时候自适应性还有一定的不足, [8]Knoblock C A,Lerman K,Minton S,et a1.Accurately and re— 对Web页面集的变化做了很大程度的限定。如 liably extracting data from the Web:a machine learning ap— 何进一步提高搜索系统本身的自学习能力以适应 proach[-J].Bulletin of the IEEE Computer Society Technical web页面集不同程度的变化,在这方面还需要做 Committee on Data Engineering,2000,23(4):33—41.