Web教学资源自动搜索系统的研究与实现

2023-04-03 来源：二三四教育网

第２９卷第６期　青岛科技大学学报（自然科学版）　Ｖｏ１．２９　Ｎｏ．６　２００８年１２月　Ｊｏｕｒｎａｌ　ｏｆ　Ｑｉｎｇｄａｏ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｅｄｉｔｉｏｎ）Ｄｅｃ．２００８　文章编号：１６７２—６９８７（２００８）０６—０５４６—０４　Ｗｅｂ教学资源自动搜索系统的研究与实现　黎孟雄　。　（１．中国矿业大学计算机科学与技术学院，江苏徐州２２１００８；２．连云港师范高等专科学校计算机系，江苏连云港２２２００６）　摘　要：对Ｗｅｂ教学资源自动搜索系统进行了总体设计，系统引入了智能分词技术，并　在搜索模块采用了改进的ＰａｇｅＲａｎｋ算法，有效地解决了传统搜索引擎在教育资源领域　方面存在检索精度不高、信息反馈量过大的问题。　关键词：教学资源；搜索系统；ＰａｇｅＲａｎｋ算法；采集规则　中图分类号：ＴＰ　３１９　文献标识码：Ａ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　Ａｕｔｏ。ｓｅａｒｃｈｉｎｇ　Ｓｙｓｔｅｍ　ｏｎ　Ｗｅｂ　Ｔｅａｃｈｉｎｇ　Ｒｅｓｏｕｒｃｅｓ　ＬＩ　Ｍｅｎｇ－ｘｉｏｎｇ　’　（１．Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎａ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｍｉｎｉｎｇ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｘｕｚｈｏｕ　２２１００８，Ｃｈｉｎａ　２．Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ，Ｌｉａｎｙｕｎｇａｎｇ　Ｔｅａｃｈｅｒ’Ｃｏｌｌｅｇｅ，Ｌｉａｎｙｕｎｇａｎｇ　２２２００６，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｏｖｅｒａｌｌ　ｄｅｓｉｇｎａｔｉｏｎ　ｏｆ　ａｎ　ａｕｔｏ—ｓｅａｒｃｈｉｎｇ　ｓｙｓｔｅｍ　ｏｎ　ｗｅｂ　ｉｎｓｔｒｕｃｔｉｏｎ　ｒｅ—　ｓｏｕｒｃｅｓ　ａｎｄ　ｓｏｍｅ　ｋｅｙ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ｉｎｖｏｌｖｉｎｇ　ｉｎ　ｔｈｅ　ｓｙｓｔｅｍ　ａｒｅ　ｉｎｔｒｏｄｕｃｅｄ．Ｔｈｅ　ｓｙｓｔｅｍ　ｉｎｔｅｇｒａｔｅｓ　ｔｈｅ　ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　ｉｎｔｅｌｌｉｇｅｎｔ　ｓｅｇｍｅｎｔａｔｉｏｎ　ａｎｄ　ｕｓｅｓ　ｔｈｅ　ｉｍｐｒｏｖｅｄ　ＰａｇｅＲａｎｋ　ａｌｇｏｒｉｔｈｍ　ｉｎ　ｔｈｅ　ｓｅａｒｃｈ　ｍｏｄｕｌｅ，ｗｈｉｃｈ　ｓｏｌｖｅｄ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｏｆ　ｌｏｗ　ｓｅａｒｃｈｉｎｇ　ｐｒｅｃｉｓｉｏｎ　ａｎｄ　ｏｖｅｒｌｏａｄｅｄ　ｆｅｅｄｂａｃｋ　ｉｎｆｏｒｍａｔｉｏｎ　ｆｏｒ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ　ｉｎ　ｔｈｅ　ｆｉｅｌｄ　ｏｆ　ｉｎｓｔｒｕｃ—　ｔｉｏｎ　ｒｅｓｏｕｒｃｅｓ　ｅｆｆｅｃｔｉｖｅｌｙ．　Ｋｅｙ　ｗｏｒｄｓ：ｉｎｓｔｒｕｃｔｉｏｎ　ｒｅｓｏｕｒｃｅｓ；ｓｅａｒｃｈｉｎｇ　ｓｙｓｔｅｍ；ＰａｇｅＲａｎｋ　ａｌｇｏｒｉｔｈｍ；ａｃｑｕｉｓｉｔｉｏｎ　ｒＥｌ】ｅｓ　随着教育信息化的快速发展，Ｉｎｔｅｒｎｅｔ上　业性搜索需求等问题。因此，为了使现有的Ｗｅｂ　Ｗｅｂ教学资源也呈几何级数增长。这些丰富的　教学资源得以充分的利用，满足人们在教育领域　多媒体教学资源，有效地解决了传统教学环境下　的专业性搜索需要，有必要研究专门的智能化　教学资源缺乏、理论性知识难以直观呈现的问题。　Ｗｅｂ教学资源自动搜索系统。该系统首先对用　但是，从如此海量的Ｗｅｂ教学资源中快速准确地　户检索条件进行智能分词处理，然后对检索到的　获取真正需要的教学资源又成为教学过程中亟待　Ｗｅｂ教学资源页面进行优化，即对ｗｅｂ页面进　解决的新问题。由于目前传统搜索引擎普遍基于　行修正和页面解析，以得到Ｄｏｍ树，最后利用已　关键词匹配技术，对用户输入的查询条件缺乏理　经形成的基于自学习的采集规则获取有效的教学　解能力，而教学资源又有其自身的学科特点，以至　资料。获取的结果以ＸＭＩ　形式展现，并与其他　于在教育资源搜索领域普遍存在检索精度不高、　系统或异构数据源进行交互。　信息反馈量过大、资源分类过于笼统、不能满足专　收稿日期：２００８　０１—１Ｏ　基金项目：江苏省现代教育技术研究“十一・五”规划重点课题基金项目（２００６　Ｒ　２３９６）　作者简介：黎孟雄（１９７３～），男，讲师．　第６期　黎孟雄：Ｗｅｂ教学资源自动搜索系统的研究与实现　５４７　１系统总体设计　统的覆盖率。针对Ｗｅｂ教学资源的分布性特点，　系统采用增量式采集和广度优先算法　］，在提高　Ｗｅｂ教学资源自动搜索系统主要由智能分　搜索效率的同时，尽量提高教学资源的查全率。　词模块、搜索模块、索引模块、采集模块等关键部　１．３索引模块　分构成。系统结构模型如图１所示。　索引模块的功能主要是理解教学资源素材的　信息，从搜索到的教学资源Ｗｅｂ页中抽取出索引　项，用于表示文档以及生成文档库的索引表。　对于自动搜索系统而言，索引模块中索引词　的选择是一个比较核心的问题，如果选常用词做　索引词表，虽然检索时内存需求较少，但每个索引　词的出现频数会很高。而且因为很多词未收录在　索引词表中，做倒排表时就会把它们切成单字处　理。单字的出现频数越多，则检索时所做的合取　操作就越多，导致系统查询响应时间变长。反之，　图１　系统结构模型图　Ｆｉｇ．１　Ｓｙｓｔｅｍ　ｓｔｒｕｃｔｕｒｅ　ｍｏｄｅｌ　ｄｉａｇｒａｍ　若索引词表的数量较大，在检索时就会占用很多　的内存资源，很多出现频数很低的索引词在检索　１．１智能分词模块　时很少被使用，白白浪费了内存资源，因此索引词　由于自然语言语句中词的同义或多义现象，　的平衡选择非常重要。　用户的学习背景、认识能力、基础水平、语言习惯　索引模块的另一个重点是需要使用倒排索引　的不同，输入的检索条件与查询结果关键词相比　技术，倒排索引包括建立正向索引和反向索引。　极可能是模糊而不同的，往往导致资源反馈信息　１．４采集模块　的有效查全率和查准率还存在一定缺陷。　采集模块的功能是把经过ＰａｇｅＲａｎｋ算法排　智能分词模块的作用是提供友好与实用的用　序的教学资源Ｗｅｂ页面集作为样本进行清洗和　户接口。具体来说，就是系统在接收用户检索条　解析转化为Ｄｏｍ页面集。然后根据教学资源元　件的时候能接受灵活多样、内涵丰富的自然语言　数据规范的标准制定该页面集合的语义模型，并　句子，能理解常用的检索用语，在检索功能方面具　根据此语义模型对Ｄｏｍ页面集进行标记，建立　有求解复杂问题的能力，即具备汉语检索的智能　页面信息内容与语义对象的对应关系，然后系统　接口，以充分适应人类的思维习惯。　把此关系通过学习获取教学资源中各语义对象的　智能分词模块采用基于分词词典的分词策　采集规则段列表，并把采集规则段写入到规则库　略、组合型歧义和交集型歧义的统计消歧算　中。对各语义对象的采集规则段进行组合获取采　法口　］。初步的测试和实验表明，该分词策略和消　集规则之后对采集规则进行装配形成教学资源信　歧算法具有较高的切分正确率和排歧效率。　息采集知识，并把此知识写入到采集知识库中。　１．２搜索模块　最后就可以对Ｗｅｂ页面进行实时采集，将获取的　搜索模块的主要功能是依据用户需求，通过　资源内容写入到本地教学资源库中并反馈给用　网络蜘蛛（Ｓｐｉｄｅｒ）对Ｗｅｂ教学资源进行检索。　户。　网络蜘蛛在Ｉｎｔｅｒｎｅｔ通过网页的链接地址来寻找　目标网页，从网站某一个页面（通常是首页）开始，　２系统关键技术　读取网页的所需内容，再找到在网页中的其它链　２．１　ＰａｇｅＲａｎｋ技术　接地址，然后通过这些链接地址寻找下一个网页，　ＰａｇｅＲａｎｋ技术应用在搜索模块中，搜索　这样一直循环下去，直到把这个网站所有的网页　Ｗｅｂ教学资源时检查整个网络链接结构，其数值　都抓取完为止。如果把整个互联网当成一个网　的计算基于链接的数量与质量，然后进行超文本　站，那么网络蜘蛛就可以用这个原理把互联网上　匹配分析，以确定哪些Ｗｅｂ网页与正在执行的特　所有的目标内容都采集下来。　定搜索相关。在综合考虑整体重要性以及与特定　搜索模块的性能直接关系到整个资源搜索系　查询的相关性之后，ＰａｇｅＲａｎｋ算法可以将最相关　５４８　青岛科技大学学报（自然科学版）　第２９卷　最可靠的教学资源搜索结果放在首位。简单地　说，ＰａｇｅＲａｎｋ算法类似于科技论文中的引用机　制：谁的论文被引用次数多，谁就是权威。在Ｉｎ—　ｔｅｒｎｅｔ上ＰａｇｅＲａｎｋ就是基于网页中相互链接关　系的分析得出的，并确定Ｗｅｂ网页重要性。　ＰａｇｅＲａｎｋ算法主要步骤如下：　（１）找到所有与搜索关键词匹配的网页；　源［　。　采集规则装配技术的策略是：为语义模式中　每一个有采集规则的语义对象生成一个ＦＬＷＲ　（Ｆｏｒ—Ｌｅｔ—Ｗｈｅｒｅ—Ｒｅｔｕｒｎ）表达式，其中成员对象　由于其个数不确定生成一个“ＦＲ”形式（表示Ｆｏｒ　子句和Ｒｅｔｕｒｎ子句）的表达式；集合对象和原子　对象生成一个“Ｉ　Ｒ”形式（表示Ｌｅｔ子句和Ｒｅ—　ｔｕｒｎ子句）的表达式；没有采集规则的语义对象　（２）根据页面因素如标题或关键词密度等排　列等级；　（３）计算导入链接的锚文本中的关键词；　（４）通过ＰａｇｅＲａｎｋ得分调整搜索到的Ｗｅｂ　网页并进行排序。　但是，由于传统ＰａｇｅＲａｎｋ算法在传递网页　的ＰａｇｅＲａｎｋ值时，采用了平均传递的策略，使得　主题不相关的网页获得了本不该得到的ＰａｇｅＲ—　ａｎｋ值，导致ＰａｇｅＲａｎｋ值的分布出现偏差而无　法区分某些网页中的超链接是否和搜索主题相　关，即无法判断网页内容上的相似性，这样就容易　导致出现主题漂移问题。比如，从一个关于数据　库优化为主题的网页开始，最后可能会漂移到高　校教学资源为主题的网页上去。　针对传统ＰａｇｅＲａｎｋ算法中出现的主题漂移　现象，系统搜索模块作了一定的改进。采用了基　于虚拟文档的主题相似度模型和基于主题相似度　模型的ＰａｇｅＲａｎｋ改进算法　］。只要选择不同的　相似度计算模型，就可以得到各种不同的Ｐａｇｅｒ—　ａｎｋ改进算法，形成一个算法簇。该算法在不需　要额外文本信息，也不增加算法时空复杂度的情　况下，就能极大地减少主题漂移现象。　ＰａｇｅＲａｎｋ改进算法的核心思想为：根据链接　到网页的主题相关性的高低来传递ＰａｇｅＲａｎｋ　值，而不采用平均传递策略。为了算法不增加额　外信息需求而直接通过网页间的链接关系来得到　网页间的主题相关性，并且利用虚拟文档向量来　表示一个网页，并通过两个网页的虚拟文档向量　的余弦相似度来描述它们的主题相关性，以此实　现针对链接到的网页主题相关性的高低来传递　ＰａｇｅＲａｎｋ值　］。　２．２采集规则装配技术　在系统的采集模块已经拥有各语义对象的采　集规则时，随后的任务就是对这些采集规则进行　装配形成采集知识。在教学资源信息采集的过程　中就是调用这些知识进行采集，根据每条知识都　可以采集出来结构化信息表现模式的教学资　仅生成一个构造算子，然后将子对象的ＦＬＷＲ表　达式（或者构造算子）放人父对象的ＦＩ　ＷＲ表达　式的Ｒｅｔｕｒｎ子句内部（或者构造算子内部）。此　时各语义对象的ＦＬＷＲ表达式（或者构造算子）　按模式树的嵌套层次组织，以实现按语义模式结　构输出［　。　采集规则装配算法的主要思想是：首先为模　式树中的叶节点对应的语义对象产生相应的ＦＬ—　ＷＲ表达式，然后再逐步为内部节点对应的语义　对象产生相应的ＦＬＷＲ表达式或者构造算子，并　将其子对象形成的ＦＬＲｗ表达式或者构造算子　放到合适的位置，以构成正确的嵌套关系。　采集规则装配算法：　输入：模式树和最优规则列表　输出：教学资源采集知识　ＡｓｓｅｍｂｌｙＲｕｌｅ（ＳｅｍＲｏｏｔＮｏｄｅ）　Ｂｅｇｉｎ　／／如果当前节点有子节点，则继续　Ｉｆ　ＳｅｍＲｏｏｔＮｏｄｅ．ｈａｓＣｈｉｌｄ（）Ｔｈｅｎ　Ｂｅｇｉｎ　／／当前节点的子节点的数目　Ｎ—ＳｅｍＲｏｏｔＮｏｄｅ．ＣｈｉｌｄＮｏｄｅＣｏｕｎｔ：　／／用于临时存放当前节点所有孩子节点　形成的表达式或者构造算子的字符串的　和　ＴｅｍＲｕｌｅ一‘‘”：　／／按照节点数目进行遍历　Ｆｏｒ（ｉ一０；ｉ＜Ｎ；ｉ＋＋）　Ｂｅｇｉｎ　ＣｈｉｌｄＮｏｄｅ—ＳｅｍＲｏｏｔＮｏｄｅ．Ｃｈｉｌｄ　Ｅｌｉ；／／取得第ｉ个子节点　／／递归调用　ＴｅｍＲｕｌｅ＝ＴｅｍＲｕｌｅ＋ＡｓｓｅｍｂｌｙＲｕｌｅ　（ＣｈｉｌｄＮｏｄｅ）；　Ｅｎｄ　根据ＳｅｍＲｏｏｔＮｏｄｅ的类别为其产生相应形　第６期　黎孟雄：ｗｅｂ教学资源自动搜索系统的研究与实现　５４９　式的ＦＬＲＷ表达式（或构造算子），并将Ｔｅｍ—　进一步的研究。　Ｒｕｌｅ放到该表达式中Ｒｅｔｕｒｎ部分的构造算子内　部，形成文本串放入ＲｅｓｕｌｔＲｕｌｅ变量，形成文件，　参　考　文　献　保存到数据库中。　Ｅ１］温滔，朱巧明，吕强．一种快速汉语分词算法［Ｊ］．计算机工　Ｅｎｄ　程，２００４，３０（１９）：１１９－１２０．　Ｅｌｓｅ　［２］肖云，孙茂松，邹嘉彦．利用上下文信息解决汉语自动分词中　Ｂｅｇｉｎ　的组合型歧义［Ｊ］．计算机工程与应用，２００１，１９：８７—８９．　［３］宋聚平，王永成，尹中航，等．对网页ＰａｇｅＲａｎｋ算法的改进　为原子对象生成相应形式的ＦＬＲＷ表　［Ｊ］．上海交通大学学报，２００３，３７（３）：３９７—４００．　达式作为函数结果输出　［４］黄德才，戚华春，钱能．基于主题相似度模型的ＴＳ－ＰａｇｅＲａｎｋ　Ｅｎｄ　算法［Ｊ］＿小型微型计算机系统，２００７，２８（３）：５００—５１４．　Ｅｎｄ　［５］Ｔａｈｅｒ　Ｈ．Ｈａｖｅｌｉｗａｌａ．Ｔｏｐｉｃ—ｓｅｎｓｉｔｉｖｅ　ｐａｇｅＲａｎｋ［Ｃ＇］／／Ｐｒｏ—　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１　ｌｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｗｏｒｌｄ　Ｗｉｄｅ　３　结语　ＷＥＢ，Ｈｏｎｏｌｕｌｕ，Ｈａｗａｉｉ，ＡＣＭ　Ｐｒｅｓｓ，２００２．　・　本研究详细介绍了面向Ｗｅｂ教学资源的自　［６］Ｒｉｃｈａｒｄｓｏｎ　Ｍ，Ｄｏｍｉｎｇｏｓ　Ｐ．Ｔｈｅ　ｉｎｔｅｌｌｉｇｅｎｔ　ｓｕｒｆｅｒ：ｐｒｏｂａｂｉ—　ｌｉｓｔｉｃ　ｃｏｍｂｉｎａｔｉｏｎ　ｏｆ　ｌｉｎｋ　ａｎｄ　ｃｏｎｔｅｎｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｎ　ＰａｇｅＲ—　动搜索系统的总体设计及其关键技术，该系统能　ａｎｋ［Ｊ］．Ａｄｖａｎｃｅｓ　ｉｎ　Ｎｅｕｒａｌ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　Ｓｙｓｔｅｍｓ，　在信息浩瀚的Ｉｎｔｅｒｎｅｔ上搜索与教学资源相关的　２００２，１４：１４４卜１４４８．　信息并进行采集。采用本系统不仅能有效地提高　［７］Ｌｉｎ　Ｈ，Ｈｏ　Ｊ－Ｍ．Ｄｉｓｃｏｖｅｒｉｎｇ　ｉｎｆｏｒｍａｔｉｖｅ　ｃｏｎｔｅｎｔ　ｂｌｏｃｋｓ　ｗｅｂ教学资源搜索的查全率，而且更能提高相关　ｆｒｏｍ　ｗｅｂ　ｄｏｃｕｍｅｎｔｓ［Ｃ］／／ｔｈｅ　ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＭ　教学资源的查准率，极大地方便了用户有效利用　ＳＩＧＫＤＤ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　网络收集教学资源。但本系统在对Ｗｅｂ页面集　Ｄｉｓｃｏｖｅｒｙ＆Ｄａｔａ　Ｍｉｎｉｎｇ（ＳＩＧＫＤＤ　０２），Ａｌｂｅｒｔａ，Ｃａｎａｄａ，　２００２．　结构发生变化的时候自适应性还有一定的不足，　［８］Ｋｎｏｂｌｏｃｋ　Ｃ　Ａ，Ｌｅｒｍａｎ　Ｋ，Ｍｉｎｔｏｎ　Ｓ，ｅｔ　ａ１．Ａｃｃｕｒａｔｅｌｙ　ａｎｄ　ｒｅ—　对Ｗｅｂ页面集的变化做了很大程度的限定。如　ｌｉａｂｌｙ　ｅｘｔｒａｃｔｉｎｇ　ｄａｔａ　ｆｒｏｍ　ｔｈｅ　Ｗｅｂ：ａ　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ａｐ—　何进一步提高搜索系统本身的自学习能力以适应　ｐｒｏａｃｈ［－Ｊ］．Ｂｕｌｌｅｔｉｎ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ　Ｔｅｃｈｎｉｃａｌ　ｗｅｂ页面集不同程度的变化，在这方面还需要做　Ｃｏｍｍｉｔｔｅｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ，２０００，２３（４）：３３—４１．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

Web教学资源自动搜索系统的研究与实现