Chinese Keyword Search by Indexing in Relational Databases
文件大小:
242k
资源说明:本文提出了一种新的基于索引的方法,用于在关系数据库中实现类似于信息检索(IR)风格的中文关键词搜索,并应用排序策略。该方法通过使用元组词相关信息创建索引,并在排序策略中体现中文词汇的特性。对于中文关键词查询,索引可以快速匹配查询搜索词和索引中的元组词,并通过排序策略计算查询与元组之间的相似度,然后生成候选元组的标识符集合。接着,使用SQL选择语句检索查询的top-N结果,并根据相似度输出排序后的答案。实验结果表明,本方法效率高,效果良好。
关系数据库中的中文关键词搜索,研究论文,中文关键词搜索,索引,排序策略
关键词解释:
1. 关系数据库:一种基于关系模型的数据库系统,其中数据以表格形式存储,表格由行和列组成,行称为元组,列称为属性。关系数据库是计算机科学中的一个重要分支,广泛应用于各种应用中,用于存储、检索和管理数据。
2. 中文关键词搜索:在数据库中对中文关键词进行检索的过程,旨在从大量文本数据中找到包含这些关键词的元组。由于中文语言的特性,如词汇的连续性、语境依赖性,使得中文关键词搜索比英文更复杂,需要特别的处理方式。
3. 索引:一种提高数据检索效率的技术。在关系数据库中创建索引,可以加速对数据的搜索和访问速度。索引通常包含一个或多个列的值,以及指向包含这些值的记录的指针。
4. 排序策略:在搜索结果中对记录进行排序的规则。在中文关键词搜索中,排序策略用于确定相关性,以便将最相关的元组放在搜索结果的前面。这通常基于元组与查询之间的相似度计算。
论文方法描述:
本文提出的新方法是基于索引的,用于在关系数据库中执行中文关键词搜索,并提供了一种排序策略。它首先创建一个索引,该索引结合了元组词的相关信息。然后,它定义了一个基于中文词汇性质的排序策略。对于一个中文关键词查询,该方法会快速匹配查询搜索词与索引中的元组词,并使用排序策略计算查询与元组之间的相似度,生成候选元组的标识符集合。通过SQL选择语句检索查询的top-N结果,根据相似度输出排序后的答案。
研究背景:
这项研究受到了信息检索(IR)和Web搜索引擎上自由形式关键词搜索成功案例的启发。这类搜索引擎对用户是友好的,因为它不要求用户了解查询语言和底层数据结构。自从2002年以来,研究英文关键词搜索的工作已经得到了广泛的研究和探讨。与之相对,中文关键词搜索研究在关系数据库中实现自由形式的IR风格搜索则较少,因此本文的研究具有一定的创新性和应用前景。
总结:
本文提出的方法基于索引和排序策略,在关系数据库中实现了有效的中文关键词搜索。该方法不仅提高了搜索的效率,还能够通过排序策略提供更符合用户需求的搜索结果。研究结果表明,该方法能够有效地处理中文关键词搜索任务,对于信息检索和数据库领域具有重要的价值和意义。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。