ad

《大数据时代信息资源检索与分析》_让你更懂数据_1.4.3 信息检索技术

admin 90 2023-10-23

【摘要】 本书摘自《大数据时代信息资源检索与分析》一书中第1章,第4节,由康桂英、明道福和吴晓兵编著。

1.4.3 信息检索技术

2. 位置逻辑算符

位置逻辑算符是一种比较多个单元词之间位置逻辑的检索方法,即用位置逻辑算符来规 定算符两边的词出现在文献中的位置,位置逻辑算符在检索西文全文数据库时用得比较多。 常用的位置逻辑算符主要有 W、nW、N、nN、F、S 等。

(1)W 算符:要求检索词必须按指定顺序紧密相连,词序不可变,两个词之间允许有 一个空格、标点、连字符外,不得插入其他词和字母, W 算符在检索式中的表达形式为 “(W)" 或者简略形式"()"。例如,检索式为 “communication(W)satellite”时,系统只 检索含有“communication satellite”词组的记录。

《大数据时代信息资源检索与分析》_让你更懂数据_1.4.3 信息检索技术

(2)nW 算符:"nW” 的含义为 “nWords", 表示连接的两个词之间最多可以插入n 个 (插入词的数量要小于等于 n) 实词或系统禁用词,两个检索词的词序不得颠倒。例如, “laster(1W)print" 可检索出包含“laser printer""laser color printer”和 "laser and print- er” 的记录。

(3)N 算符: “N”的含义为"Near", 要求被连接的检索词必须紧密相连,词与词之间 除允许有空格、标点和字符外,不得夹单词或字母,词序不限,可以颠倒。

(4)nN 算符: “nN” 的含义为 “nNear”, 表示连接的两个词之间最多可以插入 n 个(插入词的数量要小于等于n) 实词或系统禁用词,两个检索词的词序可颠倒,词序 不限。

(5)F 算符: “F" 的含义为“field”。这个算符表示其两侧的检索词必须在同一字段 (例如同在题目字段或文摘字段)中出现,词序不限,中间可以插任意检索词项。

(6)S 算符: “S”的含义为“Sub-field”或 者 "Sentence", 表示位于此算符两侧的检 索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此 信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中, 不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,"high(W) strength(S)steel" 表示只要在同一句子中检索出含有“high strength”和 “steel”形式的均 为命中记录。

3.截词算符

截词,是指检索者将检索词在其认为合适的地方截断;截词检索,就是用截断的词的一 个局部进行的检索,并认为凡是满足这个词局部中的所有字符的文献都是命中的文献。截词 检索是利用计算机固有的指定位对比判断功能,使不完整的词能够与标引词进行比较、匹配 的一种检索,主要用于西文数据库中词干相同的派生词的检索,可以提高查全率。常用的截 词符号有“?”“*”或“$”等。

(1)有限截词符:有限截词符主要用于词的单复数、动词的词尾变化等,将截词符放 在检索词的词干或词尾可能变化的位置上。在单词中截取有限个字母,单个字母的截词符用 "??" (两个半角问号之间加一个空格),两个字母的截词用"??",三个字母的截词用 "???",但最多不超过四个字母的截词。

(2)无限截词符:无限截词符为"?",利用它可以查找与词干相同的所有词,表示该 词尾允许变化的字符数不受任何限制。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《VMware vSphere 云平台运维与管理》_向云端进发_任务2.9 分离虚拟机数据流量与 ESXi 的管理流量
下一篇:《互联网的云管理思维》_揭开新管理的面纱_1.1. 第一章 走进云管理
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×