具有空格的自定义实体标尺未返回匹配项

Custom entity ruler with SpaCy did not return a match(具有空格的自定义实体标尺未返回匹配项)
本文介绍了具有空格的自定义实体标尺未返回匹配项的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

此link显示如何创建自定义实体标尺。

我基本上复制并修改了另一个自定义实体标尺的代码,并使用它在doc中查找匹配项,如下所示:

nlp = spacy.load('en_core_web_lg')
ruler = EntityRuler(nlp)

grades = ["Level 1", "Level 2", "Level 3", "Level 4"]
for item in grades:
    ruler.add_patterns([{"label": "LEVEL", "pattern": item}])

nlp.add_pipe(ruler)

doc = nlp('Level 2 employee first 12 months 1032.70')

with doc.retokenize() as retokenizer:
    for ent in doc.ents:
        retokenizer.merge(doc[ent.start:ent.end])

matcher = Matcher(nlp.vocab)
pattern =[{'ENT_TYPE': {'REGEX': 'LEVEL'}}, {'ORTH': 'employee'}]
matcher.add('PAY_LEVEL', None, pattern)
matches = matcher(doc)

for match_id, start, end in matches:
    span = doc[start:end]
    print(span)

但是,当我运行代码(在Jupyter笔记本中)时,什么也没有返回。

您能告诉我:

  1. 如果代码未返回任何内容,是否意味着没有找到匹配项?

  2. 为什么我的代码找不到匹配项,尽管它与原始的几乎相同(除了添加到标尺上的图案)?我做错了什么?

谢谢。

推荐答案

问题是英文模型中提供的NER组件与您的实体标尺组件之间的交互。NER组件发现2是一个数字(CARDINAL),并且存在实体不允许重叠的限制,因此EntityRuler组件找不到任何匹配项。

您可以在NER组件之前添加EntityRuler:

nlp.add_pipe(ruler, before='ner')

或告诉EntityRuler允许覆盖现有实体:

ruler = EntityRuler(nlp, overwrite_ents=True)

这篇关于具有空格的自定义实体标尺未返回匹配项的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

Leetcode 234: Palindrome LinkedList(Leetcode 234:回文链接列表)
How do I read an Excel file directly from Dropbox#39;s API using pandas.read_excel()?(如何使用PANDAS.READ_EXCEL()直接从Dropbox的API读取Excel文件?)
subprocess.Popen tries to write to nonexistent pipe(子进程。打开尝试写入不存在的管道)
I want to realize Popen-code from Windows to Linux:(我想实现从Windows到Linux的POpen-code:)
Reading stdout from a subprocess in real time(实时读取子进程中的标准输出)
How to call type safely on a random file in Python?(如何在Python中安全地调用随机文件上的类型?)