空格注释器问题/一致性

2022-07-18 Python问题得得之家

Spacy lemmatizer issue/consistency(空格注释器问题/一致性)

本文介绍了空格注释器问题/一致性的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我目前将Spacy用于NLP目的(主要是词例化和标记化)。使用的模型是en-core-web-sm(2.1.0)。

运行以下代码以从查询中检索单词"Cleaned"的列表

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(query)
list_words = []
for token in doc:
    if token.text != ' ':
        list_words.append(token.lemma_)

然而，在运行此代码时，我面临一个重大问题。例如，当查询是"茶叶加工"时。 List_Words中存储的结果可以是[‘正在处理’，‘茶’，‘叶’]或[‘正在处理’，‘茶’，‘叶’]。

似乎结果并不一致。我不能更改我的输入/查询(不可能为上下文添加另一个单词)，我真的需要每次都找到相同的结果。我认为可能是模型的加载问题。

为什么结果不同？我可以每次都以"相同"的方式加载模型吗？对于不明确的查询，我是否错过了某个参数才能获得相同的结果？

感谢您的帮助

推荐答案

Spacy团队对该问题进行了分析，并提出了解决方案。修复方法如下：https://github.com/explosion/spaCy/pull/3646

基本上，当应用词汇化规则时，使用集合来返回引理。因为集合没有顺序，所以返回的引理可能会在不同的python会话之间更改。

例如，在我的例子中，对于名词"叶子"，可能的词条是"叶子"和"叶子"。在没有排序的情况下，结果是随机的-它可以是"Leave"或"Leaf"。

这篇关于空格注释器问题/一致性的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除！

上一篇：如何获得连词在空格中的跨度？下一篇：空间相似函数

相关文档推荐

Leetcode 234：回文链接列表

Leetcode 234: Palindrome LinkedList(Leetcode 234：回文链接列表)

如何使用PANDAS.READ_EXCEL()直接从Dropbox的API读取Excel文件？

How do I read an Excel file directly from Dropbox#39;s API using pandas.read_excel()?(如何使用PANDAS.READ_EXCEL()直接从Dropbox的API读取Excel文件？)

子进程。打开尝试写入不存在的管道

subprocess.Popen tries to write to nonexistent pipe(子进程。打开尝试写入不存在的管道)

我想实现从Windows到Linux的POpen-code：

I want to realize Popen-code from Windows to Linux:(我想实现从Windows到Linux的POpen-code：)

实时读取子进程中的标准输出

Reading stdout from a subprocess in real time(实时读取子进程中的标准输出)

如何在Python中安全地调用随机文件上的类型？

How to call type safely on a random file in Python?(如何在Python中安全地调用随机文件上的类型？)

栏目导航

前端问题 php问题 Java问题 Python问题 C/C++问题 C#/.NET问题移动开发问题数据库问题

最新文章

热门文章

热门标签

html vue validate adobe dreamweaver hbuilder vscode aptana editor dedecms ckeditor 编辑器过滤规则织梦图片本地化模板缩略图图集图片删除 ajax 瀑布流无限下拉 cms 判断 sql 清除 tag 文档数 angularjs2 按钮切换效果 vue3 thinkphp yii2 css 项目列表 li go Beego Buffalo Echo Gin Iris Revel 百度云虚拟主机 pbootcms 伪静态框架排序数据库对象字段 sql语句 php 字符串分割 D3.js bootstrap 函数 svg selectAll 织梦cms 关键词解析采集长度限制日期正则表达式