词性标注旨在基于词语的定义和上下文意义,为给定文本中的每个单词(如名词、动词、形容词和其他单词) 分配词性。当前有许多包含 POS 标记器的工具,包括 NLTK,spaCy,TextBlob
2019-01-28 09:26
所谓词云图,又称文字云,是通过对一个或多个关键词进行重复的、字体大小颜色不一的、不规则的排列,使其看上去类似于某种形状的图片,是对文本中出现频率较高的“关键词”予以视觉化的展现。 词云图能
2022-10-18 09:49
同义词用于提高搜索质量并扩大匹配范围。 例如,搜索oil的用户可能希望找到包含原油或石油的文档,尽管这三个词完全不同。
2023-11-29 10:26
下面这部分代码参考老曹的,希望对你有所帮助。 老曹说:什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词
2018-09-14 14:55
带有这样的偏见的词嵌入模型,会给下游的NLP应用带来严重问题。例如,基于词嵌入技术的简历自动筛选系统或工作自动推荐系统,会歧视某种性别的候选人(候选人的姓名反映了性别)。除了造成这种明显的歧视现象,有偏见的嵌入还可能暗中影响我们日常使用的NLP应用。
2018-09-23 09:25
在ANSI标准中,定义了“三字母词”,或者成为“三联符序列”,英文为"trigraph sequences"。目的主要是为了在一些特定的字符集中,比如一些七位代码集中,解决一些特定字符的输入问题。
2022-03-15 09:27
这种做法其实和词嵌入一脉相承。词嵌入同样面临计算所有上下文(softmax)过于复杂的问题。因此,word2vec、skip-gram等词嵌入技术使用了层次softmax(使用二叉树结构保存所有
2018-11-12 09:38
本章第一节就介绍基于关键词生成一段文本的一些处理技术。其主要是应用关键词提取、同义词识别等技术来实现的。下面就对实现过程进行说明和介绍。
2017-12-26 18:12
我们先把一个词语定义成一个稠密向量,通过调整一个单词及其上下文单词的向量,使得根据两个向量可以推测两个词语的相似度;或通过一个词可以预测词语的上下文;或根据上下文可以预测这个词。这种手法也是递归的。
2019-04-10 17:16
汽车高性能计算(HPC)的一大优势是能够将各种功能整合到单个ECU上,并利用其产生的协同效应,同时仍能保证各功能的独立性。一种显而易见的解决方案是利用企业和云计算中已成熟的一组特性,即所称的“容器”。为实现最大回报,最重要的是遵守在所有重大实现项目中广泛落实的开放容器计划(OCI)行业标准。对许多应用程序而言,最常用的实现方案之一是以Linux为基础的。
2023-05-24 09:37