电子发烧友
732次浏览
文本挖掘之概率主题模型综述
2021-06-24 14:16
电网企业拥有大量蕴含着重要可靠性信息的设备缺陷文本,依靠人工进行挖掘不仅效率低而且准确性因人而异。以变压器缺陷文本为研究对象,通过分析文本的特点,建立了基于语义框架的电
2018-01-12 13:55
的分析工具,完全本地化部署, 不上传用户数据,安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和 网络搜索的技术,提供客户端工具、云服务以及二次开发接口,包含了大数据背 景下有关语义分析的各个环节
2019-11-07 16:43
针对中国传统的手游产业发展存在主题识别不精准,缺乏利用数据挖掘和可视化分析方法等问题,文中提出了一种基于文本挖掘和决策树( Desision tree)分析的中国手游产业发展研究方法,从多方面分析了
2021-06-17 16:16
web 挖掘是处理Internet 环境下数据挖掘的一个重要方向,本文在比较研究传统web挖掘方法的基础上提出了一种基于危险理论的web 挖掘新方法,该方法具有很强的自
2009-08-22 10:51
自然语言处理(NLP)关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一,它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似,它关注的是识别文本数据中有趣并且重要
2018-04-10 14:58
。1. 问题描述 现在有一个中文文本数据集,这个数据集已经对其中的文本做了分类,如下:其中每个文件夹中含有个数不等的文件,比如环境有200个,艺术有248个;同时,每个文件的内容基本上就是一些
2018-10-18 11:22
首先,让我们来看看去掉这些虚词之后的全局高频字有哪些,笔者这里展示的是TOP148。“人”字排行第一,这体现了《说文解字》里所讲的“人,天地之性最贵者也”,说明唐诗很好的秉承了“以人为本”的中华文化。而后续的“山”、“风”、“月”、“日”、“天”、“云”、“春”等都是在写景的诗句里经常出现的意象。
2019-03-11 16:53
。1、问题描述现在有一个中文文本数据集,这个数据集已经对其中的文本做了分类,如下:其中每个文件夹中含有个数不等的文件,比如环境有200个,艺术有248个;同时,每个文件的内容基本上就是一些新闻报道
2018-11-12 11:06
。1、问题描述现在有一个中文文本数据集,这个数据集已经对其中的文本做了分类,如下:其中每个文件夹中含有个数不等的文件,比如环境有200个,艺术有248个;同时,每个文件的内容基本上就是一些新闻报道或者
2018-11-12 11:09