`
yuanlanjun
  • 浏览: 1185749 次
文章分类
社区版块
存档分类
最新评论

科普-文本挖掘(文本分类)流程

 
阅读更多

一个典型的文本分类的数据挖掘流程如下图,这张图初看有点乱,我这里解释一下,红色的部分是训练时候调用的模块,绿色是测试时候调用的模块,而蓝色的部分是训练的时候生成的中间文件,它们联系着训练、测试两个部分。从左到右看是算法运行的流程,首先用户给出原始的用于训练的中文文本,然后进行分词等操作。经过了生成矩阵这个步骤,文本就转化成了数学语言了,之后的算法都是运行在这个数学语言之上,之后的算法就不再关心输入的数据是否是文档了,换句话来说,生成矩阵这个模块相当于是一道门,门内是纯数学表示的算法,门外是原始的文本语料。

分享到:
评论

相关推荐

    LDA数学八卦 Rickjin

    在 Machine Learning 中,LDA 是两个常用模型的简称: ...预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生的《概率论与数理统计》这本书。

    the language machine

    数据挖掘与文本分析,类似于英文杂志的阅读科普材料,针对UK的语言机器发展史

    LDA:潜在狄利克雷分配

    主要讲述了主题模型在文本挖掘中的建模应用,原理叙述较少。这篇文章的附录对LDA的推导很不错,比上篇更加易懂MCMC讲的比较好这篇还有就是复旦教授吴立德的,也是非常不错,吴老师一步一步在黑板上板书推导。

    大数据的应用与挑战.doc

    2.3.2 进行大数据的分类、存储、挖掘及决策支持,维持单位和部门日常的管理,抽调竞争优 势和促进可持续发展。 2.3.3 利用大数据分析与挖掘,发现隐藏的威胁,促进信息安全部门找到应对新的安全威胁的 方法。 2.3.4...

    大数据专题.pptx

    微博留言产生数据,视频产生数据,手机通话产生数据,商品标签产生数据,快递包裹、物品流通产生数据,移动终端和互联网的普及更是加快产生数据。 越来越多配备了连续测量、报告运行情况的传感器的设备的出现。几年...

    7张图总结:SQL 数据分析常用语句.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    9种最常用数据分析方法.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    3.Yarn基础篇.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    数据治理全景图谱.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    AIGC专栏(一)AIGC概述_watermark.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    2.HDFS 调优篇.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    128道Python面试题.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    聊聊Hbase存储优化那些事(下).pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    4.Yarn资源调度器.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    7.ZooKeeper 最全面试总结.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    数据仓库 vs 数据集市 vs 数据湖 vs 数据中台.pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    聊聊Hbase存储优化那些事(上).pdf

    复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 ...

    大数据对传统金融的影响.doc

    对数据 的记录和处理古已有之,以数据为参考做出科学决策也一直是商家和各类机构追求的目 标,只不过在模拟时代,这项工作费时费力,再加上数据有限以及技术方面的不成熟, 准确性和科学性都难以把握,也因此出现...

    大数据说明文阅读答案.docx

    因为互联网、手机、无线传感器的普及,实时监测、远程协作、SOHO工作、数据管理已成为平常之事,信息像水电一样通过网络供应汩汩传输,计算机上有形数据转化为无形的财富,深入并造福于现实生活。 这标志着云计算与...

Global site tag (gtag.js) - Google Analytics