文本挖掘:基于R语言的整洁工具

文本挖掘:基于R语言的整洁工具

查阅电子书
手机扫码
  • 微信扫一扫

    关注微信公众号

因版权原因待上架

编辑推荐

本书介绍了如何使用tidytext包以及其他基于R语言的tidy工具来进行文本挖掘。

内容简介

当前很多数据都是非结构化的大规模文本,这给分析和可视化带来了挑战。本书使用实用的tidytext软件包来介绍文本挖掘技术,该包是由Julia Silge和David Robinson共同开发的R软件包(类似于ggplot2和dplyr软件包),开发时采用了整洁原则。本书将会介绍如何利用tidytext以及其他整洁工具使文本分析变得更容易、更有效。

本书展示如何将文本转换为数据框,然后提取和可视化文本的特征;并介绍如何将自然语言处理(NLP)融入有效的工作流程中;实用的代码示例和数据分析将帮助你了解文学作品、新闻和社交媒体中的有用信息。

章节目录

版权信息

O’Reilly Media,Inc.介绍

译者序

前言

第1章 整洁文本格式

比较整洁文本结构与其他数据结构

unnest_tokens函数

整理Jane Austen的作品

gutenbergr包

词频

总结

第2章 基于整洁数据的情感分析

情感数据集

内连接的情感分析

比较三个情感词典

最常见的正面单词和负面单词

Wordclouds模块

除单词外的其他文本单元

总结

第3章 分析词和文件频率:tf-idf

Jane Austen小说中的词项频率

Zipf定律

bind_tf_idf函数

物理学语料库

总结

第4章 词之间的关系:n-gram及相关性

n-gram词条化

用widyr包对单词对计数并计算相关性

总结

第5章 非整洁格式转换

使文档–词项矩阵整洁

将整洁文本数据转换为矩阵

总结

第6章 主题建模

LDA

示例:博大的图书馆馆藏

LDA方法的替代实现

总结

第7章 案例研究:Twitter归档文件比较

单词使用情况的比较

单词使用情况的变化

收藏和转发

总结

第8章 案例研究:NASA元数据挖掘

NASA如何组织数据

共现单词与相关单词

计算描述字段的tf-idf

总结

第9章 案例研究:分析Usenet文本

预处理

新闻组中的单词

情感分析

总结

参考文献

作者简介

封面简介

文本挖掘:基于R语言的整洁工具是2018年由机械工业出版社华章分社出版,作者[美]茱莉亚·斯拉格。

得书感谢您对《文本挖掘:基于R语言的整洁工具》关注和支持,如本书内容有不良信息或侵权等情形的,请联系本网站。

购买这本书

你可能喜欢
基于MATLAB的实用数值计算(修订本) 电子书
本书分两部分,第一部分紧扣数值计算介绍了MATLAB语言的基础知识:数值矩阵及其运算,字符串和符号矩阵,基本绘图和编程方法。第二部分介绍数值计算的基本内容:计算误差,代数方程及方程组的数值求解,插值法和数据拟合,数值积分和常微分方程初值问题数值解等。书中配有大量例题和适量的练习题,书末附有MATLAB-7的内容列表、习题参考答案及本书中使用的指令索引等。与传统数值计算教材不同,本书把MATLAB语
儿童数学能力的培养:基于实证研究的观点 电子书
本书内容主要包括六个方面。首先是数学能力的内涵,回答儿童数学能力的培养主要是培养什么能力;其二,阅读和数学能力的关系,基于实证研究说明阅读对数学能力的重要性以及如何开展数学绘本的阅读;其三,空间能力和数学能力的关系,基于实证研究说明空间能力对数学能力的重要性以及如果提高儿童的空间能力;其四,手指加工和数学能力的关系,基于实证研究说明手指感知能力对数学能力的重要性以及如何提升手指感知能力;其五,数学
基于差分进化的优化方法及应用 电子书
内容分为差分进化算法(以下简称算法)的设计及应用。本书从差分进化算法基本原理、单目标差分进化算法、面向约束优化的差分进化算法、面向多目标差分进化算法、面向离散问题的差分进化算法等五个方面进行了介绍。对提出的10个算法进行了详细介绍和讨论,并给给出了实验(仿真)结果。
基于生物力学的纠正性训练 电子书
本书系统阐述了人体不同部位的功能解剖学知识。