菜鸟学NLP(四)

数据集

IMDB

IMDB是电影评论的二分类问题,就是NLP中常说的情感分析.
IMDB数据集包含来自互联网的50000条严重两极分化的评论,该数据被分为用于训练的25000条评论和用于测试的25000条评论,训练集和测试集都包含50%的正面评价和50%的负面评价(正负样例很均衡啊!)。该数据集已经经过预处理:评论(单词序列)已经被转换为整数序列,其中每个整数代表字典中的某个单词(已经转换为数字了)。

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

评估标准

以前写的葫芦娃的葫芦书刷题(一),最近笔试太多,用以前的充个数.

-------------本文结束感谢您的阅读-------------