MNIST手写数字识别数据集
手写数字识别练手的好材料,非mnist.pkl.gz莫属。数据是压缩过的 pickle 格式,加载的时候用到 gzip
和 pickle
,解开后就是熟悉的训练集、测试集,一共 70,000 张 28x28 的灰度图,都是手写数字,0 到 9 都有,分得也挺均匀的。
搞CNN(卷积神经网络)的小伙伴基本都绕不开这个数据集。它小巧、干净、格式也友好,适合用来快速跑通模型,验证结构设计。比如用 Keras 写个 Sequential
模型,加两层卷积、一层池化,再来几层全连接,几行代码就能搞定。
图像数据嘛,预还是少不了的。常见操作像归一化、中心化,用 ImageDataGenerator
做增强也挺方便。训练完了可以直接在测试集跑个准确率,甚至还能画个混淆矩阵看看效果。
如果你刚开始接触 深度学习 或想熟练掌握 CNN 的套路,mnist.pkl.gz
是个不错的起点。加载简单,文档资料又多,踩坑的机会不大,适合练手也适合教学。
相关资料我也帮你整理了一些,想深挖的话可以看看:
- CNN 神经网络手写识别
- 卷积神经网络实现 mnist 手写识别
- BP 神经网络 mnist 手写数字识别 Python 实现
- Java 实现 BP 神经网络 MNIST 手写数字识别
- TensorFlow 实例 MNIST 手写数字进阶算法卷积神经网络 CNN
如果你用的是 Python,记得 gzip.open()
配合 pickle.load()
来读文件,读完之后就是三个部分:(train_set, valid_set, test_set)
。不熟的话可以先试着打印下数据结构看看。
下载地址
用户评论