機械学習でよく使用されるデータセット
コンピュータービジョン
MNIST
機械学習を学ぶときに最初に出会うデータセットだ。[エムニスト]と読み、$28\times 28$サイズの手書き数字画像データである。学習データ60,000枚、テストデータ10,000枚が含まれている[^1]。
CIFAR-10, CIFAR-100
CIFAR-10は[サイファーテン]と読み、10種類のカテゴリに関する$32\times 32$サイズのカラーイメージ60,000枚を含んでいるデータセットだ。トレーニングイメージ50,000枚とテストイメージ10,000で構成されている。
CIFAR-100はCIFAR-10と同じく$32\times 32$サイズのカラーイメージ60,000枚を含むデータセットだが、カテゴリが100あるという違いがある。各分類につき600枚が含まれており、500枚がトレーニングデータ、100枚がテストデータだ。
ImageNet
20,000以上のカテゴリごとに200枚ずつの画像を含むデータセットだ。便宜上、1,000のカテゴリと120万枚の画像を含むトレーニングデータがある。
SVHN(ストリートビューハウスナンバー)
GoogleがGoogleマップのストリートビュー機能を作るときに収集した実際の家の番号プレートの写真をまとめたデータセットである。$32\times 32$サイズのカラーイメージで構成されている。
分類、クラスタリング
Irisデータセット
植物学者エドガー・アンダーソンと統計学者ロナルド・フィッシャーによって作られたアイリスirisの観察記録に関するデータセットだ。統計、機械学習の入門例として広く使われている。