機械学習でよく使用されるデータセット 📂機械学習

機械学習でよく使用されるデータセット

コンピュータービジョン

機械学習を学ぶときに最初に出会うデータセットだ。[エムニスト]と読み、$28\times 28$サイズの手書き数字画像データである。学習データ60,000枚、テストデータ10,000枚が含まれている[^1]。

CIFAR-10は[サイファーテン]と読み、10種類のカテゴリに関する$32\times 32$サイズのカラーイメージ60,000枚を含んでいるデータセットだ。トレーニングイメージ50,000枚とテストイメージ10,000で構成されている。

Screenshot2020-09-28at14.55.24.png

CIFAR-100はCIFAR-10と同じく$32\times 32$サイズのカラーイメージ60,000枚を含むデータセットだが、カテゴリが100あるという違いがある。各分類につき600枚が含まれており、500枚がトレーニングデータ、100枚がテストデータだ。

Screenshot2020-09-28at15.02.19.png

20,000以上のカテゴリごとに200枚ずつの画像を含むデータセットだ。便宜上、1,000のカテゴリと120万枚の画像を含むトレーニングデータがある。

Screenshot2020-09-28at15.04.23.png

GoogleがGoogleマップのストリートビュー機能を作るときに収集した実際の家の番号プレートの写真をまとめたデータセットである。$32\times 32$サイズのカラーイメージで構成されている。

Screenshot2020-09-28at15.16.33.png

植物学者エドガー・アンダーソンと統計学者ロナルド・フィッシャーによって作られたアイリス^irisの観察記録に関するデータセットだ。統計、機械学習の入門例として広く使われている。