머신러닝에서 많이 쓰이는 데이터 셋
컴퓨터 비전
MNIST
머신 러닝을 공부할 때 가장 먼저 접할 데이터 셋이다. [엠니스트]라고 읽으며 $28\times 28$ 크기의 손글씨 사진 데이터이다. 학습 데이터 60,000개, 테스트 데이터 10,000개가 포함되어 있다[^1]
CIFAR-10, CIFAR-100
CIFAR-10은 [싸이파-텐]이라고 읽으며, 10가지 카테고리 대한 $32\times 32$ 크기의 컬러 이미지 60,000장을 포함하는 데이터 셋이다. 트레이닝 이미지 50,000개와 테스트 이미지 10,000로 구성되어 있다.
CIFAR-100는 CIFAR-10과 같이 $32\times 32$ 크기의 컬러 이미지 60,000장을 포함하는 데이터 셋이지만 카테고리가 100개라는 차이점이 있다. 각 분류당 600장씩 포함되어있고 500장은 트레이닝 데이터, 100장은 테스트 데이터이다.
ImageNet
20,000개 이상의 카테고리마다 200장씩의 이미지를 포함하는 데이터 셋이다. 쓰기 쉽도록 1,000개의 카테고리와 120만개의 이미지가 포함된 트레이닝 데이터가 있다.
SVHN(The Street View House Number)
구글이 구글 지도에서 거리뷰 기능을 만들 때 수집한 실제 집들의 번호판 사진들을 모아놓은 데이터 셋이다. $32\times 32$ 크기의 컬러 이미지로 구성되어 있다.
분류, 클러스터링
Iris 데이터 셋
식물학자 에드가 앤더슨과 통계학자 로널드 피셔에 의해 만들어진 붓꽃iris의 관찰 기록에 관한 데이터 셋을 말한다. 통계, 머신러닝 입문 예제로 많이 사용되는 데이터 셋이다.