logo

머신러닝에서 많이 쓰이는 데이터 셋 📂머신러닝

머신러닝에서 많이 쓰이는 데이터 셋

컴퓨터 비전

MNIST

머신 러닝을 공부할 때 가장 먼저 접할 데이터 셋이다. [엠니스트]라고 읽으며 $28\times 28$ 크기의 손글씨 사진 데이터이다. 학습 데이터 60,000개, 테스트 데이터 10,000개가 포함되어 있다[^1]

MnistExamples.png

CIFAR-10, CIFAR-100

CIFAR-10은 [싸이파-텐]이라고 읽으며, 10가지 카테고리 대한 $32\times 32$ 크기의 컬러 이미지 60,000장을 포함하는 데이터 셋이다. 트레이닝 이미지 50,000개와 테스트 이미지 10,000로 구성되어 있다.

Screenshot2020-09-28at14.55.24.png

CIFAR-100는 CIFAR-10과 같이 $32\times 32$ 크기의 컬러 이미지 60,000장을 포함하는 데이터 셋이지만 카테고리가 100개라는 차이점이 있다. 각 분류당 600장씩 포함되어있고 500장은 트레이닝 데이터, 100장은 테스트 데이터이다.

Screenshot2020-09-28at15.02.19.png

ImageNet

20,000개 이상의 카테고리마다 200장씩의 이미지를 포함하는 데이터 셋이다. 쓰기 쉽도록 1,000개의 카테고리와 120만개의 이미지가 포함된 트레이닝 데이터가 있다.

Screenshot2020-09-28at15.04.23.png

SVHN(The Street View House Number)

구글이 구글 지도에서 거리뷰 기능을 만들 때 수집한 실제 집들의 번호판 사진들을 모아놓은 데이터 셋이다. $32\times 32$ 크기의 컬러 이미지로 구성되어 있다.

Screenshot2020-09-28at15.16.33.png

분류, 클러스터링

Iris 데이터 셋

식물학자 에드가 앤더슨과 통계학자 로널드 피셔에 의해 만들어진 붓꽃iris의 관찰 기록에 관한 데이터 셋을 말한다. 통계, 머신러닝 입문 예제로 많이 사용되는 데이터 셋이다.

iris.png