줄리아에서 머신러닝 데이터 셋 사용하는 방법
설명
MLDatasets.jl
1 2 패키지로 아래와 같은 데이터 셋을 사용할 수 있다. 링크가 있는 데이터셋은 각 문서에서 사용법을 설명한다.
Vision
- CIFAR10
- CIFAR100
- EMNIST
- FashionMNIST
- MNIST
- Omniglot
- SVHN2
- convert2image
Mesh
- FAUST
Miscellaneous
- BostonHousing
- Iris
- Mutagenesis
- Titanic
Text
- PTBLM
- SMSSpamCollection
- UD_English
Graphs
- CiteSeer
- Cora
- Graph
- HeteroGraph
- KarateClub
- MovieLens
- OGBDataset
- OrganicMaterialsDB
- PolBlogs
- PubMed
- TUDataset
이 데이터를 원-핫 인코딩하거나, 학습시키는 방법은 다음을 참고하라.
예시
CIFAR10
julia> Train_X2, Train_Y2 = CIFAR10.traindata()
julia> size(Train_X2)
(32, 32, 3, 50000)
julia>typeof(Train_X2)
Base.ReinterpretArray{N0f8, 4, UInt8, Array{UInt8, 4}, false}
julia> size(Train_Y2)
(50000,)
julia>typeof(Train_Y2)
Vector{Int64} (alias for Array{Int64, 1})
julia> for i in 1:7
save("CIFAR10_$i.png", colorview(RGB, CIFAR10.convert2image(CIFAR10.traintensor(i))))
end
처음 7개 사진을 뽑아보면 다음과 같다.
환경
- OS: Windows11
- Version: Julia v1.8.2, MLDatasets v0.7.6