logo

줄리아에서 머신러닝 데이터 셋 사용하는 방법 📂머신러닝

줄리아에서 머신러닝 데이터 셋 사용하는 방법

설명

MLDatasets.jl1 2 패키지로 아래와 같은 데이터 셋을 사용할 수 있다. 링크가 있는 데이터셋은 각 문서에서 사용법을 설명한다.

Vision

  • CIFAR10
  • CIFAR100
  • EMNIST
  • FashionMNIST
  • MNIST
  • Omniglot
  • SVHN2
  • convert2image

Mesh

  • FAUST

Miscellaneous

  • BostonHousing
  • Iris
  • Mutagenesis
  • Titanic

Text

  • PTBLM
  • SMSSpamCollection
  • UD_English

Graphs

  • CiteSeer
  • Cora
  • Graph
  • HeteroGraph
  • KarateClub
  • MovieLens
  • OGBDataset
  • OrganicMaterialsDB
  • PolBlogs
  • PubMed
  • Reddit
  • TUDataset

이 데이터를 원-핫 인코딩하거나, 학습시키는 방법은 다음을 참고하라.

예시

CIFAR10

julia> Train_X2, Train_Y2 = CIFAR10.traindata()

julia> size(Train_X2)
(32, 32, 3, 50000)

julia>typeof(Train_X2)
Base.ReinterpretArray{N0f8, 4, UInt8, Array{UInt8, 4}, false}

julia> size(Train_Y2)
(50000,)

julia>typeof(Train_Y2)
Vector{Int64} (alias for Array{Int64, 1})

julia> for i in 1:7
        save("CIFAR10_$i.png", colorview(RGB, CIFAR10.convert2image(CIFAR10.traintensor(i))))
        end

처음 7개 사진을 뽑아보면 다음과 같다.

환경

  • OS: Windows11
  • Version: Julia v1.8.2, MLDatasets v0.7.6