logo

데이터확보

데이터과학에서 가장 어렵고 중요한 부분은 단언컨대 데이터를 확보하고 전처리하는 일이다. 안타깝게도 이 세상에 어떤 데이터가 있는지, 어떻게 구할 수 있는지 가르쳐주는 수업은 흔치 않다.

마크세부 분류
😀접근성 좋음
😡접근성 나쁨
🔰초심자 추천
👨‍🎓전문가 추천
👍강력히 추천
  • 👍을 남발하면 의미가 없으므로, 희소성이 유지되도록 10개 포스트 당 하나에만 부여한다.

마크만 봤을 땐 따봉👍만 따라가면 될 것 같지만 데이터의 세계라는 게 그렇게 호락호락하지가 않다. 당신이 하고싶은 일에 딱 맞는 데이터는 보통 세상에 존재하지 않고, 부족하면 부족한대로 아쉬움을 참고 쓸 수 밖에 없는 경우가 많다. 비슷한 데이터라도 대안은 많을수록 좋으며, 어떤 안 좋은 데이터라도 없는 것보단 낫다.

정형

  • 환경 빅데이터 플랫폼 : 환경 데이터 마켓을 제공한다. 마켓이라고 하나 무료 데이터도 많아서 사용하기 나름이다. (2021.08.02)
  • 기상자료개방포털 👨‍🎓🔰: 기상 데이터 및 재해에 관련된 데이터를 제공한다. (2021.08.03)
  • 👍 Our World in Data 😀🔰: 일반 사회와 관련된 다양한 분야에 대한 수백가지 종류의 연간 데이터를 국가별, 연도별로 아무런 대가 없이 제공한다. 특히 코로나에 관한 전세계 데이터와 통계를 제공한다. (2021.12.30)

시계열

한국지자체

  • D-데이터 허브 😀: 대구지역의 공공데이터를 제공한다. 4,000개 이상의 데이터셋과 13,000개 이상의 서비스를 제공하고 있다.(2021.06.08)
  • 창원시 빅데이터 포털: 창원지역의 12가지 카테고리, 172개 데이터셋과 빅데이터 스튜디오, 상권분석 등의 서비스를 제공한다. (2021.07.30)

비정형

  • AI Hub 👨‍🎓: AI 학습용 데이터를 제공한다. 음성/자연어, 비전, 헬스케어, 자율주행, 안전, 농축수산, 국토환경, 교육 등의 분야에서 이미지, 비디오, 텍스트, 오디오, 3D, 센서 데이터와 같이 다양한 포맷을 다룬다. (2021.07.14)
  • kaggle 😀🔰: 전 세계적으로 가장 유명한 오픈 데이터 허브로, 셀 수 없을만큼 다양한 데이터를 공개하고 작은 대회도 많이 열고 있다. (2021.07.15)
  • KDX 한국데이터거래소 😡👨‍🎓: 일반적인 데이터 허브와 달리 유료로 데이터를 판매하는 기업이다. 유료인만큼 한국 실정에 맞는 데이터의 양과 질로는 최고 수준이며, 무료 데이터도 적지않게 판매되고 있다. (2021.08.06)

네트워크

  • SEES:lab 👨‍🎓: 공항, 이메일 등 네트워크에 대한 데이터가 깔끔하게 정제되어 있다.(2021.12.31)
  • 스탠포드 네트워크 분석 프로젝트 👨‍🎓: 스탠포드 대학에서 유지보수하는 네트워크 분석/마이닝 라이브러리로, 거대 네트워크라고 할만한 네트워크 데이터를 제공하고 있다. (2022.01.04)
  • OpenFlights: 전세계의 공항과 항공망에 대한 데이터를 제공한다. 여러가지 전처리를 좀 거쳐야 하지만 의외로 이 정도 되는 네트워크 데이터가 흔치 않다. (2022.01.10)
  • 마크 뉴먼 네트워크 데이터 😡: 그 이름도 유명한 마크 뉴먼의 네트워크 데이터셋을 받아볼 수 있다. 논문으로 출판된 연구에 관련된 23종의 네트워크가 공개되어있다. (2022.01.10)
  • World Pop: 세계 항공망 네트워크, 국가 간 이민 통계, 도시화, 연령 및 성별 구조 등에 대한 데이터를 제공한다. (2022.01.04)

지리정보

  • ITS 국가교통정보센터 😀👨‍🎓: 국내의 교통소통, 공사사고, CCTV, 교통예측, 차량검지기, VMS, 교통안전도우미, 가변속도표지, 취약구간정보 및 전국표준노드링크를 제공한다. (2021.08.03)
  • 👍 GIS DEVELOPER 👨‍🎓: GIS 전문가이자 개발자인 김형준님이 운영하는 블로그다. 적어도 한국 데이터를 쓰는 프로젝트에선 이 분의 도움 없이는 아무 일도 못한다고 해도 과언이 아니다. (2023.01.10)

전체 포스트