데이터확보
데이터과학에서 가장 어렵고 중요한 부분은 단언컨대 데이터를 확보하고 전처리하는 일이다. 안타깝게도 이 세상에 어떤 데이터가 있는지, 어떻게 구할 수 있는지 가르쳐주는 수업은 흔치 않다.
마크 | 세부 분류 |
---|---|
😀 | 접근성 좋음 |
😡 | 접근성 나쁨 |
🔰 | 초심자 추천 |
👨🎓 | 전문가 추천 |
👍 | 강력히 추천 |
- 👍을 남발하면 의미가 없으므로, 희소성이 유지되도록 10개 포스트 당 하나에만 부여한다.
마크만 봤을 땐 따봉👍만 따라가면 될 것 같지만 데이터의 세계라는 게 그렇게 호락호락하지가 않다. 당신이 하고싶은 일에 딱 맞는 데이터는 보통 세상에 존재하지 않고, 부족하면 부족한대로 아쉬움을 참고 쓸 수 밖에 없는 경우가 많다. 비슷한 데이터라도 대안은 많을수록 좋으며, 어떤 안 좋은 데이터라도 없는 것보단 낫다.
정형
- 환경 빅데이터 플랫폼 : 환경 데이터 마켓을 제공한다. 마켓이라고 하나 무료 데이터도 많아서 사용하기 나름이다. (2021.08.02)
- 기상자료개방포털 👨🎓🔰: 기상 데이터 및 재해에 관련된 데이터를 제공한다. (2021.08.03)
- 👍 Our World in Data 😀🔰: 일반 사회와 관련된 다양한 분야에 대한 수백가지 종류의 연간 데이터를 국가별, 연도별로 아무런 대가 없이 제공한다. 특히 코로나에 관한 전세계 데이터와 통계를 제공한다. (2021.12.30)
- 🔒(24/12/18) Baseball Savant: 미국의 야구 리그인 MLB에 관련된 데이터를 제공한다. (2024.07.30)
- 🔒(24/12/30) KOSIS 국가데이터포털: 통계청에서 제공하는 통계 서비스로, 국내에서 공식적으로 있을 것 같은 데이터는 대부분 KOSIS에서 찾을 수 있다. 국내 데이터를 사용한다면 반드시 알아야 하는 사이트다. (2024.08.23)
시계열
- investing.com 😀🔰: 인베스팅닷컴은 세계적인 금융정보 사이트로써 코스피, 코스닥 등 종목의 차트 정보를 무료로 간편하게 제공한다. (2021.07.30)
- CYBOS Plus 😡👨🎓: 대우증권의 Open API로 특정 종목의 코드나 종가, 시가총액, 기관순매수 등의 일간 혹은 실시간 시계열 데이터를 포함해 트레이딩 시스템에서 필요할 법한 거의 모든 정보와 기능을 제공한다. (2021.07.15)
한국지자체
- D-데이터 허브 😀: 대구지역의 공공데이터를 제공한다. 4,000개 이상의 데이터셋과 13,000개 이상의 서비스를 제공하고 있다.(2021.06.08)
- 창원시 빅데이터 포털: 창원지역의 12가지 카테고리, 172개 데이터셋과 빅데이터 스튜디오, 상권분석 등의 서비스를 제공한다. (2021.07.30)
비정형
- AI Hub 👨🎓: AI 학습용 데이터를 제공한다. 음성/자연어, 비전, 헬스케어, 자율주행, 안전, 농축수산, 국토환경, 교육 등의 분야에서 이미지, 비디오, 텍스트, 오디오, 3D, 센서 데이터와 같이 다양한 포맷을 다룬다. (2021.07.14)
- kaggle 😀🔰: 전 세계적으로 가장 유명한 오픈 데이터 허브로, 셀 수 없을만큼 다양한 데이터를 공개하고 작은 대회도 많이 열고 있다. (2021.07.15)
- KDX 한국데이터거래소 😡👨🎓: 일반적인 데이터 허브와 달리 유료로 데이터를 판매하는 기업이다. 유료인만큼 한국 실정에 맞는 데이터의 양과 질로는 최고 수준이며, 무료 데이터도 적지않게 판매되고 있다. (2021.08.06)
네트워크
- SEES:lab 👨🎓: 공항, 이메일 등 네트워크에 대한 데이터가 깔끔하게 정제되어 있다.(2021.12.31)
- 스탠포드 네트워크 분석 프로젝트 👨🎓: 스탠포드 대학에서 유지보수하는 네트워크 분석/마이닝 라이브러리로, 거대 네트워크라고 할만한 네트워크 데이터를 제공하고 있다. (2022.01.04)
- OpenFlights: 전세계의 공항과 항공망에 대한 데이터를 제공한다. 여러가지 전처리를 좀 거쳐야 하지만 의외로 이 정도 되는 네트워크 데이터가 흔치 않다. (2022.01.10)
- 마크 뉴먼 네트워크 데이터 😡: 그 이름도 유명한 마크 뉴먼의 네트워크 데이터셋을 받아볼 수 있다. 논문으로 출판된 연구에 관련된 23종의 네트워크가 공개되어있다. (2022.01.10)
- World Pop: 세계 항공망 네트워크, 국가 간 이민 통계, 도시화, 연령 및 성별 구조 등에 대한 데이터를 제공한다. (2022.01.04)
- 🔒(24/12/14) Web of Life: 기생, 공생, 포식 관계 등의 생태계 네트워크 데이터를 제공한다. (2024.07.30)
- 🔒(24/12/22) Network Data Repository: 30가지 이상의 주제에 대해 수천가지의 다양한 네트워크를 제공한다. (2024.08.01)
지리정보
- ITS 국가교통정보센터 😀👨🎓: 국내의 교통소통, 공사사고, CCTV, 교통예측, 차량검지기, VMS, 교통안전도우미, 가변속도표지, 취약구간정보 및 전국표준노드링크를 제공한다. (2021.08.03)
- 👍 GIS DEVELOPER 👨🎓: GIS 전문가이자 개발자인 김형준님이 운영하는 블로그다. 적어도 한국 데이터를 쓰는 프로젝트에선 이 분의 도움 없이는 아무 일도 못한다고 해도 과언이 아니다. (2023.01.10)
- 🔒(24/12/26) 행정표준코드관리시스템: 구체적인 지리정보는 아니지만 지리정보에 대응되는 데이터로써 가장 중요한 ‘법정동코드’의 목록을 얻을 수 있다. (2024.08.23)
전체 포스트
- D-데이터 허브 소개
- AI Hub 소개
- kaggle API로 데이터 받는 법, OSError: Could not find kaggle.json. 해결
- Kaggle 소개
- 투자 정보 Open API CYBOS Plus 소개
- CYBOS Plus 설치 튜토리얼
- CYBOS Plus로 종목 코드 불러오는 법 CpUtil.CpStockCode
- CYBOS Plus로 종목 주가 불러오는 법 CpSysDib.StockChart
- CYBOS Plus로 기관, 외국인 매매량 불러오는 법
- CYBOS Plus로 공매도 추이 불러오는 법
- 창원시 빅데이터 포털 소개
- investing.com 소개
- 환경 빅데이터 플랫폼 소개
- 기상자료개방포털 소개
- ITS 국가교통정보센터 소개
- KDX 한국데이터거래소 소개
- Our World in Data 소개
- SEES:lab 소개
- World Pop 소개
- 스탠포드 네트워크 분석 프로젝트 소개
- OpenFlights 소개
- 마크 뉴먼 네트워크 데이터 소개
- GIS DEVELOPER 소개
- 국가별 ISO3와 위도 경도 데이터
- Web of Life 소개