logo

データ確保

データサイエンスdata scienceで最も難しく、重要な部分は間違いなく、データを確保し、前処理することである。残念ながら、この世にどのようなデータがあり、どのようにして入手できるのかを教えてくれる授業は珍しい。

マーク詳細分類
😀アクセス良好
😡アクセス悪い
🔰初心者推奨
👨‍🎓専門家推奨
👍強く推奨

マークを見ただけでは、いいね👍を追えばいいように思えるが、データの世界はそんなに甘くない。自分のやりたいことにピッタリのデータは、通常、世界に存在しないし、不足していれば不足で何とか使うしかないことが多い。似たようなデータでも、代替案が多ければ多いほど良く、どんなに悪いデータでもないよりはマシだ。

構造化データ

  • 環境ビッグデータプラットフォーム : 環境データマーケットを提供している。マーケットとはいえ無料のデータも多く、使い方次第である。 (2021.08.02)
  • 気象データオープンポータル 👨‍🎓🔰: 気象データや災害関連のデータを提供している。 (2021.08.03)
  • 👍 Our World in Data 😀🔰: 社会に関連する様々な分野について、数百種類の年次データを国別、年度別に無料で提供している。特にコロナに関する世界のデータと統計を提供している。 (2021.12.30)

時系列データ

韓国の地方自治体

  • D-データハブ 😀: 大邱地域の公共データを提供している。4,000以上のデータセットと13,000以上のサービスを提供している。(2021.06.08)
  • 昌原市ビッグデータポータル: 昌原地域の12のカテゴリ、172のデータセットとビッグデータスタジオ、商圏分析などのサービスを提供している。 (2021.07.30)

非構造化データ

  • AI Hub 👨‍🎓: AI学習用データを提供している。音声/自然言語、ビジョン、ヘルスケア、自動運転、安全、農水産、国土環境、教育などの分野で、画像、ビデオ、テキスト、オーディオ、3D、センサーデータなど、様々なフォーマットを扱っている。 (2021.07.14)
  • kaggle 😀🔰: 世界で最も有名なオープンデータハブで、数えきれないほど多様なデータを公開し、小規模なコンテストも多く開催している。 (2021.07.15)
  • KDX韓国データ取引所 😡👨‍🎓: 一般的なデータハブとは異なり

、データを販売する企業である。有料だが、韓国の実情に合ったデータの量と質では最高レベルであり、無料のデータも少なくない。 (2021.08.06)

ネットワーク

  • SEES:lab 👨‍🎓: 空港、メールなどネットワークに関するデータがきれいに整理されている。(2021.12.31)
  • スタンフォードネットワーク分析プロジェクト 👨‍🎓: スタンフォード大学が保守するネットワーク分析/マイニングライブラリで、巨大ネットワークと言えるネットワークデータを提供している。 (2022.01.04)
  • OpenFlights: 世界中の空港と航空ネットワークに関するデータを提供している。いくつかの前処理が必要だが、このレベルのネットワークデータは珍しい。 (2022.01.10)
  • マーク・ニューマンのネットワークデータ 😡: その名も有名なマーク・ニューマンのネットワークデータセットを入手できる。論文に発表された研究に関連する23種類のネットワークが公開されている。 (2022.01.10)
  • World Pop: 世界の航空ネットワーク、国家間移民統計、都市化、年齢および性別構造などに関するデータを提供している。 (2022.01.04)

地理情報

  • ITS国家交通情報センター 😀👨‍🎓: 国内の交通流動、工事事故、CCTV、交通予測、車両検知器、VMS、交通安全支援、可変速度標識、脆弱区間情報および全国標準ノードリンクを提供している。 (2021.08.03)
  • 👍 GIS DEVELOPER 👨‍🎓: GIS専門家かつ開発者であるキム・ヒョンジュンさんが運営するブログ。少なくとも韓国データを使用するプロジェクトでは、この方の助けなしには何もできないと言っても過言ではない。 (2023.01.10)

全體ポスト