データ確保
データサイエンスで最も難しく重要な部分は断言しますが、データを確保し前処理することです。残念ながら、この世にどんなデータがあるのか、どうやって入手できるのかを教えてくれる授業は稀です。
マーク | 細分類 |
---|---|
😀 | アクセス良好 |
😡 | アクセス困難 |
🔰 | 初心者おすすめ |
👨🎓 | 専門家おすすめ |
👍 | 強くおすすめ |
- 👍を濫用すると意味がないので、希少性を維持するために10個の投稿ごとに一つだけ付与します。
マークだけを見ると、サムズアップ👍だけを追えばいいように思えますが、データの世界というのはそんなに甘くありません。あなたがやりたいことにピッタリ合うデータは通常世の中に存在せず、不足していれば不足しているなりに物足りなさを我慢して使わざるを得ない場合が多いです。似たようなデータでも代案は多いほど良く、どんな良くないデータでもないよりはマシです。
構造化データ
- 環境ビッグデータプラットフォーム : 環境データマーケットを提供します。マーケットとはいえ無料データも多く、使い方次第です。(2021.08.02)
- 気象データ開放ポータル 👨🎓🔰: 気象データおよび災害に関連するデータを提供します。(2021.08.03)
- 👍 Our World in Data 😀🔰: 一般社会に関連する様々な分野に関する数百種類の年間データを国別、年度別に無償で提供しています。特にコロナに関する世界中のデータと統計を提供しています。(2021.12.30)
- 🔒(24/12/18) Baseball Savant: アメリカの野球リーグであるMLBに関連するデータを提供します。(2024.07.30)
- 🔒(24/12/30) KOSIS国家データポータル: 統計庁が提供する統計サービスで、国内で公式に存在しそうなデータはほとんどKOSISで見つけることができます。国内データを使用するなら必ず知っておくべきサイトです。(2024.08.23)
時系列データ
- investing.com 😀🔰: インベスティングドットコムは世界的な金融情報サイトで、コスピ、コスダックなどの銘柄のチャート情報を無料で簡単に提供します。(2021.07.30)
- CYBOS Plus 😡👨🎓: 大宇証券のOpen APIで、特定銘柄のコードや終値、時価総額、機関純買い越しなどの日次またはリアルタイム時系列データを含め、トレーディングシステムで必要とされるほぼすべての情報と機能を提供します。(2021.07.15)
韓国自治体
- D-データハブ 😀: 大邱地域の公共データを提供します。4,000以上のデータセットと13,000以上のサービスを提供しています。(2021.06.08)
- 昌原市ビッグデータポータル: 昌原地域の12のカテゴリー、172のデータセットとビッグデータスタジオ、商圏分析などのサービスを提供します。(2021.07.30)
非構造化データ
- AI Hub 👨🎓: AI学習用データを提供します。音声/自然言語、ビジョン、ヘルスケア、自動運転、安全、農畜水産、国土環境、教育などの分野で画像、ビデオ、テキスト、オーディオ、3D、センサーデータなど多様なフォーマットを扱います。(2021.07.14)
- kaggle 😀🔰: 世界的に最も有名なオープンデータハブで、数え切れないほど多様なデータを公開し、小さなコンペも多く開催しています。(2021.07.15)
- KDX韓国データ取引所 😡👨🎓: 一般的なデータハブとは異なり、有料でデータを販売する企業です。有料なだけに韓国の事情に合ったデータの量と質では最高水準で、無料データも少なくありません。(2021.08.06)
ネットワーク
- SEES:lab 👨🎓: 空港、メールなどネットワークに関するデータがきれいに精製されています。(2021.12.31)
- スタンフォードネットワーク分析プロジェクト 👨🎓: スタンフォード大学が維持管理するネットワーク分析/マイニングライブラリで、大規模ネットワークと呼べるネットワークデータを提供しています。(2022.01.04)
- OpenFlights: 世界の空港と航空網に関するデータを提供します。いくつかの前処理が必要ですが、意外とこの程度のネットワークデータは珍しいです。(2022.01.10)
- マーク・ニューマン ネットワークデータ 😡: その名も有名なマーク・ニューマンのネットワークデータセットを入手できます。論文で出版された研究に関連する23種類のネットワークが公開されています。(2022.01.10)
- World Pop: 世界の航空網ネットワーク、国間の移民統計、都市化、年齢・性別構造などに関するデータを提供します。(2022.01.04)
- 🔒(24/12/14) Web of Life: 寄生、共生、捕食関係などの生態系ネットワークデータを提供します。(2024.07.30)
- 🔒(24/12/22) Network Data Repository: 30以上のテーマに対して数千種類の様々なネットワークを提供します。(2024.08.01)
地理情報
- ITS国家交通情報センター 😀👨🎓: 国内の交通流、工事・事故、CCTV、交通予測、車両検知器、VMS、交通安全アシスタント、可変速度標識、脆弱区間情報および全国標準ノードリンクを提供します。(2021.08.03)
- 👍 GIS DEVELOPER 👨🎓: GIS専門家であり開発者であるキム・ヒョンジュンさんが運営するブログです。少なくとも韓国データを使うプロジェクトでは、この方の助けなしには何もできないと言っても過言ではありません。(2023.01.10)
- 🔒(24/12/26) 行政標準コード管理システム: 具体的な地理情報ではありませんが、地理情報に対応するデータとして最も重要な「法定洞コード」のリストを取得できます。(2024.08.23)
全體ポスト
- D-データハブの紹介
- AI Hub 紹介
- Kaggle APIを使ってデータをダウンロードする方法、OSError: kaggle.jsonが見つかりませんでした。の解決方法
- Kaggleの紹介
- 投資情報 Open API CYBOS Plus 紹介
- CYBOS Plus インストールチュートリアル
- CYBOS Plusで銘柄コードを読み込む方法 CpUtil.CpStockCode
- CYBOS Plusで証券の株価を取得する方法 CpSysDib.StockChart
- CYBOS Plusで機関及び外国人の取引量を取り込む方法
- CYBOS Plusで空売りのトレンドを取得する方法
- 창원市ビッグデータポータル紹介
- investing.com の紹介
- 環境ビッグデータプラットフォームの紹介
- 気象データオープンポータルの紹介
- ITS国家交通情報センターの紹介
- KDX韓国データ取引所の紹介
- データで見る私たちの世界の紹介
- SEES:lab 紹介
- ワールドポップ紹介
- スタンフォード ネットワーク 分析 プロジェクト 紹介
- OpenFlights への紹介
- マーク・ニューマンによるネットワークデータ入門
- GIS開発者の紹介