スタンフォード ネットワーク 分析 プロジェクト 紹介
紹介
SNAP(Stanford Network Analysis Project)は、スタンフォード大学でメンテナンスされているネットワーク分析/マイニングライブラリで、巨大ネットワークと言えるネットワークデータを提供している。例えば、Twitterを利用して作成したネットワークは、ノードが17,069,982人のユーザー、リンクとして476,553,560件のツイートを含んでいる。
正直、研究とか何か実用的な目的に使えるデータはあまりないけれど、ビッグデータやネットワーク分析の練習としてはかなり使える。クオリティはかなりのレベルなので、自分に合ったデータを見つけることができれば、これ以上のデータ提供元も珍しいだろう。
データ例
# Directed graph (each unordered pair of nodes is saved once): WikiTalk.txt
# Communication network of Wikipedia (till January 2008). Directed edge A->B means user A edited talk page of B.
# Nodes: 2394385 Edges: 5021410
# FromNodeId ToNodeId
0 1
2 1
2 21
2 46
2 63
2 88
2 93
2 94
例として、上のWikiTalk.txt
はtxt
拡張子で整理されているけど、やっぱりcsv
じゃないから、多少の前処理作業が必要かもしれない。
要求事項
特に要求事項もなく、無制限にダウンロードができる。
カテゴリ
- ソーシャルネットワーク
- グラウンドトゥルースコミュニティを持つネットワーク
- コミュニケーションネットワーク
- 引用ネットワーク
- 協力ネットワーク
- ウェブグラフ
- アマゾンネットワーク
- インターネットネットワーク
- 道路ネットワーク
- 自律システム
- サインネットワーク
- 位置情報に基づくオンラインソーシャルネットワーク
- ウィキペディアネットワーク、記事、メタデータ
- 時間ネットワーク
- TwitterとMemetracker
- オンラインコミュニティ
- オンラインレビューとAmazon
- ユーザーアクション
- 顔を合わせたコミュニケーションネットワーク
- グラフ分類データセット
リンク
- ファイルセットダウンロード: https://snap.stanford.edu/data/index.html