스탠포드 네트워크 분석 프로젝트 소개
소개
SNAP(Stanford Network Analysis Project)는 스탠포드 대학에서 유지보수하는 네트워크 분석/마이닝 라이브러리로, 거대 네트워크라고 할만한 네트워크 데이터를 제공하고 있다. 예로써 트위터를 이용해 만든 네트워크는 노드가 17,069,982명의 유저, 링크로 476,553,560건의 트윗을 포함하고 있다.
솔직히 연구라든가 어떤 실용적인 목적으로 쓸만한 데이터는 별로 없지만, 빅데이터나 네트워크 분석을 위한 연습로써는 상당히 쓸만하다. 퀄리티는 상당한 수준이기 때문에 본인에게 적합한 데이터를 찾는다면 이보다 좋은 데이터 공급처도 흔치 않을 것이다.
데이터 예시
# Directed graph (each unordered pair of nodes is saved once): WikiTalk.txt
# Communication network of Wikipedia (till January 2008). Directed edge A->B means user A edited talk page of B.
# Nodes: 2394385 Edges: 5021410
# FromNodeId ToNodeId
0 1
2 1
2 21
2 46
2 63
2 88
2 93
2 94
예로써 위의 WikiTalk.txt
는 txt
확장자로 정리해놓았는데, 아무래도 csv
가 아니다보니 다소의 전처리 작업은 필요할 수 있다.
요구사항
어떤 요구 사항도 없이 무제한적으로 다운로드 받을 수 있다.
카테고리
- Social networks
- Networks with ground-truth communities
- Communication networks
- Citation networks
- Collaboration networks
- Web graphs
- Amazon networks
- Internet networks
- Road networks
- Autonomous systems
- Signed networks
- Location-based online social networks
- Wikipedia networks, articles, and metadata
- Temporal networks
- Twitter and Memetracker
- Online communities
- Online reviewsand Amazon
- User actions
- Face-to-face communication networks
- Graph classification datasets