データ分析に必要なデータソース20選(無料で使える)

データアナリストとして、データ分析をする際に、手元に質のいい情報とデータソースがないことがしばしばあります。今回は無料データソースを20個厳選してみました。もちろん、これだけじゃ足りません。ほかに何かお勧めのデータソースがあれば、コメントは大歓迎です。

 

一、政府の公開情報

 政府の公開しているデータ量がだいぶ増えているだけでなくて、データの質も向上してきています。日本政府は多く情報を公開しており、人口、経済、医療、観光、気候などのデータをウェブサイトで簡単に手に入れます。このデータを他の国の状況と比べるすることが多いため、いくつかのよく使われる国のデータプラットフォームを知る必要があります。

1.日本統計局:http://www.stat.go.jp/

2.米国政府の公開資料:https://www.data.gov/

3.英国国立データセンターhttps://data.gov.uk/

4.EU情報プラットフォーム:https://www.europeandataportal.eu/

5.中国国立データセンター:http://data.stats.gov.cn/

6.香港政府データセンター:https://data.gov.hk/ja/

7.台湾政府情報公開プラットフォーム:https://data.gov.tw/

データ分析ツール

8.Googleで検索したくない場合は、以下のウェブサイトを使用することもできます。

 https://opendatainception.io/

 これは、世界各地に2,600を超えるオープンデータポータルを統合し、地図で検索できるナビゲーションサイトです。

データ分析ツール

データ分析ツール





二、国際機関の統計データ

9.経済協力開発機構OECD)データベース:https://data.oecd.org/

 各国の人口、税金、輸出入、経済状況か、グローバル経済状況などの経済データは、国やデータ別に検索することができます。 一度に複数の国のデータを比較したい場合、各国のデータプラットフォームをいちいち検索するよりも、OECDに着手するほうは手間が省けます。

データ分析ツール



10.世界銀行の公開情報:https://data.worldbank.org/

 気候、融資、経済、教育、人口などの情報は非常に全面的で、ダウンロードすることができます。

データ分析ツール



11.世界保健機関http://apps.who.int/gho/data/node.home

 ここでヘルスケアについての情報を入手できます。 近年、AI医療の発展に伴って、予防接種、病気の前処理、薬物、栄養などに関するデータが増加しています。WHOは最新の情報を幅広く提供しています。

データ分析ツール

そのほか、アメリカ航空宇宙局NASA)もデータを公開しています。必要に応じて検索してください。

https://data.nasa.gov/

 

 

データ分析ツール



三、企業/プラットフォームデータベース

12.githubhttps://github.com/awesomedata/awesome-public-datasets

 この有名なプラットフォームがよく知られると思っています。 農業、気候、経済、教育、エネルギー、金融…いかなる情報を網羅するといえます。

 以下に一部のデータベースのディレクトリを示します。

データ分析ツール



13.Google BigQuery公開データセットhttps://cloud.google.com/bigquery/public-data/

 これは完全に無料ではありません。1Tを超えると支払う必要があります。 主に米国の情報は多いですが、データ分析のリソースとして利用可能です。

データ分析ツール



14.YouTubeデータセットhttps://research.google.com/youtube8m/index.html

 YouTubeのデータが必要な方にお勧めします~

データ分析ツール



15.GOOGLEオープンデータ検索:http://www.google.com/publicdata/directory?hl=en_US&dl=ja

 Googleの検索ですべてのネットワークのデータを検索することができますが、Googleのオープンデータ検索では、データベースだけ検索できます。言語を切り替えると、その言語に対応するデータベースの結果が出ます。

f:id:greywwl:20181112233642p:plain

16.Google Trend Search:https://trends.google.com/trends/?geo=US

 常にトレンドに関心を持つ方、マーケティングや営業をやった人にお勧めします。 国別にトレンドをチェックできますし、googleでのキーワードの人気度をダウンロードできます。 同じキーワードが異なる国における人気度も比較できます。

f:id:greywwl:20181112233713p:plain

f:id:greywwl:20181112233733p:plain

17.アマゾン awshttps://aws.amazon.com/cn/datasets/

 アマゾンのクロスサイエンスのデータプラットフォームで、化学、生物学、経済など複数の分野のデータセットが含まれています。 全人類の遺伝情報データベースを構築しようとする1000のゲノムプロジェクトと、NASAの衛星画像のデータベースまで含みます。

 

四、そのほか

18.MNIST手書き数字データベース:http://yann.lecun.com/exdb/mnist/

 手書き数字画像認識のデータセットとして、MNIST手書きデータベースは、60,000例のトレーニングセットおよび10,000例のテストセットがあります。

f:id:greywwl:20181112233754p:plain

19.UCI機械学習データベース:https://archive.ics.uci.edu/ml/datasets.html

 UCI機械学習ライブラリは、機械学習アルゴリズムの実証研究のため、領域理論とデータジェネレータを結合したデータベースです。それは機械学習データセットの主要なソースとして世界中の学生、教育者、研究者によって広く使用されています。

f:id:greywwl:20181112233810p:plain

 

20.クローラー

 ほしいデータがまとまらない場合、データを取得するにはWebサイトデータのクロールのようなクロールツールを使用する必要があります。 この分野に多くのツールと方法があります。必要に応じて一つを選んで学習してください。

まとめ

 いかがでしょうか?以上のデータソースを十分に利用すれば、いつもと違う相当いいデータ分析を完成できるはずです。商用利用に関して、各データソースの利用条件を確認したうえで利用してください。