これらは誰でも使用できる最高の無料のオープンデータソースです

オープンデータとは?

簡単に言うと、オープンデータとは、アクセス、変更、再利用、共有のために誰でも誰でも利用できる種類のデータを意味します。

オープンデータは、オープンソース、オープンハードウェア、オープンガバメント、オープンサイエンスなど、さまざまな「オープンムーブメント」からその基盤を引き出しています。

政府、独立した組織、および機関は、データの水門を開いて、無料で簡単にアクセスできるオープンデータをますます作成するようになりました。

オープンデータが重要なのはなぜですか?

世界はますますデータ主導型に成長しているため、オープンデータは重要です。しかし、データへのアクセスと使用に制限がある場合、データ主導のビジネスとガバナンスのアイデアは実現されません。

したがって、オープンデータには独自の場所があります。それは地球規模の問題と普遍的な問題のより完全な理解を可能にすることができます。それはビジネスに大きな後押しを与えることができます。これは、機械学習の大きな推進力になる可能性があります。病気や犯罪、飢饉などの地球規模の問題と戦うのに役立ちます。オープンデータは市民に力を与えることができ、したがって民主主義を強化することができます。それは社会と政府が構築したプロセスとシステムを合理化することができます。それは、私たちが世界を理解し、関与する方法を変革するのに役立ちます。

これが15の素晴らしいオープンデータソースの私のリストです:

1.世界銀行のオープンデータ

世界のさまざまな国で起こっていることに関する世界で最も包括的なデータのリポジトリとして、世界銀行のオープンデータはオープンデータの重要な情報源です。また、データカタログに記載されている他のデータセットへのアクセスも提供します。

世界銀行のオープンデータは、microdata、時系列統計、地理空間データを含む3000のデータセットと14000のインジケーターを備えているため、膨大です。

必要なデータへのアクセスと発見も非常に簡単です。指標名、国、トピックを指定するだけで、オープンデータの宝庫が開かれます。また、CSV、Excel、XMLなどのさまざまな形式でデータをダウンロードすることもできます。

あなたがジャーナリストまたは学者であるならば、あなたはあなたが利用できるツールの配列に夢中になるでしょう。あなたはあなたの研究を強化することができる分析と視覚化ツールへのアクセスを得ることができます。それは地球規模の問題のより深くそしてより良い理解を促進することができます。

必要なデータの視覚化、他のデータソースとのライブの組み合わせ、およびその他の多くの機能の作成に役立つAPIにアクセスできます。

したがって、世界銀行のオープンデータがオープンデータソースのリストのトップに立つのは当然のことです。

2. WHO(世界保健機関)—オープンデータリポジトリ

WHOのオープンデータリポジトリは、WHOが194の加盟国の健康固有の統計を追跡する方法です。

リポジトリは、データを体系的に整理します。さまざまなニーズに応じてアクセスできます。たとえば、死亡率であろうと病気の負担であろうと、ミレニアム開発目標(子供の栄養、子供の健康、母性と生殖に関する健康、免疫、HIV / AIDS、結核、マラリア、無視された病気、水と衛生)、非伝染性の病気と危険因子、流行しやすい病気、健康システム、環境の健康、暴力と怪我、公平性など。

特定のニーズに応じて、テーマ、カテゴリ、指標、国に応じてデータセットを調べることができます。

良い点は、必要なデータをExcel形式でダウンロードできることです。データポータルを利用して、データを監視および分析することもできます。

世界保健機関のデータおよび統計コンテンツへのAPIも利用できます。

3. Google Public Data Explorer

2010年にリリースされたGooglePublic Data Explorerは、膨大な量の公益データセットを探索するのに役立ちます。それぞれの用途に合わせてデータを視覚化して伝達できます。

さまざまな機関やソースからのデータを利用できるようにします。たとえば、世界銀行、米国労働統計局、米国局、OECD、IMFなどのデータにアクセスできます。

さまざまな利害関係者がさまざまな目的でこのデータにアクセスします。学生であろうとジャーナリストであろうと、政策立案者であろうと学者であろうと、このツールを活用して公開データの視覚化を作成できます。

データエクスプローラーを使用すると、折れ線グラフ、棒グラフ、マップ、バブルチャートなどのデータを表すさまざまな方法を展開できます。

最良の部分は、これらの視覚化が非常に動的であることがわかることです。それはあなたがそれらが時間とともに変化するのを見るであろうことを意味します。トピックを変更したり、さまざまなエントリに焦点を合わせたり、スケールを変更したりできます。

簡単に共有することもできます。チャートの準備ができたらすぐに、ウェブサイトやブログに埋め込んだり、友達とリンクを共有したりできます。

4. AWSでのオープンデータのレジストリ(RODA)

これは、公開データセットを含むリポジトリです。AWSリソースから入手できるデータです。

RODAに関する限り、公開されているデータを見つけて共有することができます。

RODAでは、ゲノム、衛星画像、交通機関などの一般的なタイプのデータにキーワードとタグを使用して、探しているデータを検索できます。これらはすべて、シンプルなWebインターフェイスで可能です。

すべてのデータセットについて、詳細ページ、使用例、ライセンス情報、およびこのデータを使用するチュートリアルまたはアプリケーションを見つけることができます。

幅広いコンピューティングおよびデータ分析製品を利用することで、オープンデータを分析し、必要なサービスを構築できます。

アクセスするデータはAWSリソースを通じて利用できますが、AWSによって提供されていないことに注意する必要があります。このデータは、さまざまな機関、政府機関、研究者、企業、個人に属しています。

5.欧州連合のオープンデータポータル

EUの機関、機関、その他の組織が単一のプラットフォーム、つまり欧州連合のオープンデータポータルで公開しているオープンデータにアクセスできます。

EUオープンデータポータルには、EUポリシードメインに関連する重要なオープンデータがあります。これらの政策領域には、経済、雇用、科学、環境、教育が含まれます。

ユーロスタット、欧州環境機関、合同調査センター、その他の欧州委員会総局およびEU機関など、約70のEU機関、組織、または部門がデータセットを公開し、アクセスを許可しています。これらのデータセットは、現在までに11700の数を超えています。

ポータルは簡単なアクセスを可能にします。一般的なメタデータのカタログを介して、データを簡単に検索、探索、リンク、ダウンロード、および再利用できます。あなたはあなたの特定の目的のためにそうすることができます。それは商業目的または非商業目的である可能性があります。

インタラクティブ検索エンジン([データ]タブ)およびSPARQLクエリ([リンクトデータ]タブ)を介してメタデータカタログを検索できます。

このカタログを利用することで、EUの機関、機関、組織のさまざまなWebサイトに保存されているデータにアクセスできます。

6.ファイブサーティエイト

データ主導のジャーナリズムとストーリーテリングに最適なサイトです。

政治、スポーツ、科学、経済などのさまざまな分野のさまざまなデータソースを提供します。データをダウンロードすることもできます。

データにアクセスすると、ソースに関する各データセットに関する簡単な説明が表示されます。また、それが何を意味し、どのように使用するかを知ることができます。

このデータをユーザーフレンドリーにするために、CSVファイルなどのシンプルで非独占的な形式のデータセットを提供します。言うまでもなく、これらのフォーマットは、機械だけでなく人間も簡単にアクセスして処理できます。

これらのデータセットの助けを借りて、あなたはあなた自身の要件と好みに従って物語と視覚化を作成することができます。

7.米国国勢調査局

米国国勢調査局は、連邦政府の最大の統計機関です。それは、アメリカの人々、場所、および経済に関する信頼できる事実とデータを保存し、提供します。

国勢調査局は、サービスを拡張するというその崇高な使命を、品質データの最も信頼できるプロバイダーと見なしています。

連邦政府、州政府、地方政府、部族政府のいずれであっても、国勢調査データをさまざまな目的で利用します。これらの政府は、このデータを使用して、新しい住宅や公共施設の場所を決定します。彼らはまた、コミュニティ、州、および米国の人口統計学的特性を調べるときにそれを利用します。

このデータは、交通システムや道路の計画にも利用されます。割り当てを決定し、警察と消防署を作成する場合、このデータは役に立ちます。政府が選挙、学校、公益事業などのローカライズされた領域を作成する場合、政府はこのデータを利用します。人口情報を10年に一度編集することは慣習であり、このデータは同じことを達成するのに非常に役立ちます。

American Fact Finder、Census Data Explorer、Quick Factsなど、データを検索、カスタマイズ、視覚化する場合に役立つさまざまなツールがあります。

たとえば、Quick Factsだけでも、人口が5000人以上のすべての州、郡、市、さらには町の統計が含まれています。

同様に、American Fact Finderは、人口、収入などの人気のある事実を発見するのに役立ちます。頻繁に要求される情報を提供します。

良い点は、国勢調査データエクスプローラーを使用して、検索、データの操作、人気のある統計についての知識の取得、および関連するグラフの表示ができることです。さらに、ビジュアルツールを使用して、インタラクティブマップエクスペリエンスのデータをカスタマイズすることもできます。

8. Data.gov

Data.govは、米国政府のオープンデータの宝庫です。すべての政府データを無料で利用できるようにすることが決定されたのはつい最近のことです。

それが開始されたとき、47しかありませんでした。現在、180,000のデータセットがあります。

Data.govが優れたリソースである理由は、さまざまな目的で展開できるデータ、ツール、およびリソースを見つけることができるためです。調査を実施し、Webおよびモバイルアプリケーションを開発し、データの視覚化を設計することもできます。

検索ボックスにキーワードを入力し、タイプ、タグ、フォーマット、グループ、組織タイプ、組織、およびカテゴリを参照するだけです。これにより、必要なデータやデータセットに簡単にアクセスできるようになります。

Data.govは、Project Open Data Schema(Data.govに表示されるすべてのデータセットの必須フィールド(タイトル、説明、タグ、最終更新、発行元、連絡先名など)のセット)に従います。

9. DBpedia

ご存知のように、ウィキペディアは素晴らしい情報源です。DBpediaは、ウィキペディアが作成した貴重な情報から構造化されたコンテンツを取得することを目的としています。

DBpediaを使用すると、ウィキペディアリソースの関係とプロパティを意味的に検索および探索できます。これには、他の関連データセットへのリンクも含まれます。

DBpediaデータセットには約458万のエンティティがあります。422万人がオントロジーに分類され、1,445,000人、735,000の場所、123,000の音楽アルバム、87,000の映画、19,000のビデオゲーム、241,000の組織、251,000の種、6,000の病気が含まれます。

これらのエンティティには、約125の言語でラベルと要約があります。画像へのリンクは2,520万あります。外部のWebページへのリンクは2,980万あります。

DBpediaを使用するために必要なのは、エンドポイントに対してSPARQLクエリを作成するか、それらのダンプをダウンロードすることだけです。

DBpediaは、Apple(Siri経由)、Google(FreebaseおよびGoogleナレッジグラフ経由)、IBM(Watson経由)などのいくつかの企業、特に人工知能に関連するそれぞれの権威あるプロジェクトに恩恵をもたらしています。

10. freeCodeCampオープンデータ

オープンソースコミュニティです。それが重要なのは、コーディング、非営利団体の後に無料のプロジェクトを構築し、開発者としての仕事を得ることができるからです。

これを実現するために、freeCodeCamp.orgコミュニティは毎月膨大な量のデータを利用できるようにしています。彼らはそれをオープンデータに変えました。

このリポジトリにはさまざまなものがあります。freeCodeCampデータに基づいて、データセット、プロジェクトの同じ分析、さらにはデモを見つけることができます。freeCodeCampデータを含む外部プロジェクトへのリンクもあります。

それはあなたが考えているかもしれないプロジェクトやタスクの多様性であなたを助けることができます。Web分析、ソーシャルメディア分析、ソーシャルネットワーク分析、教育分析、データ視覚化、データ駆動型Web開発、ボットのいずれであっても、このコミュニティが提供するデータは非常に有用で効果的です。

11. Yelpのオープンデータセット

基本的に、Yelpデータセットは、個人的、教育的、学術的な目的で使用するための、私たち自身のビジネス、レビュー、およびユーザーデータのサブセットにすぎません。

Yelp Open Datasetsには、5,996,996件のレビュー、188,593件の企業、280,991件の写真、10の大都市圏が含まれています。

さまざまな目的に使用できます。JSONファイルとして利用できるため、データベースについて学生に教えるために使用できます。モバイルアプリの設計方法を理解しながら、それらを使用してNLPを学習したり、サンプルの本番データを取得したりできます。

このデータセットには、1行に1つのJSONオブジェクトという単一のオブジェクトタイプで構成される各ファイルがあります。

12.ユニセフデータセット

ユニセフはさまざまな重大な問題に関心を持っているため、教育、児童労働、子供の障害、子供の死亡率、妊産婦死亡率、水と衛生、低出生体重、出産前ケア、肺炎、マラリア、ヨウ素欠乏に関する関連データをまとめました。障害、女性性器切除/切断、および青年。

IATIレジストリで公開されているユニセフのオープンデータセット://www.iatiregistry.org/publisher/unicefは、ユニセフのオペレーティングシステム(VISION)およびその他のデータシステムから直接抽出されており、個々のユニセフオフィスからの入力を反映しています。

良い点は、これらのデータセットに関しては定期的に更新されることです。毎月、データはより包括的で信頼性が高く正確になるように更新されます。

このデータには自由かつ簡単にアクセスできます。そのために、このデータをCSV形式でダウンロードできます。ダウンロードする前にサンプルデータをプレビューすることもできます。

ユニセフのデータセットは誰でも探索して視覚化できますが、主要な発行元は3つあります。

ユニセフの援助透明性ポータル:このポータルを使用すると、データセットにはるかに簡単にアクセスできます。また、ユニセフが活動している各国の詳細も含まれています。

出版社d-portal:現時点ではベータ版です。このポータルを使用すると、IATIデータを探索できます。

開発活動や予算などに関連する情報を検索できます。この情報は国ごとに調べることができます。

出版社のデータプラットフォーム:このプラットフォームでは、IATIレジストリを介してアクセスされたデータの統計、グラフ、およびメトリックに簡単にアクセスできます。ヘッダーをクリックすると、プラットフォームに表示される多くのテーブルを並べ替えることもできます。プラットフォームには、機械可読なJSON形式のデータセットの多くもあります。

13. Kaggle

Kaggleは、さまざまなデータセット公開形式の使用を促進するため、優れています。ただし、より良い部分は、データセットの発行者がアクセス可能な非独占的な形式でデータを共有することを強くお勧めすることです。

プラットフォームは、オープンでアクセス可能なデータ形式をサポートしています。アクセスだけでなく、このデータで何をしたいのかについても重要です。したがって、Kaggle Datasetは、データの共有時に推奨されるファイル形式を明確に定義しています。

Kaggleデータセットのユニークな点は、それが単なるデータリポジトリではないということです。各データセットは、データについて話し合い、公開コードと手法を見つけ、カーネルで独自のプロジェクトを概念化できるコミュニティを表しています。

CSV、JSON、SQLite、アーカイブ、Big Queryなどは、Kaggleがサポートするファイルタイプです。オープンデータプロジェクトでの作業を開始するために、さまざまなリソースを見つけることができます。

最良の部分は、Kaggleを使用すると、データセットをプライベートまたはパブリックに公開および共有できることです。

14. LODUM

これは、ミュンスター大学のオープンデータイニシアチブです。このイニシアチブの下で、誰でも大学に関する公開情報に機械可読形式でアクセスできるようになります。必要に応じて、簡単にアクセスして再利用できます。

このプロジェクトでは、科学的人工物に関するオープンデータとリンクトデータとしてエンコードされたデータが利用可能になります。

リンクトデータの助けを借りて、データ、オントロジー、およびさまざまなメタデータ標準を共有および使用することが可能です。実際、メタデータ、およびWeb上のデータ自体を提供するための受け入れられた標準になることが想定されています。

LODUMチームは、LinkedUniversities.orgとLinkedScience.orgを共同で開始しました。

SPARQLエディターまたはRのSPARQLパッケージを使用してデータを分析できます。

SPARQLパッケージを使用すると、HTTPを介してSPARQLエンドポイントに接続し、SELECTクエリまたは更新クエリ(LOAD、INSERT、DELETE)を実行できます。

15. UCI機械学習リポジトリ

これは、機械学習アルゴリズムの経験的分析のために機械学習コミュニティによって使用されるデータベース、ドメイン理論、およびデータジェネレーターの包括的なリポジトリとして機能します。

このリポジトリには、現在、機械学習コミュニティへのサービスとして463のデータセットがあります。

カリフォルニア大学アーバイン校の機械学習およびインテリジェントシステムセンターは、それをホストおよび保守しています。David Ahaは、もともとカリフォルニア大学アーバイン校の大学院生として作成しました。

それ以来、世界中の学生、教育者、研究者が、機械学習データセットの信頼できるソースとしてそれを利用しています。

それがどのように機能するかは、各データセットがそれを調査する関連する出版物を含むすべての既知の詳細をリストする独自のウェブページを持っているということです。これらのデータセットはASCIIファイルとしてダウンロードできます。多くの場合、便利なCSV形式です。

データセットの詳細は、属性の種類、インスタンスの数、属性の数、公開された年など、並べ替えや検索が可能な側面ごとにまとめられています。

オープンデータポータルと検索エンジン:

毎年多くの機関によって公開されているデータセットはたくさんありますが、認識され確立されるデータセットはごくわずかです。

そのようなデータセットが有用なリソースとして維持されることが非常に少ない理由は、人々や組織が有用で使いやすいと感じる方法でデータを開発、管理、提供することが課題であるためです。

ただし、ユーザーがオープンデータに非常に簡単にアクセスし、その影響を調査し、貴重な洞察を収集できるようにする、その他のいくつかの重要なオープンデータポータルとプラットフォームのリストを以下に示します。

  1. Googleデータセット検索
  2. データバース
  3. データキットを開く
  4. Ckan
  5. オープンデータモニター
  6. Plenar.io
  7. オープンデータインパクトマップ

結論

オープンデータはその日の順序です。世界は徐々にオープンシステムへと移行し始めており、オープンデータはそれと正しく同期しています。

オープンデータを活用する企業や組織は、競争力を獲得し、将来を支配することができます。