誰の評価を信頼する必要がありますか?IMDB、Rotten Tomatoes、Metacritic、またはFandango?

データサイエンティストが調査

あなたは映画を見るべきですか?さて、監督、俳優、映画の予算など、考慮すべき要素はたくさんあります。私たちのほとんどは、レビュー、短い予告編、または映画の評価を確認するだけで決定を下します。

評価よりもはるかに多くの情報をもたらしますが、レビューを読んだり、予告編を見たりすることを避けたいと思う理由はいくつかあります。

まず、どんなに小さくても、ネタバレを完全に避けたいと思うかもしれません。という事は承知しています!

第二に、その映画を見て影響を受けない体験をしたいということかもしれません。これは通常、「これは宇宙の複雑さについての映画です」や「この映画は本当に愛についてではありません」などのフレームが散りばめられたレビューにのみ適用されます。これらのフレームが短期記憶にエンコードされると、それらがあなた自身の映画体験に干渉するのを防ぐのは本当に難しいです。

もう1つの理由は、疲れているか急いでいる場合は、2分間の予告編を見るのはもちろん、レビューを読みたくないかもしれないということです。

したがって、映画の数値による評価は、かなりの数の人々にとって、かなりの数の状況で良い解決策のようです。

この記事は、正確な映画の評価をすばやく取得するために単一のWebサイトを推奨することを目的としており、データに基づいた強力な議論を提供します。

「最高」の基準

このような推奨を行うことは、「これは映画の評価を探すのに最適な場所です」と言うのとよく似ています。これは、何が良いか、何が悪いか悪いか、何が最良かを判断するために使用されるいくつかの基準に基づいた評価ステートメントです。 、 この場合。私の推奨では、正規分布という1つの基準を使用します。

映画のレーティングを探すのに最適な場所は、正規分布のパターンに最も似ている、または同一のパターンでレーティングが分布していることを確認することです。これは、特定の間隔にある一連の値が与えられた場合です。 、それらのほとんどはその真ん中にあり、他のいくつかはその間隔の極端にあります。一般に、これは正規(ガウスとも呼ばれる)分布がどのように見えるかです。

この基準の背後にある理論的根拠は何ですか?まあ、数百本の映画からなる私自身の経験から、私は私が見たことがわかります:

  • 私が数回見たいくつかの傑出したもの
  • 本当にぞっとするようなカップルで、彼らを見ている時間を後悔させてくれました
  • そして、平均的なものがたくさんありますが、そのほとんどはもうプロットを思い出すことができません。

私は信じているほとんどの人々を-評論家、cinephiles、または普通の映画ファンかどうか-似たような経験を持っていました。

映画のレイティングが実際に映画の品質を表している場合は、両方で同じパターンが見られるはずです。

私たちのほとんどが映画の大部分を平均的な品質であると評価していることを考えると、映画の評価を分析するときに同じパターンが見られるはずです。同様の論理が悪い映画と良い映画にも当てはまります。

パターン間にこのような対応があるはずだとまだ確信していない場合は、1つの映画の評価の分布について考えてみてください。多くの人が映画を評価しているので、ほとんどの場合、同じような好みの映画がたくさんあると想定することは、信仰の飛躍ではありません。彼らは一般的に、映画が悪い、平均的、または良いのいずれかであることに同意します(これらの定性的な値は後で定量化します)。また、他の2つの定性的価値のいずれかで映画を評価する他の数人がいます。

個々の映画のすべての評価の分布を視覚化すると、低、平均、または高の評価に対応する領域の1つに単一のクラスターが形成される可能性があります。

ほとんどの映画が平均的であると見なされる場合、平均的な領域の周りのクラスターが発生する可能性が最も高く、他の2つのクラスターの可能性は低くなります(ただし、依然として重要です)。(これらの可能性はすべて原則として定量化できますが、これには大量のデータが必要であり、この記事を本に変える可能性があることに注意してください。)

最も可能性が低いのは、クラスターがなく、人々の好みが3つの定性的値にほぼ均等に分割されている一様分布です。

これらの可能性を考えると、映画の十分な大きさのサンプルの評価の分布は、平均領域に鈍いクラスターがあり、高さ(度数)が減少するバーで囲まれているため、正規分布に似ているはずです。

これらすべてを理解するのが難しいと感じた場合は、次の図を検討してください。

IMDB、Rotten Tomatoes、Fandango、またはMetacritic?

使用する基準ができたので、データを詳しく見ていきましょう。

独自の映画のレイティングを考え出すウェブサイトはたくさんあります。許容できる投票数で映画の評価を得ることができるように、主に人気に基づいて4つだけを選択しました。幸せな勝者は、IMDB、Fandango、Rotten Tomatoes、およびMetacriticです。

すなわち-最後の二つに関しては、私は彼らの象徴的な評価の種類に焦点を当てているtomatometer、およびmetascore -主な理由は、これらが各Webサイトでユーザーに表示されやすいためです(つまり、すばやく見つけることができます)。これらは他の2つのWebサイトでも共有されます(メタスコアはIMDBで共有され、トマトメーターはFandangoで共有されます)。これらの象徴的な評価に加えて、両方のWebサイトには、ユーザーのみが投稿できる機能の少ない評価タイプもあります。

2016年と2017年に最も投票され、レビューされた映画のいくつかの評価を収集しました。クリーンアップされたデータセットには214本の映画の評価があり、このGithubリポジトリからダウンロードできます。

2016年より前にリリースされた映画の評価は収集していません。これは、ウォルトヒッキーの分析の直後に、ファンダンゴの評価システムにわずかな変更が発生したためです。

小さなサンプルで作業するのは危険であることは承知していますが、少なくともこれは、評価の分布の最新のスナップショットを取得することで補われます。

分布をプロットして解釈する前に、以前に使用した定性的な値を定量化しましょう。0から10のスケールでは、悪い映画は0から3の間、平均は3から7の間、良い映画は7から10の間です。 。

質と量の違いに注意してください。以下でそれを識別できるようにするために、評価(数量)を低、平均、または高と呼びます。以前と同様に、映画の品質は、悪い、平均、または良いとして表されます。「平均」という用語が同じであることが心配な場合は、あいまいさを避けるように注意するので、気にしないでください。

それでは、分布を見てみましょう。

一見すると、メタスコアのヒストグラム(この種のグラフと呼ばれるもの)が正規分布に最もよく似ていることがわかります。それは不規則な高さの棒で構成される平均的な領域に厚いクラスターを持っており、それは上部を鈍くも鋭くもしません。

ただし、他の2つの領域のそれぞれのバーよりも数が多く、背が高く、極端に向かって高さがほぼ徐々に減少します。これらはすべて、ほとんどのメタスコアが平均値を持っていることを明確に示しています。これは、私たちが探しているものとほぼ同じです。

IMDBの場合、分布の大部分も平均領域にありますが、最大の平均値に向かって明らかな偏りがあります。高評価領域は、ヒストグラムのその部分の正規分布見られると予想されるものと似ています。ただし、顕著な特徴は、映画のレイティングが低いことを表す領域が完全に空であるということです。これにより、大きな疑問符が発生します。

当初、私は小さなサンプルに責任を負わせ、大きなサンプルはIMDBに対してより多くの正義をもたらすだろうと考えました。幸い、Kaggleで、4,917種類の映画のIMDB評価を含む既製のデータセットを見つけることができました。驚いたことに、ディストリビューションは次のようになりました。

分布の形は、214本の映画のサンプルとほぼ同じように見えますが、評価の低い領域は、この場合は46本の映画(4917本のうち)がわずかに存在します。値の大部分はまだ平均的な領域にあるため、IMDBの評価は、その偏りがあるメタスコアに匹敵することは明らかに困難ですが、推奨事項についてさらに検討する価値があります。

とにかく、この結果の本当に素晴らしい点は、214本の映画のサンプルが全人口をかなり代表しているという説を支持する強力な議論として使用できることです。言い換えれば、この分析の結果は、4つのWebサイトすべてからのすべての映画の評価が分析された場合に到達した結果と同じか、少なくとも類似しているという確信が高まっています。

この自信が増したので、ファンダンゴの評価の分布を調べることに移りましょう。これは、ヒッキーの分析以来あまり変わっていないようです。スキューは、ほとんどのレーティングが存在する映画レーティングスペクトルのより高い部分に向かってまだ目に見えています。平均評価の下半分の領域は、低評価の領域と同じように、完全に空です。分布は私の基準にかなり適合していないと簡単に結論付けることができます。したがって、可能な推奨事項についてはこれ以上検討しません。

(上にスクロールするという苦痛はすぐに終わると約束します。分布を記事全体に散らばらせるよりも、近くに配置すると、分布を比較する方がはるかに簡単です。)

最後に、トマトメーターの分布は予想外に均一であり、異なるビニング戦略の下ではさらに平坦に見えます(ビニング戦略はバーの総数とその範囲によって定義されます。ヒストグラムを生成するときにこれらの2つのパラメーターで遊ぶことができます) 。

この分布は、トマトメーターが古典的な評価ではなく、映画に肯定的なレビューを与えた批評家の割合を表すため、文脈で解釈するのは簡単ではありません。これは、映画を良くも悪くもするので、悪い平均良い質的フレームワークには不向きになります。とにかく、それでも同じ正規分布に要約する必要があると思います。ほとんどの映画では、肯定的なレビューと否定的なレビューの数に中程度の違いがあり(30%〜70%の肯定的なレビューの多くの評価が得られます)、何らかの形で大幅に大きな違いがある映画はほとんどありません。

最後の考慮事項と分布の形を考えると、トマトメーターは私の基準を満たしていません。それは可能性があり、より大きなサンプルはそれをより多くの正義を行うだろうということが、私はそれをお勧めした場合、たとえそうであっても、私はので、漠然とした正または負の評価システムのいくつかの埋蔵量でそれを行うだろう。

分析のこの時点で、分布を見ると、私の推奨事項はメタスコアであると言えます。

ただし、IMDBの分布も検討する価値があるようです。特に、3つの定性的カテゴリ(私が自分で定義した間隔、多かれ少なかれ恣意的に)の評価間隔を少し調整する場合はそうです。この観点から、主に目視検査を行うことによってメタスコアを推奨するだけでは明らかに十分ではありません。

そこで、定量的な方法でこの2つを区切るようにします。

アイデアは、Fandango変数を負の参照として使用し、IMDBの評価とメタスコアから、どの変数が最も相関が低いかを判断することです(たとえば、メタスコアなど、異なる値をとることができるため、これらの変数を呼び出します映画によって異なる値を取るため、は変数です)。

いくつかの相関係数を計算するだけで、最小値の変数が推奨されます(次に、これらの相関係数がどのように機能するかを説明します)。しかしその前に、Fandango変数を負の参照として選択することを簡単に正当化しましょう。

ファンダンゴのユーザーは映画が大好きです

この選択の理由の1つは、ファンダンゴの映画のレイティングの分布が通常のレイティングの分布から最も遠く、映画のレイティングスペクトルのより高い部分に向かって明らかな偏りがあることです。

もう1つの理由は、ウォルト・ヒッキーの分析によって残されたファンダンゴ周辺の疑惑の雲です。2015年10月、彼も同様の分布に戸惑い、ファンダンゴのWebサイトでは、数値の評価が常に最も近いものではなく、次に高い半星に丸められていることを発見しました(たとえば、映画の平均評価は4.1です。 4.0ではなく4.5つ星に丸められています)。

Fandangoチームは、偏った評価システムを修正し、評価ロジックはWebサイトの「ソフトウェアの不具合」であり、モバイルアプリの偏りのないシステムを指しているとHickeyに伝えました。(これについては、Hickeyの記事を参照してください。)調整により、いくつかの統計パラメーターが改善されましたが、Fandango変数を負の参照として使用しないように説得するには不十分でした。

変更は次のようになります。

それでは、Fandangoを拡大してみましょう。

メタスコアとIMDBレーティングの間で、ファンダンゴレーティングとの相関が最も低いのはどれですか?

ファンダンゴの評価との相関が最も低いのはメタスコアです。それは持っていピアソンのRのIMDBの評価は0.63の値を有し、一方、ファンダンゴに関して0.38の値を。

さて、これをすべて説明しましょう。

2つの変数が変化し、異なる値をとると、両方の変化に対応するパターンがある場合、それらは相関します。相関を測定するということは、単にそのようなパターンがどの程度あるかを測定することを意味します。

この測定を実行する方法の1つは、ピアソンのrを計算することです。値が+1.0の場合、完全な正の相関があることを意味し、値が-1.0の場合、完全な負の相関があることを意味します。

変数が相関する程度は、ピアソンのrが0に近づくにつれて、負の側と正の側の両方から減少します。

これをよりよく視覚化しましょう:

ここで、上記の抽象化をコンテキストに入れるために、2つの評価タイプ(たとえばFandangoとIMDB)の値がどのように変化するかを比較すると、両方の変化に対応するパターンがどの程度あるかを判断できます。

上記の相関係数を考えると、FandangoとIMDBの間には、Fandangoとメタスコアの場合よりも大きなパターンがあります。両方の係数が正であるため、相関は正であると言われます。つまり、ファンダンゴの評価が上がると、メタスコアよりもIMDBの評価も上がる傾向があります。

言い換えると、Fandangoの特定の映画のレーティングについて、メタスコアはIMDBのレーティングよりも異なる可能性が高くなります。

評決:Metacriticのメタスコアを使用する

全体として、映画の評価を探しているときはいつでもメタスコアをチェックすることをお勧めします。これがどのように機能するか、そしてその欠点です。

一言で言えば、メタスコアは、評判の高い評論家からの多くのレビューの加重平均です。Metacriticチームはレビューを読み、それぞれに0〜100のスコアを割り当てます。スコアには、主にレビューの品質とソースに基づいて重みが付けられます。あなたはここで彼らの評価システムについてもっと見つけることができます。

ここで、メタスコアのいくつかの欠点を指摘したいと思います。

  • 重み付け係数は機密情報であるため、各レビューがメタスコアでどの程度カウントされているかを確認することはできません。
  • Metacriticが作成された1999年より前に登場した、あまり知られていない映画のメタスコアを見つけるのは難しいでしょう。
  • 主な言語が英語ではない最近の映画の中には、Metacriticにリストされていないものもあります。たとえば、ルーマニアの映画Two Lottery Tickets(2016)とEastern Business(2016)は、IMDBに掲載されているものの、Metacriticには掲載されていません。

もう少し言葉

要約すると、この記事では、映画の評価を探す場所について1つの推奨事項を示しました。私は2つの議論に基づいて、メタスコアを推奨しました。その分布は最も正常なものに似ており、ファンダンゴの評価との相関が最も低いということです。

ここに示すように、記事のすべての量的要素と視覚的要素はPythonで再現可能です。

読んでくれてありがとう!そして、幸せな映画鑑賞!