石橋を叩きたいちびたか

書評したり、旅したり、つぶやいたり。

【RCT・A/Bテスト】世の中は怪しいデータ分析に溢れている!?~正しい因果関係の見抜き方①~

 どうも!ちびたかです!

 近年注目を集めているRCT(ランダム化比較実験)・A/Bテストについて、皆さんはご存じでしょうか?

f:id:Chibitaka:20190521120702p:plain

 

 RCT(ランダム化比較実験)・A/Bテストについて既にご存じの方も多くいらっしゃると思いますが、深く突き詰めると、その長所・短所があやふやになっているのではないでしょうか?

ご存じでない方には理解がスムーズになるように、すでに知っているよという方には、より深く理解してもらえるように説明していきます

ですが、RCT・A/Bテストについて1つの記事でわかりやすく解説しようとすると、とんでもなく長くなってしまうので、このシリーズを小分けにして解説をします!なので、読者登録をしてもらわないと次の説明ができなくなってしまいます💦

あっ、そうだ!Twitterを始めたので、フォローしてもらえると次回の記事公開に気づけると思うので、2つのうちどちらか1つをお願いします!

Twitterはこちらから☞ちびたか@chibi3monkeis

目次

世の中は怪しいデータ分析で溢れている!?

さてさて少し前置きが長くなりましたね。。。ここからが本題です。

本題と言っても難しい話をするわけではありません!

この記事の目的は、読んでもらっている皆さんに「怪しいデータに騙されない!」状態になってもらうことです。なので、数式も抽象的な話も出てきません!

 

「あなたは占いを信じますか?」

突然ですが、占いのハナシ

朝の星占い・雑誌に載っている占いコーナー、街角の占いの館などなど、意外と僕たちの生活の周りには占いが身近に存在しています。

朝の星占いが上位であれば、なんとなくうれしい気持ちになるし、低ければ、それはそれなりに気が引き締まりますよね。。。

あなたはどうですか?占いは信じますか?まあ、これは人それぞれですね♬

 

ですが、占いを「本気で」信じている人ってどうでしょうか。。。

「今日の占いは〇〇とあるから、必ず〇〇になる!!!」

と言っている人を見かけたら、さすがにこの人やばいなと思いますよね。

このように、占いというのは、無意識的かもしれないですが、あくまで気休めという事を分かったうえで楽しむものです。

そこに絶対的根拠などないと皆分かっています。

 

しかし、残念なことにデータ分析の世界では、このような事故が頻繁に起こっていしまいます。。。

 

 信用できるデータ分析と怪しいデータ分析の見分け方

世界がデータ社会になっていくにつれ、データを使った分析がどんどん増えてきています。例えば、会社の営業戦略の指針決めから、ゲーム攻略まで幅広く使われていますね。データ分析が有るのと、無いのとじゃ効率や簡単さが大きく変わってくるぐらい、データ分析というものは便利です!

でも、、、

データ分析では、『原因』『結果』を取り違えたり全く関連性がないのに、あたかも関連性があるかのように見せてしまうことが、よくあります。

村人A「どういうことか全然わからないよ!!!」

ちびたか「もちろん、これだけでは分からないと思います。

     下の例を見てみましょう♬」

例えば

  1. 高層マンションの上の方のの階に住む女性は不妊率が高い
  2. 夜寝ているときに電気をつけっぱなしにしていると近視になる

という、実際の統計があります。

ですが、結果から言ってしまうと、

「高層マンションに住んでいるから」→「不妊率が上がる」

「電気をつけっぱなしにしているから」→「近視になる」

という原因と結果の間には一切の関連もないという事が研究で明らかになっています。

つまり、因果関係がないという状況です。

勘の良い方は気づかれたかもしれませんが、1・2はただの統計であり、因果関係があるわけではないのです。。。

下の単純化した例で、少し深く考えてみましょう!

【図解】アイスクリームの売り上げと広告量の関係

突然ですが、あなたは大手アイスクリームメーカーのA社の広告担当を任されることになりました。A社は昨年からweb広告に力を入れ始め、下のようなデータが得られました。 (以下の話は半分実話です)

f:id:Chibitaka:20190521201355p:plain

売り上げと広告量

アイスの売り上げが、web広告量に比例して上がっていますね。

ここで、「よし!ならば、広告をより増やそう!!!」と考えるのが自然な流れです。

 

ですが、ここがデータ分析の罠!!!

 

実際のところ、アイスの売り上げが伸びた理由は広告ではなく、気温でした。

f:id:Chibitaka:20190521202129p:plain

本当の理由

「昨年に比べ、今年は暑かったから」→「売り上げが伸びた」

×「広告量を増やしたから」→「売り上げが伸びた」

という結果になってしまいます。なので、A社がどれだけ頑張って広告に力を入れたとしても、それが売り上げに与える影響は不明です。もし、あなたが広告量を増やすという判断をしていたら、A社は大損害を被っていたかもしれません。

 

そんなの何でもありじゃん!←それが問題っ!!

鋭い方は「いやいや、そんなの作り話だから何とでも言えるじゃないか!」と思うことでしょう。

 

その通りです!

 

なんとでも言えてしまうことが良くないことなんです。アイスクリームの問題に関しては、もしかしたら急に国全体の経済が上向きになって、家計のお財布のひもが緩んだから、売り上げが伸びたのかも知れません。他にも、同じ業界の大手メーカーが潰れて、その分の需要がたまたま回ってきたとか、某人気映画でA社のアイスに似たものが出てきただけかもしれません。

このことを言っていけば、きりがないのが分かりますか?

これが問題点です

(この問題に関して、専門用語があるのですが、ここでは覚える必要がないので割愛です。)

なので、もし下のようなデータを見ても冷静に考えるようにしなければいけません

f:id:Chibitaka:20190521203638p:plain

 

ここで、またギモンが発生。。。

それはどんなものでしょう。考えてみてください。

 

正しい因果関係の見抜き方ってどんな方法?!

ここまで読んでくださっている方は、データ分析を見ても冷静に見極めないといけない」と、データにダマされることはもうありません!ならば、その次のステップです。

それは、

「いかにして因果関係を見抜くか」

です。

 正直、これは非常に難しい問題とされてきました。

これまでは、影響を与えうる全ての条件を洗い出して計算していく。という片っ端から気合で頑張る!!!みたいな方法しか存在していませんでした。しかし、これには限界があります。

ここで登場するのが、、、

CRT(ランダム化比較試験)・A/Bテスト

です!詳しく説明したいんですが、、、

今回はこれ以上書くと長くなるので、CRT・A/Bテストについて詳しいことは次の記事でっ!

ですが、ガマンしきれないので、少しだけお話しすると、

CRT・A/Bテストは上の因果関係に関する問題を全て解決してしまいます!!!

研究者からすれば、夢のマジックツールなわけです。

ですが、CRT・A/Bテストにも弱点があって、それを解決するためには、、、、

 

これ以上話すと本当に止まらないので、次の記事を見に来てください!(切望)

冒頭にも述べましたが、読者登録・Twitterのフォローをしていただけると、次の記事がアップされ次第、カンタンに確認することができます!!ぜひお願いします!

Twitterはこちらから☞ちびたか@chibi3monkeis 

下に参考にした本を貼ってあります。この本めちゃめちゃ面白いので、興味がある方は購入されてみてください!!ホントにおすすめです! 

【中古】 データ分析の力 因果関係に迫る思考法 光文社新書878/伊藤公一朗(著者) 【中古】afb

価格:548円
(2019/5/20 22:34時点)

 

データ分析の力 因果関係に迫る思考法/伊藤公一朗【1000円以上送料無料】

価格:842円
(2019/5/20 22:36時点)

 電子書籍版はこちらから!

データ分析の力 因果関係に迫る思考法【電子書籍】[ 伊藤公一朗 ]

価格:842円
(2019/5/20 22:38時点)

励みになるので、下からスター・読者登録・ブクマ・SNSお願いします!!

コメントもぜひどうぞ!