【RCT・A/Bテスト】ランダム化比較試験って何?~正しい因果関係の見抜き方②~
どうも!ちびたかです!
突然ですが、皆さんはRCT・A/Bテストって知ってますか?シリコンバレーのビジネスでは毎日使われているそうですよ。。。
一体RCT・A/Bテストとはどんなものなんでしょうか?!
この記事は前回の記事とつながっていますが、この記事だけ読んでもしっかり役に立つように書いています!ですが、前回の記事を見てもらえると倍わかりやすい!
目次
軽-く前回のおさらいから!
前回の記事では、「何かの行動から生じる影響は特定しにくい」という事をお話ししました。世の中には怪しいデータ分析が山のように存在するので、そのデータを使って意図的にダマされたり、あるいは自分のデータ分析が意図せずに誰かを騙してしまうようなことが発生しかねません。
なので、データ分析を見たときに、そこに本当に因果関係が確認できるのかを疑ってみよう!
というのがおさらい!!
そして、この因果関係のもつれをRCT・A/Bテストは全て解決しちゃうんです。。
RCT・A/Bテストという最新分析法
結論から簡単に言うと、RCT・A/Bテストとは集団を比較群と介入群に分けて、介入効果の平均値の差を、介入効果とする実験です。
すごく簡潔にまとめるとこうなります。とりあえず今は「へぇー、そんなもんか」程度で大丈夫です!
RCTとA/Bテストは、ほぼ同じ
これまで丁寧にRCT・A/Bテストと表記しましたが、実はどちらとも99%同じ。
詳しく説明すると、
- RCT⇒Randomized Controlled Trial(ランダム化比較試験)
RCTでは、集団を複数個に分けて実験を行い、医療現場で、被験者をランダムに複数のグループに分け、開発した薬と偽薬を投与することで新薬の効果を計測するために使われていることに由来します。
- A/Bテスト
A/Bテストは、ビジネス分野で使われるRCTのことを指します。医療や研究の場面ではなくビジネスの分野で、集団をAとBの2つに分けて検証するすることに由来しています。
ただ呼び方が違うだけなので、以下すべてRCTと表します!
RCTの基本的な考え方
上の説明では、RCTは集団をランダムにグループ化して、介入効果を計測すると書きました。ここで鋭い方なら何点かギモンを抱くかもしれません。
その疑問とは、
- なぜ集団で実験をするのか?
- ランダムにグループ化する意味は?
の二つです。これを順を追って説明していきます。
どうして集団で実験しないといけないの?
どうして集団を対象にするんでしょうか?
それは、「もしも」の計測を可能にするためです。
わかりにくいと思うので、かみ砕いて説明すると、
例えば
「電力価格の引き上げが節電にどれほど繋がるか」という実験を行うとしたら、個人Aさんだけについて調べればいいかもしれません。
ですが、その場合Aさんは2人も存在しないので、介入を行う(電気代を上げる)時期と介入を行わない(電気代の変動なし)時期を分けないといけません。しかし、こんなことをしてしまうと、時期のずれが原因で「果たして本当に電力価格の引き上げが節電に影響したのか」がわかりません。
つまり、このような実験で、介入の効果を調べる際にはAさんの「もしも」のデータがほしいわけです。
同一期間内に
- 介入を受けたAさんのデータ
- 介入を受けなかったAさんのデータ
の2つのデータが必要になります。ですが、そんなことはできません。
なので、ある程度大規模な集団を集めて効果を計測する必要があります。
ちなみに、この「もしも」のデータを、"Counterfactual potential outcome"というんですが、これを日本語で直訳するのは難しいため、わかりやすく意訳すると、「実際には起こらなかった潜在的結果」と呼びます。
ランダムにグループ化することの重要性
ひとまず集団で実験を行う必要があることは説明しました。
お次は、集めた多くの人たちを介入を与えるグループ(介入グループ)と介入を与えないグループ(比較グループ)にグループ分けしなければなりません。
ここでランダムにグループを分けないと下のような問題が出てきてしまいます。
- 介入グループに元々意識の高い人が集まる。
- 電力価格などの家計を圧迫するような実験では、比較グループに入らない人が出てくる。
などなど、いくらでも問題が出てきてしまいます。
このような問題は、介入効果の計測結果を不透明にしてしまうので、RCTでは必ずランダムにグループ分けを行います。
具体的な方法だと、参加者が比較的少なく100人程度の場合は参加者にサイコロを振ってもらってその目によってグループを決めるとか、コイントスをしてもらうとかがあります。
ですが、実験規模が大きくなるとそんなことやってられないので、Excelで参加者のリストを作り、各々にExcelの乱数を振り分ける機能を使って、グループ分けを行う方法があります。
グループの属性の差
ですが、ここまで読んできた中で気づいた方もいると思いますが、
仮にAとBにグループ分けをしたとしても、グループの個性や性別など様々なところに差が出るのではと考えるのが自然です。
これが結果を見てびっくり、実験参加者が増えれば増えるほどAとBのグループの間の差はなくなります!これを各グループの属性はほぼ均等といいます。
気になる方は、北九州市で行われた実験の、依田・田中・伊藤(2017)を参照してみてください。この実験では、電力価格の引き上げが電力消費にどれだけ影響を与えたのかを調べたものですが、各グループの属性の差はほとんど見られませんでした。
RCTを実際に使って成功した著名人・企業
ここまで若干難しい話でしたが、RCTのすごさをわかってもらうには下の話がいいかもしれません。
オバマ元大統領は選挙にRCTを使った!
オバマ元大統領は、選挙期間中に自らの支援金を増やすために、支持者にメールを送り、支援を呼びかけていました。メールを受け取る人が増えれば、支援金も増えるかもしれないので、メーリングリストに加入する人を増やしたいと考えました。そのためには、オバマ元大統領の自身のWebサイトから登録する必要があるのですが、その登録画面に行くまでの画像・クリックボタンをRCTを用いて改善しようとしました。RCTはWEB上でも行うことができるんですね。。。
詳細な内容は下の本からチェックして欲しいんですが、オバマ元大統領は見事RCTを用いてメーリングリストの加入者を増やし、当選を勝ち取ることができたようです。
Googleの青い文字はRCTの結果!?
Googleを検索すると、青い文字が出てきますよね。実はこれRCTの結果選ばれた青色なんです。。。
Googleは、クリック率が最もよくなる文字の色を調べるために、検索結果を表示する際に、ページ訪問者をランダムに分けて、文字の色を変えました。その結果として、現在の青色が選ばれたそうです。
もしGoogleで検索してて、いつもと違う文字の色だったら、それはRCTかもしれませんね。。。
RCTって汎用性がめちゃめちゃ高いんですね!!!
まとめてみた~RCTの強みと弱み~
かんたんにRCTについてまとめてみます!
いいところ
- 因果関係があることを科学的に示すことができる
- 分析手法・結果に透明性がある
悪いところ
- 大人数を集めたり、実験準備をしたりでお金・労力・時間がかなり必要になる。
RCTでは人を集めるのに報酬金を用意したり、計測のための費用、加えて研究を手伝ってくれる人を雇う必要があります。そして、被験者を数年間~数十年間追跡する実験もあるので、多くの時間を要してしまいます。
だからと言って、少人数で実験を行うと、結果の信憑性が低くなってしまいます。
なるほど、RCTはマジックツールである反面、コストが高いんですね。
ですが、この問題を解決してしまう方法があって、、、(まだ続くの!?
いえいえ、この記事はここで終わりです。RCTについてはほとんど説明してしまいました!
このシリーズの続きは、RDデザインについてです!上でも書きましたが、RCTの問題を解決してしまう分析方法なんですっ!
Twitterはこちらから☞ちびたか@chibi3monkeis
下に参考にした本を貼ってあります。この本めちゃめちゃ面白いので、興味がある方は購入されてみてください!!ホントにおすすめです!
【中古】 データ分析の力 因果関係に迫る思考法 光文社新書878/伊藤公一朗(著者) 【中古】afb 価格:548円 |
データ分析の力 因果関係に迫る思考法/伊藤公一朗【1000円以上送料無料】 価格:842円 |
電子書籍版はこちらから!
データ分析の力 因果関係に迫る思考法【電子書籍】[ 伊藤公一朗 ] 価格:842円 |
励みになるので、下からスター・読者登録・ブクマ・SNSお願いします!!
コメントもぜひどうぞ!
読者登録・Twitterのフォローをしていただけると、次の記事がアップされ次第、カンタンに確認することができます!!ぜひお願いします!
下の記事も人気あります!試しにチラッと覗いてみて!