伊藤言の研究・教育活動について
2015/03/05 by Gen

SPSP2015で情報収集した役立つツールその他

[2015/03/05更新]

 

 社会心理学系の最大規模の国際学会であるSPSPにはかれこれ毎年参加しているわけですが、つい先日も参加してきました。SPSPではアメリカでスタンダードになりつつある方法論(考え方)は何なのかについての情報収集、役立つ新しいツールやプラットフォームについての情報収集、今どこにアテンションが集まっているのかという潮目を感じることが大きな楽しみだったりします。というわけで、今後の研究に役立ちそうな話をいくつかメモしたのでここにまとめておきます。

 

◆研究計画・統計関係

 

・実験を行うとき、1セル(1条件)何人の実験参加者を使うのか?

 社会心理学において平均的な中程度付近の効果量 (d = 0.45) を検出したいとして、1セル(1条件)何人で実験を組み立てれば良いのか?日本の研究室の伝統に従っているとヒューリスティックに1条件15人で組み立てる場合がままあるようですが[要出典]、Simmons et al. (Psychol Sci, 2011; 日本語レジュメ) 論文で述べられているように最低でも1セル20人で実験を組み立てる場合が多くなってきたように感じます。アメリカでは1セル30人が現在もっとも多いヒューリスティックな実験計画の立て方のようですが[要出典]、Alison Ledgerwoodという研究者は、研究室として「特に理由がない場合は(事前に効果量が予測できずに検定力分析を行いにくい場合は)最低1セル50人で実験計画を立てる」というヒューリスティクスを採用してそれなりにうまくいっているようです。

 曰く、1セル20人だと(2条件比較の場合に)小さな効果量を検出できる確率(検定力)は10%以下、中程度の効果量を検出できる確率は34%にとどまるのだけれども、1セル50人だと小程度で17%、中程度で70%の確率だからだとか(ちなみにメタ分析論文によれば2×2デザインの場合は1セル30人で69%だとか;Westfall et al.のSPSP2015における発表スライドより)。「有意差が出なくても研究結果に自信を持てるような研究を組み立てよう」「自分たちのデータを信頼できるものにしてもっと多くをデータから学べるようにしよう」という彼女のメッセージには同意せざるをえません。とはいえ、MTurk等がない日本では実験参加者調達のコストが確実にアメリカよりも高く、現実的には「ざっと1セル30人あたり」がこれからの落し所になるのかもしれません。(あるいは少なくともhuman universalな心理メカニズムを想定できる場合は日本からMTurkを用いてアメリカ・インドの参加者を相手に1セル50人程度の実験も併せて行って自らの研究知見をメタ分析した方が良いのかもしれません)

 

・検定力分析 (power analysis)

 とはいえ、先行研究から効果量についてある程度予測が可能な場合、検定力分析を行う方が良いでしょう。検定力分析について、新しいツールが登場しているようです。検定力分析ではG*Powerが有名だと思うのですが、今回紹介されていたのは、固定効果と変量効果双方を扱える、一般化線形混合モデルにおける検定力分析も可能な(Rを用いた)Webアプリ、PANGEA。実験デザインにおいて、実験参加者数と実験で用いる刺激数の2つのパラメターから検定力を追い求めていくことが可能です(わたしたちはしばしば刺激数が検定力に与える影響について考えずに実験を行ってしまう)。関連するプレゼンスライド等は作者のJake Westfallのサイトからどうぞ。

 その他、”Actor-Partner Interdependence Model”における検定力分析ツールとしてAPIM Powerをメモ。

 

・Sequential Analysisについて

 実験を行って、ある程度人数が集まったら統計的検定にかけて、有意差がまだ出ていないからもう少し人数を足そうとサンプル数をさらに増やしてふたたび統計的検定にかける…この習慣は第1種の過誤 (false positive)の確率を上昇させてしまうため近年「p値のねつ造(p-hacking)」として厳しく非難されてきました (e.g., Simmons et al., Psychol Sci, 2011)。しかし、いくつかの研究室がこの習慣を積極的に利用する”sequential analysis”と呼ばれる手法を取り入れつつあるようです。これは、SESOI (Smallest Effect Size of Interest; 最低限これ以下の効果量ならばダメねという基準)を設定した上でデータを収集するごとに統計的分析を行って、条件間に差が認められそうか(帰無仮説を棄却するか)、差が認められなさそうか(帰無仮説を採択するか)を都度モニタリング可能な手法なようです。見込みがないのに研究を続けるという社会にとっての無駄を防ぐ手法なんだという点をプレゼンターのLakensは強く主張していました。まだ詳細については理解しきれていませんが、今回のSPSPでこのsequential analysisについて扱ったスライドがOpen Science Frameworkに公開されています。論文としては Lakens & Evers (Pers on Psychol Sci, 2014) 、および Lakens (EJSP, 2014) あたりでしょうか。

 

・研究を行う上での妥当なプラクティス

  ある仮説を検証するためにデータを収集して、思うような結果が出なかったので、そのデータの中で(統計的に)結果が出たところをあたかも当初からそう想定していたかのようにロジックを組み替えて仮説検証的な論調で議論する…近年厳しく非難されているp-hacking(p値のねつ造)の習慣のひとつです。この悪しき習慣をやめよう、というのは今年の学会においても相変わらず大きなメッセージでした。ある統計的な結果を得たとして、それが(当初想定されていたような形で結果が出たという意味において)検証的 (confirmatory) なものなのか、それとも(当初想定されていたのとは別の形で結果が出たという意味において)探索的 (exploratory) なものなのか、をきちんと区別して明示しようということです。このp-hackingを防ぐために提唱されていた望ましい習慣はシンプルなものでした。1.十分な検定力を確保した上で研究デザインを組み、データ収集前に想定していた仮説が検証された場合は自信を持っていい (high confidenceな)研究知見である。2.当初想定していた仮説とは異なる形で結果が出てきた場合は自信を持ってはいけない (low confidenceな) 研究知見である。3.high confidenceな研究知見の場合はpublishなど先の段階に進め。low confidenceな研究知見の場合は、単純に、今度は(予想とは違って得られた)その仮説を仮説検証型の研究でreplicateしろ。それによってreplicateされた場合はpublishなどの先の段階へ進め。ここら辺の問題はとかく議論が複雑になって「めんどくさいしいいや」となりがちなので、high confidenceかlow confidenceか、というシンプルな二分法で考えようということです。

 研究開始前に、実験計画、仮説、分析手法を明示してWeb上に明記するpre-registrationの動きが強力に進んでいます。具体的には、p-hackingを防ぐために、1.研究の方法、2.仮説の方向性、3.検定力分析の結果・ターゲットとなる参加者数・データ除外の基準、4.仮説検証型、あるいは探索型のデータ分析の計画の4つを事前に明記しておくことが望まれているそう。いわば、研究者は自分の都合の良いようにバイアスがけてデータを分析する(それは仕方がない)ので、制度として人間である研究者のバイアスを縛ろうということです。少なくともわたしたち日本人のレベルにおいて役立つものとして、(今回紹介されていましたが)研究室単位でLab Archive Form (by Ledgerwood) を記入する習慣が挙げられるのではないでしょうか。

 なるほどなと思ったのは、”build contingency to your pre-registration!” というLedgerwoodのメッセージ。つまり、もしα係数が0.6を超えていたらA分析をするけれど、それを下回ったら探索的因子分析を行ってしかじか…という風にpre-registerする事前の分析計画に偶然(条件分岐)を許す形でregisterせよということです。

 

・研究を評価する側(incl. 査読者)に求められること

  p-hackingを防ぐために厳しい基準を研究者に求めるならば、研究を評価する側の認識も同時に変化しなければならない、という問題意識は多くの研究者に共有されているようです。このことに関するプレゼン (by John Banner) で発せられたメッセージはシンプルで力強いものでした。タイトルは ” a reviewers guide to embracing imperfection” (不完全であることを許容するための査読者向けガイド)。簡単に言えば、1.研究で発したいメッセージの核となる部分でデータがメッセージを支持しているかどうかを吟味せよ(メッセージの核とならない部分でのデータの不完全さを許容せよ)ということ、そして2.研究を評価する側もメタ分析的思考で研究を評価せよ(ひとつの実験結果などに不完全な部分(例:有意差なし)があったとしてもそのことで研究を無価値だと評価するな。すべての実験がすべて完璧に仮説をサポートすることを求めるな。論文の中に含まれる複数の実験結果をトータルでメタ分析したときに、そのメタ分析の結果が仮説をサポートするならばそれで論文をよしとせよ)ということです。ひとつの論文内でのメタ分析はこれまで以上にスタンダードなプラクティスになっていくのでしょう。ここら辺の議論は Manner (Pers on Psychol Sci, 2014) にまとめられているようです。

 

◆日常生活における認知についての研究関係

 

 実験室で厳密に統制された環境下で心を探るアプローチが相対的に減少し、日常の中での人々の認知を探る方向の研究が大幅に増えた印象を受けました。もちろん、これは多くの人がスマートフォンを持つようになり研究者がローコストで日常での人々の振る舞いについてのデータを収集できるようになったからでしょう。

 ここからは完全に私見ですが、次のような潮目を強く感じました。1.人々の心について実験室で厳密に探るならば、「構成概念」というあやふやなもので心のメカニズムを説明することをなるべく避けるために、神経科学的に/biologicalにgroundedした形で議論可能な生理学・神経科学ベースの手法を組み込んだ研究をせよ(例:「行動レベルの独立変数の操作→神経科学的変動→行動レベルの従属変数の変化」のような媒介分析的研究)。2.もしそのような研究を行わないならば、反応時間や構成概念ベースで心のメカニズムを探る研究を行うよりも、現実世界に飛び出して、現実世界におけるどのような独立変数(例:ある人の1年間の募金額)と、現実世界におけるどのような従属変数(例:Facebookでの友人数)が結びついているかを、(なかばビッグデータという形で)モデリングせよ。中途半端に実験を行って構成概念レベルで「心のメカニズム」を議論するよりも、現実世界におけるある変数と別の変数の結びつきの関数を明らかにしてやった方が良いという(技術の発展に裏打ちされた)行動主義的アプローチの復権。

 その中でも、有用なツールがいくつか紹介されていたのでメモしておきます。

 

・(自己報告式ではない)経験サンプリング的手法関連 (mobile sensing)

 1日のうちランダムな時間に5回シグナルが7日間送られてくる…シグナルが送られてくるたびに参加者はボタンを押して回答をする…「あなたはいまどんな気分ですか?」「誰と一緒にいますか?」…このような古典的な経験サンプリング法が新たな脚光を浴びていますが (e.g., Hofmann et al., Science, 2014)、今回のSPSPでホットだったのは「どんな気分ですか?」のような自己報告式のデータだけに頼らない経験サンプリング的手法でした。考えてみればスマホには録音機能も録画機能もGPSも加速度センサーも備わっているわけで、これらを利用すれば経験サンプリング的手法で「行動データ」も取ることが可能になるわけです。たとえば、30分に1回30秒程度自動でスマホが音声を録音してそのデータを研究者がコーディングすれば、それは客観的な行動データになるでしょう。GPSデータを利用すれば社会的ネットワークについての分析が可能になるでしょう。”What is it to be like someone else?” (誰か別の人になりきるってどんなこと?) また、これら「行動データ」と従来の経験サンプリング法的な自己報告式データを組み合わせることで、心理世界と物理世界のマッピングをより的確に行うことが可能になります。自己報告式測定の比重が減れば、参加者の負担が減るメリットも大きいかもしれません(データの自動収集)。このような研究手法で「人か状況か」問題に巧みなひとつの回答を与えた研究 (by R. Sherman) はきわめて興味深かったのですが、ありがたいのは、この「行動データ」をスマホで取るための研究計画に役立つツールやプラットフォームをすぐに作ってしまうところ。というわけで、まだあまりいじれていないのですが、メモとしていくつかをご紹介。

 

・・Emotion Sense,  EasyM

研究者がスマホを利用して人々の行動データを測定することを支援するためのツール(プラットフォーム)。特にEasyMが研究支援ツール。現在招待制で私はまだいじることができていませんが、期待が大きいです。

・・Experience Sampler

従来(自己報告式回答)型の経験サンプリング研究を行うためのスマホアプリ(Android & iOS対応)を簡単に作成できるプラットフォーム。シグナルを送信するのではなく、アプリでデータが取れるので、スマホがインターネットに接続されていることを前提としなくて良いし、複雑なデザインを組むことが可能。

 

 最後に。このような形での研究手法に付随する倫理的問題について、「研究に参加する本人についてはインフォームドコンセントで特に問題にならない。問題なのは、研究に参加する人とたまたま一緒にいる(研究について知らない)別の誰かのプライバシーをいかに確保するかだ」とのこと。音声データを匿名性を高めるためにピッチ変換したり、ここら辺の問題について頭を悩ませることが多いそうです。

  •   •   •   •   •