【小特集04】放射線疫学の課題:マーケティングの観点から

投稿者: | 2018年7月3日

『市民研通信』第46号 小特集

第76回日本公衆衛生学会総会 シンポジウム6
疫学研究の意義とその活用を検討する-放射線に関連した労働者の健康を守るために-
2017年10月31日(火)13:30~15:00第8会場(かごしま県民交流センター3F大研修室2)

報告ならびに発表者による論考(4)

放射線疫学の課題:マーケティングの観点から

濱岡豊 (慶応大学商学部)  
hamaoka@fbc.keio.ac.jp

PDFはこちらから

はじめに

 福島原発災害以降、放射線被曝の問題が重要化している。筆者は修士課程では原子力工学を学んだが、その後、研究分野を変更し、マーケティング・リサーチなどを大学で教えている。マーケティングでは、例えば広告を増加した場合に、売上が増加するのか?といった問題をデータ分析によって明らかにしている。
 福島核災害以降、「100mSv未満の線量なら発がんリスクなし 」「低線量域では、被ばく線量が約 150 mGy あたりから統計学的に有意ながん罹患リスク増加がみられている。 」といった説明がされてきた。
 データ分析は筆者の専門分野なので、どのような分析が行われるのか、放射線疫学に関する論文をよみ、公開されているデータを用いて再分析を行ってきた。放射線疫学にはいくつかの問題があるが(濱岡 2015a)、本稿では、個人データを集計して分析すること、サンプルを限定して推定することの問題を紹介する。そして、原発従業員の個票データを用いることによって、集計したデータでは検出できなかった被曝の影響を検出できることを示す(濱岡 2015b)。統計学に関する内容も含むが、詳細に説明すると読みにくくなるため、かなりいい加減に記述する。統計学の知識のある方は自分で補足しながら、また知識のない方は統計学の本を参考にして頂きたい。

マーケティングにおけるデータ分析の例

 疫学よりもマーケティングの方が身近な話題なので、それからはじめよう。10店舗の広告費と売上高の仮想例を図表 1に示した。このデータについて、広告費を横軸、売上高を縦軸にプロットした(図表 2(a))。二つの変数には右上がりの直線的な関係があることがわかる。回帰分析という手法は、測定された二つの変数xとyに次式のような直線的な関係があることを想定して、データにもっともよくあてはまるように、二つのパラメータαとβを推定する手法である。

y = α + β x

 ここでαは「切片」とよばれ、広告費xがゼロの場合の売上高yを意味する。βは直線の「傾き」を表し、広告費が1単位、(ここでは百万円)増加したときの売上高の変化分を意味する。上式でβ=0とすると、y=αとなり、yはxと無関係に一定の値αとなる。このように、βがゼロか否かは、xとyの関係の有無を表す重要な意味をもつ。このため、β=0を帰無仮説として統計的検定を行う。
 図表 2(a-1)には、回帰分析の推定結果を示した。傾きのパラメータの推定値は0.593となっている。正の値が得られているが、わずか10店舗のデータから推定したので、誤差を考慮して結論付ける必要がある。そのための統計的検定には表にあるt値やP値が用いられる。サンプルサイズに依存するのだがt値の絶対値が2よりも大きければ、P値が0.05よりも小さくなり、β=0という帰無仮説を棄却することが多い。
 ここでのt値は26.59となっており、2よりもずっと大きくP値も0に近い。このため、β=0という(帰無)仮説は棄却される。つまり推定された0.593は0ではないといえることになる。つまり、広告費が百万円多い店は、売上高が0.593億円高いといえる 。この結果を踏まえて、マーケティング担当者は広告を増加させるという意思決定をすることになる。

データのカテゴリ化による問題

 ここまでの分析は店舗レベルのデータをそのまま用いて分析したが、次のようにデータを加工して分析するとどうなるだろうか。つまり、広告費については、「5百万円未満」「5百万円以上、1千万円未満」「1千万円以上、2千万円未満」「2千万円以上」に4区分する。同様に売上高については「3億円未満」「3億円以上、10億円未満」「10億円以上」の3区分とする。
 図表 1(b)には、このようにカテゴリ化したデータを、図表 2(b)には、これの散布図を示す。生のデータと比べると直線的な関係がボケていることがわかる。図表 2 (b-1)には、このデータを用いた回帰分析の推定結果も示した。傾きのパラメータは0.448となっている。t値は4.93と2を越えP値も0.001であり、β=0という帰無仮説は棄却される。ただし、t値は生のデータを用いたときの26.59と比べると大幅に小さくなっている。このように生のデータをカテゴリ化すると、データがもっていた情報が失われ、変数間の有意な関係を検出しにくくなるのである。
 なお、ここでは広告費については4区分、売上高については3区分としたが、いくつの区間に区分するのか、さらに区間の幅をどう設定するのかといった恣意性の問題もある。

データを限定することによる問題

 前節ではすべてのデータを用いたが、一部のデータを用いるとどうなるだろうか。直感的にはサンプルサイズが小さくなるので、変数間の影響を検出しにくくなることが予想される。図表1のデータについて、広告費の少ない5店舗のデータ、つまり図表 2(a)の左隅の5点のみを用いて同様に推定した。
 図表 2(a-2)に示すように、傾きの係数は0.413、t値は2.53とさらに小さくなった。この場合P値は0.05つまり5%よりも大きいので、β=0という帰無仮説は5%水準では棄却できないことになる。なお、カテゴリ化したデータで同様に分析したが、推定自体が不可能であったため、結果は示してない。これは図表1(b)で、広告費が少ない4店舗(店舗1,3,6,8)のデータは広告費5億円未満、売上高3億円未満と同じ値となり、直線を引けないためである。このように、サンプルを限定することも変数間の関係を検出しにくくするのである。

…………

【続きは上記PDFでお読みください】

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です