以前の記事で親が東大卒のときに子供が東大に合格する確率を計算した。結果は、両親ともに東大卒で、さらに確率を大きく見積もれば、子供が東大に合格する確率は40%程度になった。ただしこれは東大理3以外を受験する場合の数値で、東大理3を受験する場合は16%になる。

一方、佐藤ママのニックネームで知られる佐藤亮子氏は、子供4人を全員東大理3に合格させたことでメディアに注目され、教育方法に関する著書を多数出版している。ただ合格確率を高めに16%と見積もっても、子供4人全員が合格する確率は0.07%にすぎない。ということは佐藤ママは単に運が良かっただけなのだろうか。ベイズ推定で計算すると必ずしもそうではないことが分かる。子供4人を東大理3に入れるのは非常に難しいので運も重要なのは確かだが、推定結果からすると、佐藤ママ夫妻の教育能力は非常に高いし、そのうえ夫妻の遺伝的な能力(の期待値)は東大生の平均よりも高い。

行動遺伝学

行動遺伝学では、学力を遺伝要因と環境要因に分割することができる。例えば、遺伝的な能力によってテストの点が平均よりも+5上がり、環境要因によって+3上がるなどのように。

学力において、遺伝の影響度である遺伝率は60%、親がコントロールできる共有環境(家庭環境)の影響度は20%程である。遺伝で決まる部分は、いわゆる地頭といえる。家庭環境で決まる部分は、親が直接勉強を教えることや、塾に通わせたり、勉強のモチベーションを持たせることなど、全ての環境を含む(ここではこれを教育能力と呼ぶ)。

ベイズ推定

現在分かっている情報は、(1)佐藤ママの夫(佐藤パパとする)は東大文学部卒、(2)佐藤ママは津田塾大学卒、(3)4人の子供が全員東大理3に合格、である。

この情報をもとに、学力に関する佐藤ママ夫妻の遺伝的能力と教育能力をベイズ推定し(計算の詳細は下の方)、遺伝と環境のそれぞれにおいて、同年代の相対的な順位という意味での偏差値を求めると

各能力の確率分布

遺伝的能力の期待値は、偏差値で表すと佐藤パパが79(上位0.17%)、佐藤ママが71(上位1.8%)。夫妻の教育能力の偏差値は、期待値で76(上位0.6%)となる。

これから分かるように夫妻の遺伝的能力、教育能力は非常に高い。佐藤パパの遺伝的能力が佐藤ママより上である可能性が高いのは、佐藤パパが東大卒である情報を反映している。情報が限られているので、各偏差値は図のような不確定さがある。

上の結果をもとに、子供が東大理3に合格する確率を計算すると

子供の合格確率の確率分布

子供の合格確率の期待値はほぼ50%となる。ただし情報が限られているため、確率分布の裾は広い(合格確率の95%信頼区間は17%~85%)。"確率の確率"が出てきたが、ベイズ推定の基礎でよく出てくる、コインを投げるときに情報が足りなくて表が出る確率が不確実になっている状況と同じだ。子供が4人とも合格する確率の分布は下の図のようになる。

4人の子供が全員合格する確率の分布

4人とも合格する確率の期待値は12%、中央値は6.6%、95%区間は0.07%~52%。上のように両親の遺伝的能力、教育能力がともに申し分なく高くても、子供が4人とも合格する確率の期待値は12%と低く、それなりに運も良かったといえる。ただし、夫妻の遺伝的能力と教育能力が、不確定な範囲のうちの高い方であったならば、子供4人全員が合格する確率は52%ほどに上がる。50%もあれば4人全員合格したのは奇跡やまぐれの類ではなく、当然の結果と言えるかもしれない。
夫妻の遺伝的能力の高さ
計算によると夫妻の子供が東大理3に合格する確率の期待値は50%となり、最初に両親が東大卒のとき子供が東大理3に合格する確率が16%、と書いたのと矛盾していると思うかもしれないが、16%というのはあくまで東大卒の男女がランダムに交配したときの子供の合格確率である。佐藤ママ夫妻の遺伝的能力(の平均)は上位0.6%となり、東大生夫婦の平均より上なのだ*1。東大に入るには学力の上位1%弱が必要だが、東大生の遺伝的能力は、平均すると上位1.7%程度となり学力より順位が低くなる。統計的には、東大生の多数派は遺伝的な能力が上位1%に入らないが、育った環境が良かったため合格できたのだ(一種の平均回帰)。

佐藤ママ夫妻が養子を育てた場合の合格確率

佐藤ママ夫妻の教育能力は非常に高いという推定結果となったが、他人の子供を育てた場合に東大理3に合格させられるだろうか。あるいは病院で子供を取り違えた場合と考えてもいい。日本人の子供の中からランダムで選んだ子を育てる場合、その子が東大理3に合格する確率は、期待値が2.2%、95%区間が0.2%~8%となる。夫妻の実子の合格確率の期待値が50%だったことを考えると、確率は50%→2.2%と大きく下がっている。さらに実子でない子供4人を育てたとき、全員が理3に合格する確率は、期待値が0.0006%、95%区間が0.000000002%~0.004%で、ほぼありえない確率となる。佐藤ママの教育能力が非常に高いことは間違いないが、東大理3合格となると、生まれ持った才能(遺伝子)が重要になると言わざるを得ない。

計算

記事の結論は以上で、ここから先は計算方法の詳細について。
以前の記事と同じように、学力が一定値に達したら東大に合格とする。2019年の東大の定員は3060人で、この年の18歳人口は117万人。東大に合格するポテンシャルがあっても他の大学を受験する人を考えると、学力が学年の上位1万人に入れば東大に合格できるとする(上位0.85%、偏差値74)。理3の場合、定員は97人で、こちらも合格するポテンシャルがあっても他学部・他大学を受験する人を考えると学力が上位1000人に入れば合格とする(上位0.085%、偏差値81)。この偏差値は予備校が出している数値とは定義が違うので注意。

計算の前提として学力の遺伝率(学力のバラツキのうち遺伝で説明できる割合)は60%、学力の共有環境の割合(学力のバラツキのうち同じ家庭で育ったことの環境効果で説明できる割合)は20%とする。遺伝率はh2、共有環境の割合はc2の記号を用いる。

推定する変数は、学力に関する佐藤パパの遺伝的能力Gf、佐藤ママの遺伝的能力Gm、夫婦の教育能力Cの3つとする。推定モデルには[学力P]=[遺伝G]+[共有環境C]+[非共有環境E]という行動遺伝学の標準的なモデルを用いる。

ここで共有環境Cは、家庭環境による学力の押し上げであり、佐藤ママと佐藤パパの受けた教育による学力の押し上げ量の平均が、そのまま子供に伝わると仮定する*2

事前分布

事前分布は、佐藤パパが東大法学部卒、佐藤ママが津田塾大学卒という情報をもとに決める。
佐藤パパの遺伝的能力Gfの事前分布は、東大生の遺伝的な学力の分布とし、佐藤ママの遺伝的能力Gmの事前分布は、津田塾大学生の遺伝的な学力の分布とする。夫妻の教育能力Cの事前分布は、東大生と津田塾大学生の家庭環境による学力の押し上げ量の平均の分布とする*3

計算は、日本人全体の学力Pの分布を平均0、分散1に正規化して実行する。

事前分布

Gf,Gm,Cの事前分布はいずれも正規分布で、Gfの平均がμf×h2、Gmの平均はμm×h2、Cの平均が(μf+μm)/2。Gfの分散は[1-kf×h2]h2、Gmの分散は[1-km×h2]h2、Cの分散は[2-(kf+km)*c2]/2×c2。

ただし[東大生の平均学力]をμf(=2.73)、[津田塾大学生の平均学力]をμm(=1.53)、[東大合格(理3以外)のための学力の閾値]をtf(=2.4)、[津田塾大合格のための学力の閾値]をtm(=1)とし、kf=μf×(μf-tf)、kf=μm×(μm-tm)とする。

これらの式と値を出すには正規分布と量的遺伝学の知識が必要*4

上のμfは、偏差値74以上(tf=2.4以上)の人を抽出したときの平均偏差値としてすぐに求まるが、[津田塾大学生の偏差値の平均]μmは簡単には求まらない。津田塾大学はかつて予備校発表で偏差値70の学部もあったそうだが、東大に必要な全科目の偏差値という意味からすると定義が異なるため比較できない。ここでは「津田塾大学生の偏差値の平均μm」を「偏差値60以上(tm=1以上)の全ての人を抽出したときの平均偏差値」として計算する。やや不正確といえるが、この数値を変えても結果はあまり変わらないので問題ない。

尤度

子供が4人とも東大理3に合格するという情報を尤度として使った。

尤度

具体的には尤度を CCDF([t_child - (Gf+Gm)/2-C] / √(1-h2/2-c2))^4とする。
t_child(=3.1)は東大理3合格の閾値。CCDFは標準正規分布の相補累積分布関数(上側確率)。4人全員合格のため4乗している。横軸が東大理3合格の閾値3.1付近にくると合格確率が大きくなり、尤度が急激に立ち上がってくる。

事後分布

事後分布の推定はExcelでは計算できなかったのでRStanでMCMCを回した。

事後分布

事後分布は事前分布を右にスライドしたような形になっている。
この結果の横軸を変換して、偏差値と同じように各能力の相対順位が分かるようにしたのがこの記事の最初の図である(再掲↓)。

各能力の確率分布

具体的にはGfとGmは横軸を10/√h2倍して50を足し、Cは横軸を10/√c2倍して50を足している(ヒストグラムを描いているため縦軸も変わっているように見える)。

子供の合格確率

得られたGf,Gm,CのMCMC列から以下を計算すると子供の合格確率の分布が求まる。
CCDF([t_child-(Gf+Gm)/2-C] / √(1-h2/2-c2)) 
4人とも合格する確率はこの4乗になる。(図は上の方に記載した)

また上には記載しなかったが、MCMC列の1値ごとに平均(Gf+Gm)/2+C、分散1-h2/2-c2の乱数を1つ作るとそれが子供の学力の予測分布となり、ヒストグラムを描くと

子供の学力の予測分布

図は横軸を平均50、標準偏差10として偏差値に変換している。だいたい50%の確率で理3ボーダーの偏差値81を超えることが図から分かる。

実子ではなく養子の場合、養子が日本人の子供からランダムに選ばれたとすると、子供の合格確率はCCDF([t_child-C] / √(1-c2))  となり、子供の学力の予測分布はMCMC列の1値ごとに平均C、分散1-c2の乱数を1つ作ることで求められる。

子供の学力の予測分布(養子の場合)

(参考)無情報事前分布の場合

上の計算は、佐藤パパと佐藤ママの学歴の情報を事前分布としたが、その情報がない場合は無情報事前分布を使う。参考に無情報事前分布を使ったときの結果を示す。上でμf=μm=kf=km=0とした場合に等しい。

各能力の確率分布(無情報事前分布)

夫妻の学歴の情報がないので、夫妻の遺伝的能力の推定は同じになる。

事前分布(無情報事前分布)

↑ 佐藤パパのグラフ(赤線)は佐藤ママのグラフ(青線)の下に隠れている。

事後分布(無情報事前分布)

子供の学力の予測分布(無情報事前分布)

子供の合格確率の確率分布(無情報事前分布)

4人の子供が全員合格する確率の分布(無情報事前分布)

子供が東大理3に合格する確率の期待値は40%。
子供が4人とも東大理3に合格する確率は、期待値が6%、中央値が2%、95%信頼区間が0.01%~36%となる。

関連記事

親が東大卒のとき、子供が東大に合格する確率
東大生が人生を赤ん坊からやり直したときに東大に合格する確率:行動遺伝学的な計算


*1:「佐藤パパが上位0.17%、佐藤ママが上位1.8%なので、平均するとその中間である上位0.99%」とはならない。

*2:ただし平均をとるときに分散を1/2にしない。

*3:ただし平均をとるときに分散を1/2にしない。

*4:ファルコナー 『量的遺伝学入門』(蒼樹書房、1993年)11章など