2018年7月14日土曜日

2018.07.14 竹村彰通 『データサイエンス入門』

書名 データサイエンス入門
著者 竹村彰通
発行所 岩波新書
発行年月日 2018.04.20
価格(税別) 760円

● 従来の統計学が想定してなかったのがビッグデータ。そのビッグデータを前にして,統計学は変容を迫られるだろうか。基本的にそれはないようだ。標本の無作為抽出などの技法は依然として効用を失わない。
 著者によれば,国勢調査の実施費用は安い。ポイントカードのポイントは個人情報の使用料。

● 以下にいくつか転載。
 大量観察による集団の安定性の概念は「大数法則」の概念につながっている。大数法則は,大量に観察することにより,平均がその理論値(期待値)に近づき安定することを意味する法則である。(p22)
 人々の集団内のばらつきの背後には,サイコロをなげるような確率的なメカニズムがある。(p26)
 (インターネットの)通信量の増加は,現状では主に動画のオンデマンド配信にともなうものであり,文字情報や静止画像情報の増加はそれほど大きくはない。(p33)
 背の非情に高い父親の息子はそれほど背が高くない傾向がある。(中略)これは「平均への回帰」と呼ばれる現象である。(中略)平均への回帰が何代も続くと,ばらつきが現象していき,やがて身長が平均値に収束してしまうようにも思える。しかしながら(中略)身長の分布自体は世代を通じて安定している。それは,例えば身長が中庸の父親からも,非情に背の高い息子や背の低い息子が育つという,ばらつきを大きくするような変化も同時に起きるからである。(p76)
 他の変数間の見かけの相関を生じさせる要因を「交絡因子」と呼ぶ。相関関数を因果的に解釈する際には,それが見かけの相関でないか,交絡因子としては何が考えられるかについて考える必要がある。(p78)
 学力調査で,ある地域の学力が低いというデータが得られたとしても,それだけではエビデンスとは言えない。学力が低くなる原因や背景と考えられるデータがなければ,学力向上のための意思決定にはつながらない。(p81)
 十分なデータがあれば唯一の合理的な判断ができるという考え方も正しくない。それはデータがあっても将来の不確実性が大きい場合があるからである。(中略)サイコロの目の出方はなげるごとに独立であるから,今までに何度もサイコロをなげたとしても,次の目のことはわからず,どの目も1/6の確率で出るとしか言いようがない。この場合過去のデータには意味がなく,データがあってもなくても不確実性には変化がない。(p90)
 不確実性を扱う理論が確率論である。しかしながら,確率論で扱える不確実性は不確実性の一部であると考えられている。確率論はサイコロの目の出方などのように①起こり得る結果(1から6の目)が最初に網羅されている,②それぞれの結果の確率が与えられている(あるいは十分正確に推定できる),という二つの条件が成り立てば有効である。(p91)
 後知恵に注意すべき理由として,人間はデータから何かのパターンを読んでしまう傾向がある。(p99)
 データに語らせることは重要であるが,データに語らせ過ぎることには注意が必要である。(p100)
 ビッグデータも時代では,個人情報は法律で当然守られる権利ではなく,個人が自身の責任で管理すべきものである。(p106)
 第2次までの人工知能ブームは人間の論理的な思考をコンピュータによって再現するという演繹的なアプローチが主であったが,第3次の人工知能ブームはビッグデータを用いて人間の判断を真似るという帰納的なアプローチが主であり,第2次までとは大きく異なっている。(p132)
 動物が獲物をとらえる際の俊敏な行動にしても,動作の速度などを数値的に計算していては間に合わないであろう。このように自然は計算によって動いているわけではない。人間の脳は神経組織からなる機械のようにも考えられるが,自然の一部でもあり,現在のコンピュータと同じ原理で動いているとは考えにくい。(p135)
 1985年のGray-2のメモリ(RAM)は2GB,2016年発売のiPhone7のメモリも2GBであり,同容量のメモリを搭載している。つまり現在では人々がスマートフォンの形で30年前のスーパーコンピュータをポケットやバッグに入れて持ち歩いているのである。(p150)

0 件のコメント:

コメントを投稿