いろいろ読書中
「心の進化を解明する」読書中
6章まで読了。
4/3に図書館に返却する必要があるので、それまでになんとか読み終わろうと必死です。まあ無理そうだけども。しかしまとめた部分以外にも読み応えのあるエピソード満載でおもしろいです。
序論では思考を深めるための障害物リストとして以下のものを上げており、本書ではおおよそこの書かれている順番に出てくる。
- ダーウィンの奇妙な推理(リーズニング)の逆転
- 推理する者なき推理
- 理解力なき有能性
- チューリングの奇妙な推理の逆転
- 盗用する価値のあるデザインとしての情報
- ダーウィニズムのダーウィニズム
- 野性化したニューロン
- 自己複製しようと努める語
- 文化の進化の進化
- ヒュームの奇妙な推理の逆転
- ユーザーイリュージョンとしての意識
- ポスト知的デザインの時代
1章
デカルト的二元論(心と身体)から思考を出発させた時、自分の心に目を向けたところからスタートすると、物理法則などの分析のための枠組みが何も使えず、戸惑うばかりである。生物の心が特権的であるという観点からスタートした時に身動きが取れなくなってしまう現象を本書ではデカルトの重力と呼んでいる。
2章
クリックが<オーゲルの第二法則>で述べているように、「進化は君よりも賢い」かもしれないが、粘り強くリバースエンジニアリングを続け、生物というシステムの解明をしていきたい。
3章
「なぜ?」という言葉には「理由」を問いている以外にも「原因」を問いている場合がある。
- (原因)なぜ惑星が球形か知っていますか?
- (理由)なぜボールペアリングが球形か知っていますか?
惑星が球形であるということそのものには理由はないため、原因を求めているということになる。
この「原因」と「理由」の違いを「いかに生じるのか?」と「何のために?」と表現している。
カブトムシのグループがあり、繁殖に成功したグループとそうでないグループがあったとする。「いかに繁殖に成功したのか?」という答えはでるが、「なぜ繁殖に成功したのか?」というのは通常は答えはない。突然変異により繁殖に重要な差異を作り出せたグループのみ「なぜ繁殖に成功したのか?」という問いに答えが示せる。ただし、その理由はカブトムシは知らないし、知る必要もない。「理由」について理解しようとするのは人間だけなのだろうか。
4章
プログラム化されたエレベーターのように、生物もうまく生命活動を行うための仕組みを持っているものの、なぜそれが有用な行動なのかを理解してはいない。進化は有能な動物を作るが、動物自身がなぜそうなっているのかを知る必要はない。デネットはこの概念を「理解力なき有能性」と呼ぶ
5章
理解力を構成するものとして有用性を4つの段階に区別する。
固定されたデザインを持ち学習は行わないダーウィン的生物。
刺激を受けて特定の行動を強化するようなオペラント条件付けを行うスキナー的生物。さらに世界から情報を取り出し,仮説的行動を事前にテストできるポパー的生物。
最後に抽象的および具体的な思考道具を使いこなすグレゴリー的生物が存在する。そしてグレゴリー型生物は人間だけである、と述べる。
6章
バイトで表現されるような情報理論的な情報と区別して、符号化を必ずしも伴わない一般的な意味での情報を意味論的情報と呼ぶことにする。
シャノンの情報理論により情報を符号化し、送受信を行うことができる。
認知科学についてはDNAのような符号化の仕組みは見つかってはいない
意味論的情報が「(重要な)差異を作り出す区別」であるとすると、「誰にとって重要なのか?」が重要である。必ずしも担い手にとって重要というわけではなく、情報の発信者あるいは受信者にとって重要となる。
- 意味論的情報とは<価値のあるもの>である--誤情報および虚偽情報はこの初期状態の事例の病理的事例か、寄生により悪用された事例のいずれかである
- 意味論的情報は受信者に相対的であって、恣意的ならざる方法での測定が不可能であり、単に経験的な検証によって確証できるだけである。
- 何らかの限界内に収まるエピソードや項目に含まれている意味的情報の量もまた、役に立つ仕方で単位として測定することができず、単に局所的な状況の中で比較ができるだけである。
- 意味論的情報は伝達されたり保存されたりするためにコード化されている必要はない。
「多変量解析のはなし」も読書中
多変量解析のはなし―複雑さから本質を探る (Best selected Business Books)
- 作者: 大村平
- 出版社/メーカー: 日科技連出版社
- 発売日: 2006/08/01
- メディア: 単行本
- 購入: 12人 クリック: 62回
- この商品を含むブログ (8件) を見る
順位尺度、間隔尺度、名義尺度それぞれの相関の求め方まで読みました。
- 間隔尺度同士=ピアソンの積率相関係数
- 順位尺度同士=スピアマンの順位相関係数
- 名義尺度同士=クラメールの関連指数
- 間隔尺度と名義尺度は相関比
- 間隔尺度と順位尺度は順位尺度を特殊な場合の間隔尺度と考えてピアソンの積率相関係数
- 順位尺度と名義尺度は順位尺度を特殊な場合の間隔尺度と考えて相関比
を使って相関係数を求めます。ピアソンの積率相関係数はデータが正規分布であることを前提にしていて、スピアマンはその前提がありません。
まだ実用できるほど理解はしていませんが、とりあえずメモ
「前処理大全」も読書中
昨日は本ばかり読んでいたので「前処理大全」も読書中です。
こちらも図書館に4/3に返す必要があるので終わらせるのに必死です。とりあえず昨日半分読みました。
R言語は使わないつもりなので、SQLとPythonのみ学習中。
- SQLのランダムサンプリングは RANDOM() <= 0.5で絞るとかで出来る
- 集約IDのサンプリングはFIRST_VALUE(RANDOM) OVER (PARTITION BY customer_id) AS random_numのようにして、集約IDを元にして乱数を生成する
- GROUP BY xxx ORDER BY COUNT(*) DESC LIMIT 1でGROUP BYで集約した上での最頻値を求めることができる
- ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY reserve_datetime) AS log_no でcustomer_id別にログの番号付けができる
- n件前はSQLならLAG()関数、pythonならshift関数で実現できる
- SMOTEでオーバーサンプリング
- StandardScalerによる正規化
- 外れ値の除去は3標準偏差以下に収めるなど
- sklernのPCAクラスで主成分分析による次元削減
- 欠損データの補完を回帰モデルで行うPMM(多重代入)。pythonならfancyimputeライブラリのMICEクラスで提供されている