カテゴリー別アーカイブ: 統計学

人は見た目が10割

人は見た目が9割という本がある。

心理学の根拠をつくるのが統計学であるが、統計的に見た目でだいたい人の印象は決定されるという結論があるが、これはつまるところ確率論的な話なのだ。

お台場のフジテレビに行ったらデカデカと人は見た目が100パーセントとかいうポスターが貼ってあった。

漫画が原作のドラマで内容は知らんけど、タイトルだけでほとんどの人がネガティブな意味でとらえてドキとする言葉ではないだろうか。

自分の見た目に自信がある人など1割いればいいほうで(てきとーに言っているだけで統計学的根拠はない)、自分の見た目に何らかのコンプレックスを抱えている、もしくは、抱えていたことがあるのだから当然なのだ。

いくら見た目がよくても、同じ年齢の芸能人に勝てるわけもなく、比べるだけバカらしい。

また、人は見た目じゃないなんて表立っていうのもバカらしい。

美しい女性が通り過ぎれば、目が行ってしまうのは男のサガである。(ちょっと話がそれた

まあ、そんなことより、仕事でも恋愛でも、見た目でほぼ決まるのである。

見た目が悪いから性格でカバーをするということが言われるし、確かに実際に性格でカバーできるところもあるのだが、性格の悪さは生まれもったのか後天的なものなのか、意識的に変えるのは難しいこともある。

心がけで帰られたら変わっているっつーのという性格の根の根の部分は変えたくても変わらないものではなかろうか?と私は思う。

そして、人は見た目と性格もしくは見た目と行動を分けて考えがちだが、私はそうは思わない。

イケめんに限る…ではないが、実際には、見た目は行動すら制約するのである。

見た目を小綺麗に清潔に保って嫌われないようにするとか、自分の悪い性格が出そうになったらお腹に力を入れてこらえるとか、人が努力でできることはこのくらいの悪いところを出さないようにするのがせいぜいで、ブスなのに美人だと相手に思わせるというのは魔法でも使わないと無理です。

私も、変えるべきところを変えようと思ってきたが、変わらないものはどうやったって変わらないというのが、30代になって分かった結論。

自分の見た目が客観的にどうなのかを踏まえたうえで、どうやって生きていくのか選択しないとダメなのではと、最近よく思う。

…というわけで、何が言いたいのかよくわからないけど、終わり。

Δ(デルタ)とは何か

ギリシャ語の記号であるデルタは三角形の意味で使われるが、
数学の微積分では差(diffrence)の意味で使用される。

Δx(デルタ-エックス)が近似値を表すのに対して、
dx(ディ-エックス)は極限値(真の極限値)を表す。

小さな差を表現している近似のΔxよりも、
(理論的には)差のないdxの方が正確であると言えるだろう。

参考
okwave.jp/qa/q5719593.html
detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14155214684

統計用語1(母集団、標本、事象、要素、抽出、推測)

IT用語も同じものを指しているのに言葉がよく変わる。

アプリ、ソフト、プログラム、モジュール、ドライバ、ライブラリ、ファイル、データ、これらの対象は論理的に意味が違うものだが、記憶媒体に展開されているデータとして捉える場合は、同一のものであるといえる。

統計用語も文脈によって言葉がかわるというか何を意味しているのか知っていないと読み解けないようなので、気になった点をまとめておく。

中学校などで習う記述統計学は標本(サンプル)の整理だが、これはすでに母集団から標本抽出(サンプリング)された後の事象としてとらえなくてはならない。なお、標本のうちある1つを要素と言う。細かく捉える場合は個体とも言う。1つ1つを変量(変数)と言う。この場合は要素の名称を個体名という。

なお、標本を事象と言ったが、事象とは確率論では全事象に対する部分集合のことだ。なお標本から母集団の性質を探ることを推測という。日本語でも普通に使われる言葉なので、間違えることはないと思われる。

事象と標本

母集団と標本(標本空間)と全事象

これらは、違うものを指している場合もあるが同じものを指している場合もある。

確率論で扱うのか統計分析で扱うか?というコンテキストによって、名称というか捉え方そして処理方法が異なる。

例0)
「全事象とは母集団のこと」とか「全事象とは標本全体のこと」などと食い違う説明をしている人がいた。私もこの記事ではわざと事象という言葉を混在というか混用してみた。分かりやすいようには書いたつもりだが…その場では大きな問題ないかもしれませんが、後で何が何だかよくわからなくなるということを言いたい。「全事象とはここでは◯◯の集まりのことだ」としか言っちゃいけないのに、日本語数学の場で混同されることを前もってきちんと知っておいたほうがよいのではないかということ。または最初から英語で数学を学んでおいたほうがいいと思われる。まあ、私がバカで混用して惑わされるひとが多くないなら、問題はないだろうけど。???
になる人が多いのではないか。

例1)
「化粧品を使用したユーザのアンケートからアンケートを集計して」と言われた場合、使用者の意見が母集団で、アンケート結果が標本(サンプル)で、アンケートをとる行為が標本抽出(サンプリング)である。しばしば母集団については主語として省略されるので分析する時は何が母集団で何が標本なのか常に意識したい。

統計学のカテゴリ(1)

統計学ってなんぞや?という全体像が、やっと見えてきた感じのこの頃です。
それぞれが密接に関わっているのできちんとしたカテゴリがあるわけではなが、
全体マップがあったほうが頭の整理になるというか分かりやすいので記しておく。


統計学
・記述統計学(データの整理)
・数理統計学(データの解析)
 →推測統計学(母数に着目)
  ◯伝統的統計学(従来の統計学)
   【推定】
   【検定】
  ◯ベイズ統計学
   【ベイズ推定】
   【ベイズ決定】
   【階層ベイズ法】
 →多変量解析
   【回帰分析】
   【因子分析】
   【判別分析】
   【主成分分析】
   【クラスター分析】
   【数量化理論】
   【共分散構造分析】
   :
   :

小中高の数学で習う統計学は、記述統計学と呼ばれるもので、データを整理してその性質をとらえるものである。それとは別に、数理統計学という伝統的な統計学というものと、結果から分析などを行うベイズ統計学がある。また分析手法としては多変量解析のレシピがたくさんあってデータによって使い分けなければならない。というのが統計学の概要らしい。

参考:『中学数学でわかる統計の授業』涌井良幸/涌井貞美

中学数学でわかる統計の授業
価格:1944円(税込、送料別)

確率の分布図(二項分布、ポアソン分布、正規分布、カイ二乗分布、t分布、F検定)

確率の分布図には、
二項分布、ポアソン分布、正規分布、カイ二乗分布、t分布、F検定
などがある。

・二項分布
 ある発生の起こる確率と起こらない確率(これを独立という)に分けて考える。
 (50%の確率で1それ以外は0であるサンプルN個の累計値など)
 正規分布の近似値をとる。

・正規分布
 釣り鐘型のグラフ
 区間推定によって誤差を見積もるのに便利な分布である。
 ※もちろんデータの分布が正規分布かどうかを見極めないといけない。
  この場合は正規分布とみなしてよいか?という検定を行う。

分布図は大きく2つにわけられ、
単純な確率分布の他に各事象の発生度を求める度数分布がある。

※まとめ
・正規分布は、独立な確率変数(ランダムに変わる量)の足し算によって現れる。
・正規分布の確率密度は、平均と分散(標準偏差)だけで決まるベル型の曲線である。
・確率密度のグラフの下の部分の面積が、対応する確率を表している。
・正規分布では、平均プラマイ(1.96×標準偏差)の範囲に95%のデータが収まる。
 これにより区間推定によって選挙の当選確実などの判定が可能である。
・独立な変数を足し算すると正規分布が現れる。
・もちろん正規分布しない標本もあれば、正規分布するかどうかの検定もある。

統計学を使った有名人。ダーウィンとナイチンゲール

小学生も知っている有名人で統計学と深く関わっている人といえば、
まずダーウィンがあげられるだろう。

実際にはダーウィンの進化論(生物学)を証明して
さらなる発見をしようと奮闘した生物学者が統計を利用した。

ナイチンゲールも統計学の信奉者であり、
クリミアのスクタリ病院で死亡統計をとっていた。

後に、ナイチンゲールは鶏頭図というグラフを発明した。

戦死者とその他の死亡者を分けて分析し、
戦時中は死ななくてよい人が死ぬことを明らかにしたり、
衛生状態をよくすると死亡率が下がることを証明してみせた。

彼女が精力的に行動したからこそ有名になり看護師の地位向上に貢献したのだと思うのだが、
そこには統計という根拠がしっかりあったということを忘れてはらない。

統計学の平均とバラツキ、そして、生物学的決定論

統計学とは調べたい対象のパラメータをカウントし、
特徴などを導くための学問である。

その歴史的な背景から、平均と相対分布(バラツキ)にフォーカスしていると大別してもよい。

※生物学においては代表的な典型的なもの、
 形相(エイドス)(設計図)を前提にしたものの見かたがあるのではないか。

類型学には決定論的な考え方がある。
神様が作った世界や生物は平均的な代表値に収束するはずで、
バラツいているというのは欠陥があるという見かたをされたのだった。

仮設検定すなわち統計的仮説検定について…

仮設検定(hypothesis testing)
→統計的仮説検定(statistical hypothesis testing)

仮説Aが統計学的に正しいか判断する方法のこと。

【方法は2つ】
1.頻度主義統計学に基づく方法
2.ベイズ主義統計学に基づく方法

※一般的に頻度主義統計学に基づく方法をとる。

【頻度主義統計学における統計的仮説検定の方法/概要】
1.仮説Aが正しいとする。
2.母集団から観察された標本が抽出される確率を求める。
3.もとめられた確率の値により判断を行う。
4.その確率が十分に小さければ仮説を棄却する。

この時、主張したい仮説の逆を帰無仮説(Null hypothesis)という。
それに対する仮説を対立仮説(Alternative hypothesis)という。

帰無仮説をH0,対立仮説をH1と表す。

【検定統計量とは】
統計学的仮説検定に際して用いられる単変量の統計量(標本データの関数)のこと。

データの種類および何を検定したいかによって、用いる検定統計量を選ぶ必要がある。

パラメトリック統計学における仮説検定は尤度比(ゆうどひ)が最小十分統計量となる。
これに沿って理論的枠組みが与えられる。

【尤度比(ゆうどひ)とは】

統計学検定…

統計学検定の2級が難しそうなのでとりあえず3級から積み重ねるかしらん。

と思っていたところ、上司から準一級ぐらいとれ、と言われる…

調べてみたところ準一級は最近つくられたようで、教科書や問題集がない…

ということは、1級の勉強をしないとダメだということになった。

∑(シグマ)の基本

・∑(シグマ)とは何か。

並んでいる数字(数列)をすべて足し合わせることを意味している。

つまり、累積した値を意味している。

1,2,3という数列がある場合に累積した値は6である。

n
∑xi
i=1

などと書かれていた場合は、nは数字(データ)の個数、iはデータの始まりの数を意味する。

1,2,3という数列をシグマを使って表すと、

3
∑xi=6
i=1

…ということになる。シグマの基本はこれだけ。