生物統計のテス勉かねて、ちょっと書きます。専門家ではないので、間違ってたら詳しい人が教えてくれると嬉しいです。
ランダムサンプリングのニュアンスが伝われば嬉しいです。
ランダムサンプリング
ランダムサンプリングを行う意義。
統計では全標本を調べるときができない場合に、一部の標本から母集団の分布を推定したり、複数の母集団を比較する。そのため、サンプルは母集団の分布を正しく推定している必要がある。意図せず大きな個体や小さな個体ばかりを選んで集めてしまうと、誤った推定、検定をしたり、不適切なモデル選択をしてしまう。そのためランダムサンプリングは重要なのである。
前回の例で説明すると、全人類の身長平均調べるのは厳しいから、全世界からランダムにサンプルを集めたら正しく全人類の身長平均が推定できるのでは??って感じです。
なんでランダムなの??と言うと。。
もし偏った地域の人ばかり集めちゃうと偏った平均がでちゃう。例えば、アジア人ばかり集めて平均身長求めた時とヨーロッパ人ばかり集めて平均身長求めた時それぞれで得られた平均を全人類の平均身長って言っていいの??って感じ。
地域によって身長にバラツキあるんだから色々な場所の人から集めなきゃ正しい全人類の平均身長わからないんじゃない??ってこと。
統計詳しい人が読んでて、いや違うだろ!って思った人がいたら教えてください。
ランダムサンプリングのニュアンスが伝われば嬉しいです。
ランダムサンプリング
ランダムサンプリングを行う意義。
統計では全標本を調べるときができない場合に、一部の標本から母集団の分布を推定したり、複数の母集団を比較する。そのため、サンプルは母集団の分布を正しく推定している必要がある。意図せず大きな個体や小さな個体ばかりを選んで集めてしまうと、誤った推定、検定をしたり、不適切なモデル選択をしてしまう。そのためランダムサンプリングは重要なのである。
前回の例で説明すると、全人類の身長平均調べるのは厳しいから、全世界からランダムにサンプルを集めたら正しく全人類の身長平均が推定できるのでは??って感じです。
なんでランダムなの??と言うと。。
もし偏った地域の人ばかり集めちゃうと偏った平均がでちゃう。例えば、アジア人ばかり集めて平均身長求めた時とヨーロッパ人ばかり集めて平均身長求めた時それぞれで得られた平均を全人類の平均身長って言っていいの??って感じ。
地域によって身長にバラツキあるんだから色々な場所の人から集めなきゃ正しい全人類の平均身長わからないんじゃない??ってこと。
統計詳しい人が読んでて、いや違うだろ!って思った人がいたら教えてください。