ブログ - 数量・データサイエンス・AI リテラシー講座 基礎第2回 データを読む2 量的データの要約
四分位数という言葉は馴染みがなかったけれど,スポーツで採点競技の際に最小と最大の得点を削除して平均みたいなのとか株式のローソクチャートで使うので身近な考え方でしたね.
分散,は分かった気がするけれど,標準偏差までの理解ができてないな.具体的な何かに置き換えて理解できないので...
統計学では,分散,標準偏差を理解することが重要
すでに脱落・・・
分散,は分かった気がするけれど,標準偏差までの理解ができてないな.具体的な何かに置き換えて理解できないので...
• データの位置を示す指標(代表値)
○ ヒストグラムの利点と欠点
§ 利点:視覚的にデータ全体の傾向を理解できる
§ 欠点:複数のデータを比較する場合などに一卵性に欠ける
○ 分布の指標
§ データの位置(分布の中心)を表す指標
□ 平均的 average μ
® もっともよく使われる代表地
® 算術平均以外に,幾何平均,調和平均
□ 最頻値 mode
® もっとも出現頻度の高い値
® 連続血を取るデータではもっとも出現頻度の高い区間の中央値
® 分布に山が1つだけの場合,単峰性.多峰性
□ 中央値 median
® 観測地を昇順に整列した時真ん中の順位に当たる値
® 偶数の場合は中央の2つの平均を中央値とする.
§ 代表値の性質(1)
□ 単峰で左右非対応
® 平均値=最頻値=中央値
□ 単峰で非対称
® 平均値,最頻値,中央値が異なる.
§ 代表値の性質(2)
□ 外れ値
® 観測地の中で他に比べて極端大きかったり小さかったりする値
□ 原因:間違い.計測が長い
□ 中央値の方が平均よりも外れ値に対して頑健
® 平均値が唯一の「中心」ではない
◊ 体操などの得点.
◊ 平均年収などか
• データのばらつき(分布の広がり)を表す指標
○ データのばらつき
§ 分散 variance ς2
§ 標準偏差 standard deviation SD
§ 変動係数 coefficint of variation CV
○ 平均値からの偏差
§ ばらつき=代表値からのズレ(偏差)
§ 平均だと正負が相殺して計算できなくなる.
□ 平均値からの偏差はゼロになる
§ 分散
□ 平均力の偏差を二乗すると正と負になる.
□ 不偏分散というのもある.
□ 分散はデータのばらつきの大きさを表現できるが,元のデータと単位が異なる.
® 標準偏差:分散の正の平方根
□ 統計学では,分散,標準偏差を理解することが重要
§ 変動係数
□ 平均値が異なるデータ同士のばらつきの比較
□ 変動変数は,標準偏差を平均値で割ったもの
® 変動係数は,データが負や0を想定していない.
§ 分散の性質
□ 分散は「2乗の平均」から「平均値の2乗」を引いたもの
§ 偏差の二乗和と平均値
□ 平均値は偏差の平方和を最小にする
§ 平均絶対偏差と中央値
□ 絶対偏差:偏差の絶対値
□ 平均絶対偏差:絶対偏差の平均
® 中央値は平均絶対偏差を最小にする
• 5数要約と箱ひげ図
○ 最大値,最小値
§ 最大値・・・データの中でもっとも大きな値
§ 最小値・・・データの中でもっとも小さな値
§ ハズレ血の影響を受けるので注意
○ 四分位数
§ 照準に整列したデータを4等分する位置にある値
□ 中央値の考え方を拡張したもの
§ 第1 Q1,第2,第3,第4Q4 四分位数に分ける.
□ Q2は中央値になる
§ 四分位範囲 Q3-Q1
□ 中央付近の50%のデータが入る範囲
○ 5数要約
§ 最大値,最小値,第1四分位数,第2四分位数,第3四分位数の5つの数で分布の特徴を表すこと.
§ データの特徴を示す.
○ 箱ひげ図
§ 5数要素を用いて分布を視覚的に表現したもの.
□ 株価のチャートを横にしたみたいなやつ
§ 箱ひげ図とヒストグラム
□ 実際に,箱ひげ図はよく出てくる...らしい.
統計学では,分散,標準偏差を理解することが重要
すでに脱落・・・