ブログ - 身近な統計 第2回データのばらつきの記述(質的データ)ー 度数分布表とパレート図 ー
何かしら報告資料をまとめる際にExcelで表を作って示していたけれど,知識がないまま本能で作っていたけれど,パレート表の構成要素を理解した上で資料を作っていた,グラフ化もし安いだろうし,より説得力のある資料になったかな.と思ったりしました.
• 今回は4つ
○ 統計分析が計測されるデータの特徴
○ データのばらつき(分布)の記述
○ 質的データの分布と記述ー度数分布表とパレート図ー
○ 度数分布表やパレート図を解釈する2つの視点
• データ
○ ばらつき方(データの起こりやすさ)
§ 確率的なパターン(確率分布)
§ 変数(変量)=確率変数
§ データの記述(記述統計)の目的=確率的なパターンを探る
□ →現状の把握・予測・管理・マネージメントに活用)
○ ばらつきを持つ=分布している
○ 時系列データとクロスセクション
§ 時系列データ time series data
□ 時系列に沿ったデータ
□ 例:過去5年間の月別売り上げデータなど
□ 時間軸上に沿ってデータのばらつきを分析
§ クロスセクションデータ cross section data
□ ある一定の期間下で同種の集団に対して調査されたデータ
□ 例:支店別の売上データ,都道府県別の産業毎の就業者数データ
□ データの値に応じた起こり易さ・起こり難さを分析
® 度数,分布
• データの種類
○ 質的変数データ
§ 少数このカテゴリのどれかが応答値となる観測項目
□ 性別,職種,改善度(リストボックスのような物)
○ 量的変数データ
§ 数量値(数直線上の値)として記録される観測項目
□ 売上高,生産指数,給与総額,在庫率
• データが測定された物差し(尺度)の違い
○ 質的
§ 名義尺度
□ 性質:区別のみ.順序は無い
□ 例:性別,居住地
□ 演算:分類
§ 順序尺度
□ 性質:区別に加え順序があるが差は取れない
□ 例:5段階評価など
□ 演算:分類,クラスの併合,累積
○ 量的
§ 間隔尺度
□ 性質:差の大きさいいみがある.比に意味は無い
□ 例:温度,地方指数,偏差値
□ 演算:足し算,引き算が可能(合計,平均などが可能)
§ 比率尺度
□ 性質:差も比も意味が有る(絶対ゼロがある)
□ 例:身長,体重,得点
□ 演算:四則演算が可能.
• 分布(distribution)
○ データのばらつき方の確率的なパターンもしくはパターンを数量的に把握したもの
§ データが集中している範囲.
§ ばらつきの大きさ
§ データの値家や範囲を指定した場合,そこに全体の何%のデータが含まれるかなど
§ →現状の把握・予測・管理・マネジメント
○ 個々のデータの値の意味
§ 全体のばらつきの中で相対的に評価
§ 例:
□ テストで92%
® 90点以上はクラスの何%?
□ 我が社の売上は先月に比べて200%アップ
® 業界全体の平均売上伸び率は?
□ 某地区の新生児の母乳からダイオキシンが18ピコグラムが検出された
® 元々母乳に含まれているダイオキシンの量のばらつきは?
□ ポイント攻撃と言っていたのに誤爆だった
® ミサイル攻撃の誤爆率は?
○ 表現方法
§ 度数分布表
□ 累積度数・・・上方向に積み上げる
□ 構成割合(相対度数) %で表現
□ 累積構成割合(累積相対度数)
§ 累積帯グラフ
§ これまでは,順序分析
§ パレート表とパレート図
□ 重点志向
□ パレート表の構成
® 例:日本人の海外旅行先別訪問者数
◊ 訪問地域:アジア,ヨーロッパ,アフリカなど
◊ 度数(訪問者数):人数の値
◊ 構成割合(相対度数):100%
◊ 累積構成割合(累積相対度数):多い順から足した割合
□ 何に使うか
® 集団の中の多数(過半数以上)が従う平均的な傾向を掴む
® 集団の中の多数と異なる動きをする少数のケースの正体を探る
◊ →発見科学
□ ABC分析(パレート分析)
® 累積構成割合を見ることで,全体の割合がわかるので分類しやすくなる.
® パレートの法則(20:80の法則)
◊ 何が重点なのかを絞り込むために使う
• シリーズ 統計と社会の接点
○ 地域創生に利用されている例
§ RESAS
□ Regional Economy and Society Analyzing System:地域経済分析システム
□ 政府や企業が持っている統計データを見ることができるツール
§ RESASを使った例
□ データを持ってきたり集計する手間が省ける