ブログ - 数量・データサイエンス・AI リテラシー講座 基礎第3回 データを読む3 2変数のデータ相関関係
数量・データサイエンス・AI リテラシー講座 基礎第3回 データを読む3 2変数のデータ相関関係
- ブロガー :
- ujpblog 2022/5/16 11:34
前回までに出てきた分散と標準偏差について,とうぜんわかっている体裁で進むし計算式がパッパと出てきて「だからそうなりますね!」って言われてどんどん進行していく...脱落.もう1回最初から見直した方が良いのだろうか.
• 2変数のデータと散布図
○ 複数の変数データ
§ 複数の変数データを扱う理由→各項目の関連性を調べるため
□ →複数のデータを同時に扱うことでデータの測定対象の傾向をつかむ
○ 代表値(平均,分散)を計算しても分布が明確では無い.
§ ふたつの身長・体重グループの平均・分散を求めても同じ数値になる場合
□ 特徴が捉えられないそのような場合,,,
○ 幾何学的に捉える(図形化→散布図)
§ 視覚的に2つの傾向を視覚的に捉える
○ 相関関係
§ 散布図に補助線を引いて視覚化
§ 散布図の,+の領域,ーの領域
§ 正の相関,負の相関.
§ 完全な正の相関,完全な負の相関
• 2変数の関係と共分散
○ 直線的な関係性を数値で表す
○ バラバラの点を見て線で繋げても分からない場合
§ →点を結んだ面積で考えてみる.
○ 平均からの差を偏差と呼ぶ.チルダを使って表現する.
○ 長方形の面積の事を偏差積.
○ 偏差積の平均をxとyの共分散と言う
○ 共分散と分散
§ xとそれ地震の共分散はxの分散にならない
§ xが一定値の場合共分散は0になる
§ 打ち消し合う
§ 共分散が0となる時,無相関と言う
• データの標準化と相関関係
○ 今日分散の注意点
§ データを表す単位に依存する
□ 身長をcmからmに変更してみる等
○ 標準化
§ 平均を0,分散が1にするように変換すること
§ 単位の変更の影響を受けない
§ ピアソンの積率相関係数
§ 外れ値