データサイエンスとは?データ解析やデータマインングとの違い

こんにちは、タクロウです!

AIやビッグデータの広がりによって「データサイエンス」が注目されています。データサイエンスの人材不足が話題になり育成のため、2017年に滋賀大学に、2018年に横浜市立大学に、2019年に武蔵野大学にデータサイエンス学部が設置されています。

データサイエンスって何だろう?データ分析やデータマイニングとの違いは何だろう?

データサイエンスについて、データサイエンスとその他用語との違いを紹介します。

要点
  1. データサイエンスは、統計学、情報科学、アルゴリズムなどを横断的に扱うデータ分析の学問
  2. データサイエンスを使ってデータ解析したりデータマイニングしたりする
  3. データ解析は仮説検証型、データマイニングは仮説発見型の手法

データサイエンスはデータ分析の学問

辞書で調べると、データサイエンスはデータ分析についての学問分野です。統計学、情報科学、アルゴリズムなどを横断的に扱います

出典:一般社団法人データサイエンティスト協会「データサイエンティストスキルチェックリスト」

図は、データサイエンスに関わる分野がまとめられたものです。統計学を基礎技術として、自然言語処理や画像処理などの非構造化データ処理、機械学習やデータビジュアライゼーションなどの解析技術と幅広い分野に関わりがあります。

データサイエンスはデータ分析についての学問分野ですが、関連する用語に、データ解析、データアナリシス、データマイニングなどがあります。

データサイエンス関連用語

分析・解析・アナリシス

辞書(デジタル大辞泉)で調べると、分析は「複雑な事柄を一つ一つの要素や成分に分け、その構成などを明らかにすること」で、解析は「事物の構成要素を細かく理論的に調べることによって、その本質を明らかにすること」です。アナリシスは、分析と解析の両方を意味します。

ECサイトの売上を例にすると、分析は「売上をカテゴリ別や会員属性別に分けて構成などを明らかにする」のに対して、解析は「消費者行動理論や統計学など利用して購買行動の本質を明らかにする」ことです。

実務では、時間をかけて解析までするのか、スピード重視で分析までで済ませるのか目的によって使い分けています。

データ解析とデータマインング

データ解析が仮説検証型な手法であるのに対して、データマイニングは仮説発見型な手法です

データマイニングで有名な事例が「ビールとおむつが一緒に買われる傾向にある」という仮説発見です。調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うよう父親に頼み、店に来た父親はついでに缶ビールを購入していたようです。仮説検証型のデータ解析の場合、例えばビールとおつまみが買われるという仮説を立ててデータを検証するため、新しい発見が生まれにくいです。

実務では、データマイニングで新たな発見を導けるといいのですが難しく、仮説検証を繰り返しデータ解析とデータマイニングを組み合わせながら、試行錯誤しています。

さいごに

データサイエンスと関連する用語との関係を整理しました。データサイエンスを学んだり、使ったりしていきましょう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です