データサイエンス概論

データサイエンティストとシステムエンジニア(SE)の違いとは?

最近よく耳にする「ビッグデータ」は、大量に蓄積されたデータを意味する言葉ですが、そのビッグデータを分析し、価値のある情報を引き出すエンジニアである「データサイエンティスト」は今最も注目されている業種の一つです。

本記事を読むことで、「データサイエンティスト」の仕事内容や、システムエンジニアとの違い、データサイエンティストになるための必要なスキルが理解できます。

1.データサイエンスとは

「データサイエンス」とは、統計学、機械学習や人工知能(AI)、データ分析など、色々な領域の手法を組み合わせて、蓄積された大量のデータから価値を引き出す研究分野です。

センサの精度や通信速度の向上に見られるように、テクノロジーの飛躍的な向上により、現代社会はデータに溢れかえっています。2010年からの約10年間で比べてデータ量は40倍にも増え、2025年にはそのうちの約30%が私達の日常生活からリアルタイムに生み出され、蓄積されるデータとなると予測されています。

しかし、膨大に収集されるデータには、ノイズと呼ばれる無駄な部分も含まれているため、そのままの形では分析することができません。そこで活躍するのがデータサイエンスです。

データサイエンス全体の流れ

一言で「データサイエンス」と言っても、業務内容は複数のプロセスから構成されています。

①ビジネスの理解と課題の定義

まずは、対象となるビジネスを理解することから始まります。そして現在抱えている、解消するべき課題を定めます。

②データマイニング

収集された大量のデータから、どのデータに注目して使える形に加工していくのか、を定義し、対象となるデータを探し当てる工程となります。

③機械学習

データの予測や分類を行うためのモデル作成を機械(コンピュータ)によって自動的に行います。また、機械へのデータ入力や、入力に使用するプログラムを作成します。

④課題解決手段の可視化とアクション決定

「データマイニング」と「機械学習」によってデータの中から見つけ出した、企業やビジネス上で抱えている課題を解消に導く価値ある情報をもとに、課題解消手段を立案し実際のアクションに落とし込んでゆくプロセスです。

この4つのプロセスは、いくつかの専門スキルを持ったエンジニアによって支えられます。

データサイエンスのプロセスに関わる仕事

「ビジネスアナリスト」

 ①と④を主に担当します。

「データサイエンティスト」

 ②と③を主に担当する、データに特化したエンジニアです。次の章で、データサイエンティストの仕事内容について詳しく見ていきます。

2.データサイエンティストとは

①データサイエンティストの業務内容

データサイエンティストは、「蓄積されたデータを分析し、データの特徴をとらえてその中から価値ある情報を取り出すことで、課題解決案を創出」する役割をもちます。

「ビッグデータ」と呼ばれる、企業活動やコンピュータ、スマートフォン、センサなどから日々蓄積されるデータは、下記の3つのVと呼ばれる概念を持っています。

  •  データ量が大量(Volume)
  •  データの種類や情報源が豊富(Variety)
  •  データ生成や更新頻度のスピードが早い(Velocity)

収集されたデータは、「ノイズ」と呼ばれる雑音、役に立たない部分も含まれているためそのままでは扱う事ができません。データサイエンティストの重要な役割の1つとして、ノイズを取り除き、データを扱いやすい形に加工する事が挙げられます。

更に、加工されたデータを分析する作業もデータサイエンティストの役割となります。分析の際には「BIツール」と呼ばれるソフトウェアを活用して、「必要な情報を集約してひと目でわかるようにレポートなどを作成して表示する」ことを行います。

作成されたアウトプットを基にして、経営陣に対して利益向上や業務改善などのアドバイスを行うなど、コンサルタント的な業務を担当することもあります

②データサイエンティストに必要なスキル

それでは、データサイエンティストとして活躍するために必要となるスキルを説明します。

顧客企業のビジネス理解

データサイエンティストの最終的な役割は、データを活用して事業に貢献することですので、顧客企業のビジネスについて深く理解していることは非常に重要なポイントです。

ドキュメンテーション/プレゼンテーションスキル

顧客企業の課題解決アクションを創出し、実際に顧客企業にアクションを起こしてもらう必要があります。その際には経営層に向けて明確なメッセージとして伝える必要がありますので、ドキュメンテーションスキル、プレゼンテーションスキルも欠かせません。

ITスキル

ビッグデータを取り扱うスキル、特に大量データを取り扱う専用のデータベースへのデータ蓄積や操作に特別な技術が必要です。

データベースは複数のデータサイエンティストと共有されている場合が多いため、データ操作の際のパフォーマンスに関する知識が重要となります。誰か一人が実行したデータ操作処理の効率が悪い場合に、データベース全体のパフォーマンスを低下させてしまう恐れがあるからです。

プログラミングのスキルも必要です。BIツールにデータを投入する際や、データ整形処理をプログラミングする場面が多いため、「Python」に代表されるデータ操作が得意なスクリプト系のプログラミング言語を習得しておくと、今後活躍の場が広がります。

統計学スキル

データ解析には数学的な知識が必要となり、特に「確率統計」「微分積分」「線形代数」の理解を深めることは、データサイエンティストとして求められます。

データを統計し、データの変化をモデル化しながら分析を進めて行く中で、回帰分析やクラスタリングといった手法を使うことになりますので、導き出したい分析結果によって、どの手法を用いればよいかを知っておく必要があります。

3.システムエンジニアとデータサイエンティストの比較

「データサイエンティスト」は比較的新しいエンジニアの分類に入りますが、コンピュータシステムに携わる「システムエンジニア」と比較してみましょう。

システムエンジニア データサイエンティスト
仕事の概要 クライアントのニーズをヒアリングし、業務活動を円滑に進めるためのコンピュータシステムに必要な機能や画面を分析し、開発を行う。 データを分析して課題解決に向けて有益な情報を発掘、課題解決へのアクションを創出する。
データに対するアクション システムで取り扱う業務データに対するアクションはあるが、データに対する仕事が主ではない。 データマイニング、データクレンジング、機械学習を活用したモデル作成など、主にデータに対して行う仕事となる。
プログラミングの必要性 プログラミングはプログラマが行う。プログラミングの知識はあった方が良いがコンピュータシステムの設計が主な仕事。 データ加工や機械学習には「R」「python」といったプログラミングスキルが必須である。
平均年収 ※給料ボックス求人ナビ 500万 700万

4.システムエンジニアからデータサイエンティストになるには

ITエンジニアキャリアパスの現状

ビッグデータ、データサイエンティストが注目される以前は、コンピュータシステムに関わるITエンジニアは、

「プログラマ」 → 「システムエンジニア」 → 「プロジェクトマネージャ」

というキャリアパスをたどる事が大半であり、経験を積むことで次のステップに進んでゆく、という道が明確でした。

しかし、現在の世の中で求められているコンピュータシステムを開発するには、非常に多岐にわたる種類のエンジニアが必要となっており、それに伴いキャリアパスも複雑で、従来のような1本道ではなくなってきています。

システムエンジニア時代に磨くべきスキル

「システムエンジニア」と「データサイエンティスト」の関係ですが、「システムエンジニア」の上位職が「データサイエンティスト」という訳ではありません。前章の比較表でも分かる通り、業務内容も大きく異なります。

しかし、「システムエンジニア」も「データサイエンティスト」も、「課題解決のソリューションを提供する」という最終目的は同じです。

データサイエンスのプロセスを振り返りながら、システムエンジニア時代に向上させておくべきスキルを説明します。

①ビジネスの理解と課題の定義

システム開発の上流工程、いわゆる「要件定義」に当てはまります。顧客のビジネスを深く理解するスキルは、共通的に磨くべきスキルと言えます。

②データマイニング

システムエンジニアとして導入したシステムからも、日々データは蓄積されて行きます。システム開発の際にはデータフローやデータ件数も重要な要素となりますが、是非、「システム要件として挙げられていないデータの活用方法」を意識してデータに対するスキルを向上させてください。

③機械学習

「データ分析でどの様な結果を導きたいのか」という仮説検証と「実現するための実装」に該当しますので、システム開発の「詳細設計」「開発テスト」に考え方は近いです。 機械学習に用いられる「Python」の言語仕様とライブラリの知識は、システム開発の現場でも磨くことができます。

④課題解決手段の可視化とアクション決定

このプロセスはシステム開発の現場ではなかなか従事する機会は少ないでしょう。しかし、システム導入後の顧客ビジネスを見据えて「要件定義」を行う事や、システムをどの様に使って顧客ビジネスに貢献するか、という目線はデータサイエンティストとしてデータの利活用を考える上で重要なスキルとなります。

一見、繋がりの少ないと思われるシステムエンジニアとデータサイエンティストですが、活用できるスキルを意識してみてください。
 

まとめ

データサイエンティストの仕事内容と必要となるスキル、そしてシステムエンジニアとの比較について説明してきました。

ITエンジニアとして忘れてはいけない一番重要な事は「課題解決のソリューションを提供する」という最終目的を忘れないことです。

データサイエンティストは世界中で不足しています。これからの時代を担うエンジニアとして、是非必要な知識を身につけて「データサイエンティスト」を目指してみてください。