データサイエンス概論

データサイエンティストの仕事内容は?他のITエンジニアと何が違うの?

はじめに

ITに関する職種は非常に多岐に分類されており、名前を聞いただけでは業務内容の区別がつかない職種も多くあります。本記事では、データサイエンスと関係の深いITエンジニアについて、それぞれの職種における仕事内容やデータサイエンティストとの比較を説明していきます。

データサイエンスとは

センサの精度や通信速度の向上に見られるように、テクノロジーの飛躍的な向上により、現代社会はデータに溢れかえっています。

「データサイエンス」とは、統計学、機械学習や人工知能(AI)、データ分析など色々な領域の手法を組み合わせて、大量のデータの中から企業や私達の生活にある様々な課題解決につながる価値ある情報を発見し、アクションにつなげる研究分野です。

データサイエンティストは、「蓄積されたデータを分析し、データの特徴をとらえてその中から価値ある情報を取り出すことで、課題解決案を創出」する役割をもちます。

大量に収集されているデータは、「ノイズ」と呼ばれる雑音、役に立たない部分も含まれているため、そのままでは扱う事ができません。

 

ノイズを取り除き扱いやすい形に加工されたデータを「BIツールと呼ばれるソフトウェアを活用して「必要な情報を集約してひと目でわかるようにレポートなどを作成して表示する」ことを行います。

ビジネスインテリジェンスとはビジネスに関するインテリジェンス、すなわち事業上の意思決定に用いられる知見およびそのためのデータ収集・分析・配布を意味する。BIツールはこのビジネスインテリジェンスを支える道具の総称である。ExcelなどもBIツールとして用いられる。
出典:Wikipedia「BIツール」

作成されたアウトプットを基にして、経営陣に対して利益向上や業務改善などのアドバイスを行うなど、コンサルタント的な業務を担当することもあります。

データサイエンティストに必要となるスキル

データサイエンスに関わるエンジニアは、幅広い専門知識とスキルが求められます。

順番に説明していきましょう。

統計学や数学に関するスキル

 データを扱いやすい形に加工し、分析するには数学の知識、特に確率・統計学」「微分」「線形代数」の知識が不可欠です。

 

「確率・統計学」は、データの持つ性質を調べて活用目的に応じてデータを分析するときに使われる学問です。「大量のデータを扱いやすく分類整理すること」これはデータサイエンスにとっては最重要なプロセスとなり、確率・統計の数学知識は必須のものとなります。

「微分」を活用すると「ある値が最小(最大)になる部分を計算する」ことができます。

微分とは、現在の状況がどのくらいの速さで変化をしているのか、または変化をしていないのか、を数値化して表現するものです。

「線形代数」の中でも、特に「行列」が重要となってきます。

行列とは「同一の性質を持つ情報の要素を縦×横に並べたもの」です。

データの取り扱いが意味のあるかたまりとして表現できるので取り扱いが容易になり、数値化することで機械(コンピュータ)が計算できるようになるのです。

データベースの知識

データの収集、加工を行う際にはデータベースからデータを取得するSQLをはじめ、専門的なスキルが必要です。

プログラミングスキル

データベースから取得したデータを加工分析する際に、モデルをプログラミングしながらデータの中から有益な情報を引き出していくことになります。

Pythonは機械学習によく用いられるプログラム言語ですが、実は難易度はそこまで高くないため学びやすいです。

データサイエンティストとITエンジニアの比較

データサイエンティストと比較的近く、比較対象とされる「データベースエンジニア」「データマイニングエンジニア」「データアナリスト」について仕事内容を説明していきましょう。

データベースエンジニア

パソコンやスマートフォン、ショッピングモールや広告塔などに設置されたディスプレイに表示される情報は、データベースに整理されて格納、管理されています。

コンピュータシステムが出力するデータを、必要な情報を効率的に利用できるように、データベースの設計・構築・管理を行うのがデータベースエンジニアの主な仕事となります。

現代社会では「ビッグデータ」と呼ばれる、データ量が多く複雑な構造をしているデータを取り扱う場面が増えています。人工知能開発においても膨大なデータを必要とするため、データベースエンジニアの活躍範囲は広がりつつあります。

 

データマイニングエンジニア

データマイニングとは、企業活動で蓄積されたビッグデータに対して統計学や人工知能といった手法を用いて分析を行い、価値ある情報を見つけ出し、マーケティングや経営戦略に活用する手法のことを指します。データマイニングエンジニアは、データマイニングを行う技術者のことを言います。

マイニングで得られた情報は、「データサイエンティスト」や「データアナリスト」によって、企業活動の販売戦略や施策の立案に活用され、企業が抱える課題解決に役立たせることができます。

データアナリスト

データアナリストとは、データ分析の専門家です。企業活動により蓄積された「ビッグデータ」は、「データマイニングエンジニア」によって分析され価値ある情報として加工、整理されます。整理された情報を用いて、企業の顧客ユーザーの行動や将来のニーズ、販売戦略の最適化などに向けて解析し、自社やクライアントが抱える課題のソリューションを創出します。

ここで、データサイエンティストと業務内容が似通っていることにお気づきかもしれません。実は必要となるスキルが異なっているのです。

データアナリストがデータ分析に基本的な統計学を用いるのに対し、データサイエンティストは主に機械学習を用いて、データから将来を予測したり、音声や画像などの非構造化データを分析したりします。

そのためには機械学習に用いるプログラムを作成したり、機械学習に入力させるデータやパラメータを設定する必要があります。「データサイエンティスト」の方がより高度な分析を行っていると言えるでしょう。

とはいえデータアナリストが機械学習を用いない、という事ではないため「データサイエンティスト」と「データアナリスト」の境目は徐々に曖昧となっていくでしょう。

データサイエンティストの将来性

データサイエンティストと、データを取り扱う他のITエンジニアについて述べてきました。今後、さらなるテクノロジーの発達により生成され蓄積されていくデータの量は増加の一途を辿る事が想定されます。

それでは、データサイエンティストの将来はどの様になっていくのでしょうか。

「データが増えるのだから、データサイエンティストの需要も高まっていく」と思われる方も多いでしょう。実際、政府は2019年に「数理・データサイエンス・AI教育プログラム認定制度」をスタートしています。これにより大学、短期大学、高等専門学校でのデータサイエンス教育が徐々に拡大しており国内でデータサイエンティストを育成、増やしていこうという活動が行われています。

しかし一方で、テクノロジーや人工知能の発達も忘れてはいけません。

データサイエンティストが活用しているBIツール」と呼ばれるソフトウェアにも人工知能が組み込まれていく可能性は十分にあります(BIツールについての箇所に戻るにはこちら)。

その結果、ソフトウェア自身が課題解決のデータ分析を行えるようになり、結果として「BIツール」を使用するデータサイエンティストは不要となっていく、データサイエンティストやITエンジニアが向上させてきたソフトウェアテクノロジにより、皮肉にも自分の役割を奪われていく、という未来も考えられます。

「需要が高まる」「仕事を奪われていく」両方の将来の可能性のあるデータサイエンティスト。しかし、「データサイエンティストを脅かすまでに人工知能が成長する」までには、まだ時間がかかるでしょう。

また、ソフトウェア自身が分析を行えるまでに発達したとしても、最終的な決断を下す部分、つまり人間が意思を持って将来を決定していくというプロセスはまだ人工知能には代替されない領域であると言われています。

企業経営者への提案の場面でも、「共感」をもって提案することは機械にはまだ難しく、人間に分があると言えるでしょう。

そして、たとえ「データサイエンティスト」という職種に就職することがないとしても、「データから解決策を見出し創出する」というビジネススキルは今後も強力なスキルとなります是非、普遍的なスキル習得を目指して、そしてデータサイエンティストを目指してみてください。