データサイエンティストとは?
BIツールのような膨大なデータを扱うツールでは、その分野に精通したプロフェッショナルがいるとその効果を何倍も享受することができます。
実際にデータサイエンティストの求人数は年々増加傾向にあり、ニーズが高まってきています。
しかし、日本ではデータサイエンティストが不足しているといわれています。データサイエンティストを専門に育成する「データサイエンス学部」を設置している大学も、2020年6月現在では滋賀大学、横浜市立大学、武蔵野大学の3校のみ。大学院でも滋賀大学、横浜市立大学、立教大学の3校のみです。
ただ、カリフォルニア大学バークレー校が無料で受講できるデータサイエンティストのオンラインコースを開始しているほか、日本でもデータサイエンティストに必要なスキルを身につけるためのスクールやオンライン講座などが多数開講されているなど、養成する気風は高まっています。
本コラムでは、これからニーズが急増するといわれるデータサイエンティストの役割や仕事内容などをご紹介いたします。
1.データサイエンティストとは?
一般社団法人データサイエンティスト協会によると、データサイエンティストとは「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定義されています。
もう少し分かりやすくいうと、ビッグデータなど膨大なデータを分析・活用し、企業などの課題解決を行うのがデータサイエンティストです。
先述の一般社団法人データサイエンティスト協会が設立されたのが2013年であることからもわかる通り、データサイエンティストは最近になって新しく生まれた職種です。
2.データサイエンティストが必要になった背景
冒頭でもお伝えしたように、データサイエンティストの需要増加はすでに始まっており、今後も増えていくことが予測されています。
その背景にあるのが、ビジネスにおける「ビッグデータ活用」と「AI活用」の普及です。
「ビッグデータ活用」については、データ活用の専門知識を持たない人でもデータを簡単に扱える「セルフBI」が登場したものの機能は限定的です。本格的なビッグデータ活用のためには、より多機能なBIツールと高度なデータ分析を行えるプロフェショナルが必要になってきます。
「AI活用」についてはすでにサービス化されているものもありますが、PoC(Proof of Concept/概念実証)段階のサービスがたくさんあり、これから開発されるAIの数となると膨大でしょう。
AIのなかでも機械学習や、さらにはディープラーニング(深層学習)の分野においては、サンプルとして膨大なデータを学習させるほど予測精度が上がるという特性を持っています。ディープラーニングを活用すると、音声認識や画像認識、自然言語処理などが行えます。
AI開発においては、システムの設計段階から機械学習エンジニアが関わります。データサイエンティストは、機械学習モデルの構築段階や、実際にデータを利用して予測精度を上げていく段階から加わります。
3.データサイエンティストの役割
ビッグデータ活用やAI活用において重要なデータサイエンティストですが、データサイエンティストが企業の中で具体的に担う役割は主に以下の三つです。
1. データ収集と整理
企業の経営課題や業務課題など、データを活用して解決したい課題から仮説を立て必要なデータを収集します。
基幹システムや業務システムから収集するほか、必要に応じてSNSから収集したり関連部門へリクエストして収集したりします。
収集したデータは、より高い精度で分析を行うために、データクレンジングを行い整理しておきます。データクレンジングとは、データの重複や欠損、誤記、表記揺れ、形式違い、単位違いといった不揃いなデータを削除、修正し、正規化することです。
その後、データベースに蓄積しやすい形式に変換して整理します。
このデータの前処理がデータサイエンティストの業務の8割を占めるともいわれており、地味ながら重要な作業です。
2. 蓄積したデータの分析
データの収集と整理が済んだら、データ分析ソフトウェアなどを使ってデータの分析を行います。収集した大量のデータ群の中から課題解決につながるような示唆をあぶり出す作業です。示唆を得るためには、ダッシュボード機能などを使ってデータを可視化する必要があります。
データの種類や解決したい課題によって、用いる分析手法は異なります。たとえば、アソシエーション分析、クロス集計分析、因子分析といった分析手法があります。
3. 分析結果からアクションを策定
最後に、データ分析から得られた知見を課題解決に結び付けアクションを策定し、レポートにまとめて関連部門や意思決定者(経営層など)に報告・提案します。
データ収集前に立てた仮説と分析結果を照らし合わせ、課題解決のためのKPIを設計・提案することになるため、データサイエンティストにはデータに関する知見だけでなく、ビジネスに関する知識も必要です。
データサイエンティストに必要なスキルについて、詳しくは次章でご紹介します。
4.データサイエンティストに求められること
前述の一般社団法人データサイエンティスト協会は、「データサイエンティストに求められるスキルセット」として、「ビジネス力」「データサイエンス力」「データエンジニアリング力」の三つを提示しています。
1. ビジネス力
ビジネス力とは、データサイエンティスト協会の定義では「課題背景を理解した上でビジネス課題を整理し、解決する力」となっています。
つまり、自社のビジネスや部門ごとの業務内容についてはもちろん、競合他社や市場、業界全体の動向について把握した上で自社の課題を捉え、具体的な解決策を提案できる力ということになるでしょう。
経営者の視点でビジネスを捉えることが求められます。
2. データサイエンス力
データサイエンス力とは、データサイエンティスト協会の定義では「情報処理、人工知能、統計学などの情報学科系の知恵を理解し、使う力」となっています。
これらの学問の知識をただ身につけているだけではなく、ビジネスの現場で効果的に活用できる応用力が要求されます。
3. データエンジニアリング力
データエンジニアリング力とは、データサイエンティスト協会の定義では「データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力」となっています。
BIツールや解析ツール、IoTやAIなどを使いこなしたり、必要に応じてプログラムを組んで解決方法(モデル)を実装したりできる力が求められます。データサイエンティストがよく用いる言語にはPython(パイソン)やR、SQLなどがあります。これらの言語を習得しているとベターでしょう。
上記三つのスキルに加え、課題解決のための論理的思考能力や、関連部門のスタッフや経営層とのやり取りで活きるコミュニケーション能力も求められます。
まとめ
繰り返しになりますが、いま日本ではデータサイエンティストは不足しています。そのため、採用しようとする際は高コストで期間も長期化することが予想されます。社内の人材を育成する選択肢もありますので、もし自社でデータの活用がうまくできていないと感じる企業様は検討してみてはいかがでしょうか 。
「データ収集と整理」 でご紹介した中の、「データ収集と整理」「蓄積したデータの分析」については今後AIなどによって自動化されていくとみられています。将来的には、AIでも対応可能な既知のデータ解釈よりも、人にしかできない未知のデータ解釈が行えることにデータサイエンティストの価値が置かれることになるでしょう。
もちろん、企業の成長フェーズや規模、課題によっては、データサイエンティストがいなくてもBIツールでビッグデータ活用が十分に可能ですので、BIツールを未導入の企業様はこの機会にぜひご検討ください。