リリースノート@分析ツールnehan

Hyper nehanの鼓動

皆様いつもnehanをご利用いただきありがとうございます。

4/25を最後にリリースノートの更新が滞っておりまして、申し訳ありませんでした。

この度、分析ツールnehanは、大規模データへの対応を実現した「Hyper nehan」プランをリリースいたします。

nehanの「ラージ」「Xラージ」プランが対象となりますが、これまで扱えなかったデータ量を扱えると共に、大規模データ処理の高速化、を実現しました。

6/17(木)夜のリリースを予定しておりますので、楽しみにお待ち下さい。

どのくらいのデータを扱えるようになるのか?

厳密なデータ量は策定中ですが、現プランが

  • ラージ:〜5GB
  • Xラージ:〜10GB

なのに対して、両プランとも100GB超に対応できる予定です。

何が速くなるのか?

データソース

  • ファイルアップロード
  • S3
  • 全SQL系

分析機能

機械学習、自然言語処理、時系列分析、などの高度分析を除いたほぼ全ての前処理に適用

どのくらい速くなるのか?

8,000万行×14列(約5GB)のデータを用いて比較した例を紹介します。

下記のようなデータ量が大きくなると時間がかかる分析機能を例にとると、これまでのXラージプランと比較し、約5〜10倍の高速化実現しました。

どうやって実現した?

これまで、nehanは全てpythonでデータ処理を行っておりました。

pythonは下記の通り、1仕事1人で処理を行うイメージです。

Hyper nehanでは、pythonに変わりSparkという技術を採用し、下記のように複数人で処理を行えるようにしています。

Hyper nehanのラージ・Xラージのプランの差は、この仕事をする人数の差と考えていただくとわかりやすいと思います。

これにより、処理を分担して行うことで、大規模データに対応・高速化が実現できましたが、全てのデータ量で優位、というわけではありません。

実は「分担」という作業自体にも時間がかかるため、小規模データにおいてはpythonで処理したほうが速いのです。

そのため、Hyper nehanでは

  • 小規模データではpythonで処理する
  • 大規模データではSparkで処理する

自動スイッチの仕組みを採用しています。

また、機能ごとに、データ量と処理の仕方を鑑みて、AIがpython/Sparkどちらで処理するべきかを自動判定します。(※)

余談ではありますが、この思想はHONDA社の生産する自動車に搭載されている「VTEC」の思想に近しいと言えます。気になる方はぜひ調べてみてください。

Hyper nehanの注意点

スケジュール機能を運用に用いた場合の注意点ですが、Spark構成の特徴上、実行時間がピタッと安定しません。

例えば、複数人で大規模データを処理する場合、実行時間が伸びる傾向があります。

 

※:AIの稼働は、データ処理ログが蓄積し次第順次搭載し、それまでは固定数値のしきい値で切り替えを実施します。

コーポレートTOPへ

Contact