Databricksとは?特長やSnowflakeとの違いも解説
デジタルトランスフォーメーション(DX)が叫ばれて久しい昨今、データ活用の重要性は言うまでもありません。しかし、自社に眠る膨大なデータを前に「何から手をつければよいのか分からない」「セキュリティ面が心配」と二の足を踏んでいる企業も少なくないのではないでしょうか。
こうした中、マーケティング領域においてもデータドリブンな意思決定が求められています。
Webサイトの行動履歴や購買データを読み解くことで、顧客1人ひとりのニーズを捉えたパーソナライズド体験(CX)を提供することが可能となるためです。それは訪問者のロイヤルティ向上だけでなく、コンバージョン率アップにも直結するでしょう。
本記事では、マーケターの強力な味方となるプラットフォーム「Databricks」を紹介します。
Databricksは「レイクハウス」と呼ばれる新しいアーキテクチャで、ビッグデータの管理・活用からAI開発まで、データにまつわるあらゆるプロセスを効率化。使いこなすことで、かゆいところに手が届くマーケティング施策を打ち出せるでしょう。
記事の後半では競合サービスとの比較や導入事例もお届けしますので、ぜひ最後までお付き合いください。
目次
Databricksとは
Databricksはビッグデータ処理や機械学習モデルの開発、データの可視化など、さまざまなデータ関連のタスクを実践する次世代のクラウド型プラットフォームです。Apache Sparkをベースにしており、スケーラブルなデータ処理と分析を提供します。
Databricksはデータサイエンティストやエンジニアが生産性を高めデータドリブンな意思決定をおこなうための支援ツールとして、2013年にカルフォルニア大学に在学していた大学院生と教授達によって創業されました。
レイクハウスプラットフォーム
Databricksは「データウェアハウス」と「データレイク」を統合したデータ分析基盤「レイクハウス・プラットフォーム」を提供しています。まずはそれぞれの特徴を見ていきましょう。
「データウェアハウス」とは直訳すると「データの倉庫」という意味で、組織内のさまざまなソースからデータを収集し一元化して保存するデータ管理システムのことです。高速処理が可能ですが、専用フォーマットが必要で機械学習には適していないというデメリットがあります。
一方「データレイク」はオープンフォーマットで安価に構造化データと非構造化データを格納でき、機械学習にも対応可能というメリットがあります。ただし、ガバナンスの実施や性能が最適化されていないため、活用できないデータが大量に溜まっている「データの湖」のようなフォーマットです。
それぞれにメリット・デメリットがありますが、その2つのアーキテクチャを統合することで購買データやテキスト、画像データなどあらゆるデータの取り込みから分析までのプロセスを一元管理・分析することができます。それが「レイクハウス・プラットフォーム」です。
データ基盤とAIの課題
「レイクハウス・プラットフォーム」のようにビッグデータとAIを組み合わせたソリューションが増えている半面、多くの課題が残っています。ここでは以下の3つの課題を解説します。
- データ準備に時間がかかる問題
- セキュリティとガバナンスの課題
- データ分析環境の機能不足と個別構築の問題
それぞれを見ていきましょう。
データ準備に時間がかかる問題
AIを活用するためには適切なデータを収集し、前処理をおこなう必要があります。
異なるソースからのデータ統合やクリーニング、欠損値や異常値の処理などをおこない、さらにはAIモデルへ教育をおこなう時間も必要です。
「データ活用業務の80%は事前準備」と言われるほどデータ準備は最も重要なプロセスであり、データ活用の信頼性を高めるためには欠かせません。しかしこれらを実践するための社内リソースがなく、なかなか導入に踏み切れない企業は少なくないでしょう。
セキュリティとガバナンスの課題
取り扱うデータの種類や量が多くなると懸念されるのが、セキュリティとガバナンスの問題です。
特にAIの活用には権利の侵害やデータ流出、サイバー犯罪などのリスクが含まれるため、適切なAIガバナンスを規定する必要があります。
しかしながらモデルとなる倫理的なガイドラインがなくリスクの排除が難しいのが実情で、セキュリティとガバナンスについては今後も検討されるべき課題です。
なお2021年には経済産業省が「AI原則実践のためのガバナンス・ガイドライン」を発表していますが、法的な拘束力はなく自主的な対応が求められています。
参照:AI 原則実践のための ガバナンス・ガイドライン Ver. 1.1|経済産業省
データ分析環境の機能不足と個別構築の問題
データの分析環境においては機能不足によって分析環境が孤立してしまう課題もあります。
統合されたデータを活用していたとしても、業務プロセスや使用するアプリケーションが異なれば、データの変更履歴や関連性を追えずに無駄な作業が発生してしまうでしょう。
さまざまな種類のデータを統合するだけではなく、それらを一元管理する分析環境やプラットフォームの構築が必要だと言えます。
Databricksの特長
上記のような課題を一挙に解決するのがDatabricksです。
本章ではDatabricksの機能と特長について解説します。
データの統一とカタログ機能
従来の手法では、データの統合はできても分析や機械学習といったプロセスは分断され、データの独立が生じていました。しかし、Databricksはそれらの情報をすべて統合した状態での一元管理が可能です。データの蓄積、加工、活用ができるほか、分析結果はダッシュボードで可視化され、必要に応じてレポートも作成できます。
また、カタログ機能を使えば、複数のワークスペースに対して一元化されたアクセス制御、監査、系列、およびデータ検出機能を利用できます。
AIデータの活用を実現
Databricksはたった1行のコードでAIモデルが生成できるため、開発・運用に負担がかからないことが利点です。また、ノウハウや専門知識が必要なくても、AIモデルの開発から運用やサイクルまでAIデータのすべてをブラウザ操作のみで管理できます。
さらに構築した機械学習モデルを登録すればチーム内でモデルを共有でき、さらなる作業効率化が図れるでしょう。
高速処理エンジンを搭載
増え続けるデータに対して処理が追い付かずパフォーマンスが低下する、という従来の課題を解決するのがDatabricksです。
Databricksでは並列分散処理をおこなうことにより、大量のデータや機械学習の高速処理を実現しました。
実行時間が短縮され、プロジェクトが滞る心配がありません。
チーム内の共同作業の効率化
Databricksでは許可されたメンバーは直接ノートブックにコメントや編集ができるため、メンバー間でコミュニケーションをとりながら共同作業が可能です。
加えて、各データのバージョン管理や復元機能もあり、データの質を担保しながら開発をスムーズに進めることが可能です。これにより作業の効率化や生産性の向上を見込めるでしょう。
マルチクラウドに対応
Databricksはクラウドに特化したサービスであり、Microsoft Azure、Amazon Web Services(AWS)、Google Cloud Platformなどの大手サービスに対応しています。
また、新たなクラウドサービスを利用する際も、数クリックでデータ分析基盤を変更可能です。専門的な操作が不要な点に加えて、オープンソースでありながらセキュリティやガバナンスの信頼性も高く評価されています。特別なソフトウェアやアプリケーションを用意する必要なく導入できる点もポイントです。
DatabricksとSnowflakeの比較
しばしばDatabricksの比較対象として挙げられるのがSnowflakeです。今回は以下の4つの項目から両サービスの違いについて解説します。
Databricks | Snowflake | |
パフォーマンス | Snowflakeよりも2.6倍高速で動作する | データウェアハウスに重点を置いて、クエリの高速処理と分析能力が高い |
使いやすさ | 多様なニーズに対応しているが操作は複雑 | 導入時プロセスが自動化されていて簡単に行える |
コスト面 | インスタンスタイプや追加サービスなどに基づいて決定 | 使用量、追加機能などに基づいて決定 |
セキュリティ対策 | 暗号化、ネットワーク制御、データガバナンス、監査 | 暗号化、ロールベースのアクセス制御、ガバナンスサービス |
パフォーマンス
データウェアハウスやクラウド式プラットフォームにおけるパフォーマンスとは、クラウド上のデータベースがクエリを実行する際の速度や性能を意味します。
優れたパフォーマンスは企業の利益を最大化するために必要な要素です。前述の通り、DatabricksはApache Sparkに基づき膨大なデータの高速処理を実現しています。
一方でデータウェアハウスに重点を置いているSnowflakeも、クエリの高速処理と分析能力に長けています。
しかし、2021年のパフォーマンス検証の結果では「DatabricksはSnowflakeよりも2.6倍高速で動作する」ということがDatabricksの公式ブログで公表されています。
使いやすさ
クラウド式のデータソリューションを採用する際、既存のメンバーで操作できるかどうかも重要なポイントです。メンバーを教育するか新たな人材を採用するか、いずれにしてもコストがかかるため、負担をかけずに導入できるかを事前に確認しておきましょう。
DatabricksとSnowflakeはいずれもユーザーの使いやすさに特化したサービスですが、データ ウェアハウス シナリオの使いやすさに慣れたユーザーはSnowflakeを好む傾向にあります。
Snowflakeの特長は導入時のプロセスが簡素化され、自動化機能が多く備わっている点です。
一方でDatabricksは幅広いニーズに対応する機能を提供している分、必要な操作が多いと感じるようです。
コスト面
DatabricksとSnowflakeはいずれもリソースの使用量に対して支払いをおこなう従量課金制のプランを提供していますが、料金体系にはいくつかの違いがあります。
Snowflakeの料金はストレージやコンピューティング使用量、追加機能などに基づいて決定されます。
一方でDatabricksはインスタンスタイプや追加サービスなどに基づいて請求されるため、より複雑な料金体系であると言えます。
なお、Databricksはデータウェアハウスのベンチマークである「TPC-DS 100TBクラス」で世界記録を更新しており、あらゆるデータプラットフォームの中で最も低いTCO(Total Cost of Ownership:総所有コスト)を実現しています。
セキュリティ対策
クラウドサービス導入時の大きなハードルであるセキュリティ対策については、DatabrickとSnowflakes双方ともデータの保護を最優先と捉え、さまざまな施策を実践しています。
Databricksのセキュリティ対策の一例としては暗号化、ネットワーク制御、データガバナンス、監査などがあり、ユーザーデータとワークロードを保護するための包括的なセキュリティ機能が提供されています。
Snowflakeでも同様に暗号化やロールベースのアクセス制御、ガバナンスサービスなどを提供しながら、常にその信頼性を高めています。
Databricksの導入事例3選
本章ではDatabricksの導入事例を紹介します。
今回は国内で著名な大手3社をピックアップしました。
Looop
「エネルギーフリー社会の実現」をミッションに掲げ、太陽光発電所システムの開発・販売や、再生可能エネルギーを使用した商品の企画・開発を展開する株式会社Looopは、Databricksのプラットフォームを導入し、データの一元管理、民主化、性能向上に成功しました。
同社の課題はデータドリブンな多数のプロジェクトを支えるデータ基盤の選定です。
Databricks導入前は各人の分析環境がバラバラで、ソースコードや分析言語のバージョンが異なるなど、分析環境のガバナンスが担保できておらず、さまざまなリソースが不足していたと言います。同社はこれらの課題解決のためにいくつかのソリューションを比較検討し、その結果としてDatabricksを採用しました。
その効果は絶大で、一般的な分析におけるデータ処理性能は導入前と導入後で最大410倍のパフォーマンス向上が実現したほか、モバイルアプリケーションを活用した顧客向けの解約抑止施策では解約率が20%近く改善されました。まさに分析環境の統一とデータの一元管理によってデータの民主化が体現された事例です。
オムロン
家庭・医療用健康機器および健康管理ソフトウェアの開発・販売など多面的な事業を展開する電子機器メーカー・オムロン ヘルスケアはDatabricksのレイクハウスプラットフォームにデータ分析の全ユースケースを集約し、未来予測型オペレーションに向けた取り組みを推進しています。
同社がDatabricksを採用した最大の理由は「単一のプラットフォームでAIからBIまですべての分析ユースケースに対応でき、データ分析に関わるすべてのメンバーが効率的に協業が可能な点」です。
また、ステークホルダーとの信頼関係に重点を置いている同社は的確でスピード感のあるDatabricksの性能と手厚いサポートにも高く評価をしています。
Databricks導入後、同社は「これから何が起こり、それにどう対応するのか」という未来に取るべき行動に焦点を当てるようになったと述べており、Databricksは技術的なソリューションだけでなく社内の意思決定プロセスにも影響を与えていることが分かります。
カルビー
常に新しい発想で新製品の開発に臨み、日本はもとより世界中で愛される商品を提供しているスナックメーカー大手のカルビー。かねてよりマーケティングDXを推進しており、顧客との接点を増やすため、Azure Databricksを活用した「販売店検索システム」を開発しました。
これは「商品がどこで売られているか知りたい」という顧客のニーズに対して、商品が購入できる店舗を検索できるシステムです。
採用の決め手となったのは「スピードと拡張性」だとカルビーの担当者は述べています。
カルビーは数えきれないほどの商品数を取り扱っており、店舗や配荷日で集約すると1回で処理すべきレコード数は数千万にも上ります。
そこで大規模データを短時間で処理するための最適なソリューションとして、Databricksを採用。
さらに同システムはわずか2か月という短期間で構築されました。
現在は一部の商品に限定して活用されていますが、ゆくゆくは対象商品を増やしたり、データを活用してメーカー側からキャンペーンを告知したりしたいと、同社はDatabricksの拡張性の高さにも期待を寄せています。
参考:Databricks のお客様 │ Databricks
Databricksの将来性
Databricksは今後もビッグデータ分析とAIの分野で影響力を高めていくことが予測されます。
Databricksの最新の動きを基にその理由を解説します。
2024年のIPOによる成長の可能性
Databricksは収益が10億ドルを超え、直近のDatabricksの評価額は430億ドルに達し、まさに今注目のデータテクノロジー企業です。
また2024年のIPOに向けて準備を進めており、投資家からも関心を集めています。2024年度はDatabricksにとって大きな可能性を秘めたシーズンとなるでしょう。
Databricksの最新ニュース
Databricksは2023年から多数の企業買収を続けており、その市場価値を高めています。
直近では2024年1月31日(米国時間)にAIに特化したデータ基盤を提供するEinblickを買収することを発表しました。Einblickは自然言語による質問をコード、チャート、モデルに変換する技術を開発する企業で「AIネイティブコラボレーションプラットフォーム」を構築しています。
これらのインシデントを機にデータの民主化がさらなる発展を遂げることが期待されています。
まとめ:まとめ:Databricksはデータ分析とAIが統合した次世代プラットフォーム
Databricksは、これからのマーケティングを力強く支援してくれる頼もしいプラットフォームです。
大量のデータを自在に扱い、かつAIを活用した高度な分析を可能にする点は、他のツールと一線を画すと言えるでしょう。
データドリブンマーケティングは、もはや避けて通れないトレンド。しかし、専門的な領域だけにハードルの高さを感じるマーケターの方も多いのではないでしょうか。
ギャプライズでは、データ活用によるマーケティングの効果向上を支援するコンサルティングサービスを提供しています。お客様のニーズに合わせて、データ分析基盤の構築から、データを活用したマーケティング施策の立案・実行まで、幅広くサポートいたします。
Databricksをはじめとする最新のデータ分析ツールの選定や導入に関するアドバイスも可能ですが、ツールの導入だけでなく、お客様のマーケティング課題に応じたトータルソリューションをご提案することを得意としています。
データとテクノロジーを活用した、効果的なマーケティング活動の実現に向けて、ぜひギャプライズをご利用ください。お客様のマーケティングのDX化を、チーム一丸となってサポートいたします。
お気軽にお問い合わせください。
今本 たかひろ/MarTechLab編集長
料理人→旅人→店舗ビジネスオーナー→BPO企業にてBtoBマーケティング支援チームのPLを4年半経験し、2023年2月よりギャプライズへジョイン。フグを捌くのもBtoBマーケティングを整えるのも根本は同じだという思考回路のため、根っこは料理人のままです。家では猫2匹の下僕。虎党でビール党。