お客様のDXの推進やクラウド活用をサポートする
NRIグループのプロフェッショナルによるブログ記事を掲載

Data Lake Houseって何だろう?Azure Databricksをつくってみる

平田 一樹 - Microsoft Top Partner Engineer Award

はじめに

こんにちは。2023年のMicrosoft Top Partner Engineer AwardのAzureカテゴリに選出された平田です。普段はAzureを用いてデータを蓄積する基盤や分析・活用するための基盤づくりを支援しています。

Microsoft Top Partner Engineer Awardでは、23年12月にアドベントカレンダー形式で、各受賞者のブログや記事を紹介するというイベントが行われておりまして、それと連動したatlax blog執筆となります。NRIの受賞者では畑さん、工藤さんもアドベントカレンダー企画に参加していますので、ほかの受賞者の方の記事もあわせて読んでみてください!

前置きが長くなりましたが、Microsoft Top Partner Engineer Awardで評価いただいたデータ分析に関する技術紹介をしたいと思います。「データを制する者がビジネスを制する」といわれて久しいですが、蓄積するデータの種類も分析する手段も増え、非構造/構造化データを関係なく様々な分析が行われ始めている状況です。一方で、情報の取り扱いに対する法律の改定などもあり、自由な分析とトレードオフになる要素もあり、設計を進めるうえで重要なポイントとなっています。その中で、課題解決の手段の一つとして、構造/非構造問わず扱うことの可能なData Lake Houseというアーキテクチャと、それを利用可能なサービスとしてDatabricksの紹介をします。

 

Data Lake House(DLH)って?

Data Lake House(DLH)は、Data Lake+Data Ware Houseという名が指す通り、非構造化データを扱うことのできるData Lakeと、構造化データの管理を強力に実施可能なData Ware House(DWH)の機能を併せ持ったアーキテクチャです。Data Lakeでは機械学習やデータ分析の用途が強く、BIレポートの作成にはDWHが使われる傾向にあります。


Data Lakeに多様な知見を生む可能性があるデータが存在するのに、BIで生かされない理由としては、Data Lakeに対するクエリ発行等は敷居が高くみえることが要因の一つとしてあるように思います。その敷居を下げて、よりデータの活用を進めるためにもDLHは有効なアーキテクチャとなります。

※BI(Business Intelligence):企業が持つさまざまなデータを分析・見える化して、経営や業務に役立てること

 

Azure Databricksって? Azure Databricksをデプロイしてみた

Data Lake Houseを有効活用できるAzureサービスの一つとして、Azure Databricksがあります。

上記はMicrosoftのAzure Databricks(以下、Databricks)概要からの抜粋ですが、データ分析や管理をするのに適したサービスの一つです。また、Databricksで利用するData Lake House上のデータのガバナンスソリューションとして、Unity Catalogが提供されており、データ管理上、強力な役割を果たしています。

触ってみるのが理解への近道ですので、とりあえず作ってみましょう。
Databricksは価格レベルとして、「Standard」と「Premium」の二種類があります。機能差異の詳細には触れませんが、使ってみるという点ではStandardで十分です。一方、監査や認証、IPアクセスリスト(2023年12月現在プレビュー)を考えるとPremiumを利用するケースもあるかと思います。なお、Premiumが試用版(※一部制約あり)として、14日間利用できますので、それで触ってみるのもよいと思います。

 


「ワークスペースの起動」を選択することで、Databricksのワークスペースを開くことができます。Databricksのワークスペースを開くと以下のように表示されます。

 

 

Unity Catalogの有効化は、アカウント管理から実行可能です。


アカウント管理から、アカウントコンソールに移動し、「データ」を選択して、「メタストアを作成する」から遷移し、メタストアの作成を行います。


作成したメタストアにDatabricksワークスペースを割り当てることで、Unity Catalogを有効化することができます。

 

これで、Databricksワークスペースの起動とUnity Catalogの有効化ができましたので、SQLウェアハウスを起動し、各種データのアップロードや管理、その他データソースと接続を行うことで多様な分析ができるようになります。有用な分析にはデータを集めるという作業も必要となりますが、起動できるものを作るところまでは、ここまでです。実際にシステムとして提供する際には、当然、閉域化や権限分掌など検討事項は多岐に渡りますが、まずは触ってみてもらえればと思います。

Azure Databricks の価格については  Azure Databricks の価格 | Microsoft Azure

 

おわりに

データの蓄積量は膨大となり、それを利用する技術も日進月歩で進化しており、興味の幅を広げて、色々な技術に触れることは大切なことです。AIの進歩とデータ分析技術の進歩は切っても切れない関係にありますので、ぜひ、皆様も新しい技術に触れてもえればと思います。

Azure Databricksとは

learn.microsoft.com

 

 

 

お問い合わせ

atlax では、ソリューション・サービス全般に関するご相談やお問い合わせを承っております。

 

関連リンク・トピックス

・atlax / クラウドの取り組み / Microsoft Azure ※カテゴリ TOPページ

・2023/07/20 「Microsoft Top Partner Engineer Award」の Azure カテゴリに、NRI社員の 工藤 匡浩・畑 寛之・平田 一樹 が 選出されました ~ 案件の実績や先進性、マイクロソフトテクノロジーの普及活動などが評価 ~

※ 記載された会社名 および ロゴ、製品名などは、該当する各社の登録商標または商標です。
※ アマゾン ウェブ サービス、Amazon Web Services、AWS および ロゴは、米国その他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
※ Microsoft、Azure は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
※ Google Cloud、Looker、BigQuery および Chromebook は、Google LLC の商標です。
※ Oracle、Java、MySQL および NetSuite は、Oracle Corporation、その子会社および関連会社の米国およびその他の国における登録商標です。NetSuite は、クラウド・コンピューティングの新時代を切り開いたクラウド・カンパニーです。