AWS

データレイクについて(1)

はじめに

こんにちは、ディーネットの牛山です。

先日、幕張メッセで開催されたAWS Summitに参加してきました。

基調講演では、生成系AIや機械学習といったテクノロジーを題材とした内容でデータの利活用をおこなうことは企業にとって必須となってきていることが印象に残りました。

今回は、データレイクについて取り上げていきたいと思います。

ほぼ、書籍から拾ってきている情報ですが、参考になれば幸いです。

データレイクとは

データのため池のような意味で、構造化(CSV、RDBMSのデータ等)されたデータだけでなく、半構造化データ(JSON、XML等)や非構造化データ(画像や音声データ等)を一元的にそのままの形で保存か可能な、使いたいとき使えるようにしておく場所のようなものです。

データレイクのアーキテクチャ

データレイクにおける典型的なアーキテクチャとして以下の構成要素があり、主に4つの構成要素からなります。

データレイクは一般的に、データ活用のアーキテクチャ全体を指す場合が多いですが、データ保存要素を狭義のデータレイクと呼ぶことがあります。

  • データ収集
    データの発生元からデータを収集する要素
  • データレイク(データ保存)
    データをスケーラブルな形で保存し、データの詳細についての情報(データカタログ)を管理する要素
  • データ変換
    保存したデータに対して適切な加工成形処理をおこなう要素
  • 可視化、応用(データ分析)
    加工成形済のデータを活用する要素

各構成要素に対応するAWSのサービス

AWSのデータレイクサービス群は、保存要素にあたるAmazon S3を入出力先のストレージとして作られており、継続的に新しい機能や機能追加がおこなわれています。

以下に、それぞれの構成要素に当てはまるAWSサービス群を列挙しています。

収集 保存 変換 分析
AWS Database Migration Service Amazon S3 AWS Glue Amazon QuickSight
Amazon Kinesis AWS Glue AWS Lake Formation Amazon Personalize
Amazon Managed Streaming for Apache Kafka AWS Lake Formation   Amazon Athena
Amazon Forecast
Amazon Redshift
Amazon SageMaker
Amazon OpenSearch Service

データレイクの構成パターン

発生したデータをどのタイミングで処理するか考慮する必要があり、2つの方式があります。

  • バッチ処理
    日次や月次等、決まったサイクルで変換や分析をおこないます。

  • ストリーム処理
    発生したデータを取り込み、加工変換や分析をおこないます。

イメージについては、以下、AWSの公式ブログをご参照ください。
※イメージ図

おわりに

RDBMSからデータシェアウェアハウス、データレイクといった歴史があり、課題を解決するためにデータレイクが誕生しました。

次回のブログではより詳しく、収集・保存・変換・分析についてみていければと思っています。

返信を残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA