データレイクについて（１）

はじめに

こんにちは、ディーネットの牛山です。

先日、幕張メッセで開催されたAWS Summitに参加してきました。

基調講演では、生成系AIや機械学習といったテクノロジーを題材とした内容でデータの利活用をおこなうことは企業にとって必須となってきていることが印象に残りました。

今回は、データレイクについて取り上げていきたいと思います。

ほぼ、書籍から拾ってきている情報ですが、参考になれば幸いです。

データのため池のような意味で、構造化（CSV、RDBMSのデータ等）されたデータだけでなく、半構造化データ（JSON、XML等）や非構造化データ（画像や音声データ等）を一元的にそのままの形で保存か可能な、使いたいとき使えるようにしておく場所のようなものです。

データレイクにおける典型的なアーキテクチャとして以下の構成要素があり、主に4つの構成要素からなります。

データレイクは一般的に、データ活用のアーキテクチャ全体を指す場合が多いですが、データ保存要素を狭義のデータレイクと呼ぶことがあります。

AWSのデータレイクサービス群は、保存要素にあたるAmazon S3を入出力先のストレージとして作られており、継続的に新しい機能や機能追加がおこなわれています。

以下に、それぞれの構成要素に当てはまるAWSサービス群を列挙しています。

収集	保存	変換	分析
AWS Database Migration Service	Amazon S3	AWS Glue	Amazon QuickSight
Amazon Kinesis	AWS Glue	AWS Lake Formation	Amazon Personalize
Amazon Managed Streaming for Apache Kafka	AWS Lake Formation		Amazon Athena
Amazon Forecast
Amazon Redshift
Amazon SageMaker
Amazon OpenSearch Service

発生したデータをどのタイミングで処理するか考慮する必要があり、2つの方式があります。

イメージについては、以下、AWSの公式ブログをご参照ください。
※イメージ図

RDBMSからデータシェアウェアハウス、データレイクといった歴史があり、課題を解決するためにデータレイクが誕生しました。

次回のブログではより詳しく、収集・保存・変換・分析についてみていければと思っています。

プロフィール
AWSの設計・構築をメインにおこなっています。
運用・保守をおこなう部署におりましたが、最近、アーキテクト課に異動しました。
日々精進しております。