【製品情報】Analytics Lakehouse(Q3 2025)
音声ガイド
1. EDB Analytics Lakehouseとは?
一言で言うと、Postgresを分析用に超強化する機能です。AWS S3のような安価なクラウドストレージに保存されている巨大なデータセット(テラバイト級以上)に対して、標準的なSQLを使い、驚くほど高速にクエリを実行できます。
S3上の巨大なファイルを、まるでPostgres内の高速なテーブルであるかのように扱えるようにする機能、と考えてください。
2. なぜ使うべきか?(メリット)
- 分析クエリが超高速に: 分析クエリが劇的に速くなります。データを列単位で読み込むように設計されているため、レポート作成に最適で、不要な行データを読み込む無駄がありません。
- コストを大幅に削減: 巨大な履歴データを、高価なデータベースディスクではなく、安価なオブジェクトストレージ(S3など)に保存できます。
- コードの簡素化(ETL不要): Postgres内の「ライブデータ」とS3の「アーカイブデータ」を、1つのSQLクエリで結合できます。システムが裏側で全てを処理してくれるため、複雑なデータ移動ジョブ(ETL)が不要になります。
- ベンダーロックインの回避: オープンなフォーマット上に構築されています。つまり、Apache Sparkなど他の人気ツールも全く同じデータを読み書きできるため、柔軟性が高まります。
3. どのように動くのか?(簡単な仕組み)
処理(コンピュート)とデータ(ストレージ)を賢く分離することで実現しています。
- データはクラウドストレージに: 大規模なデータセットは、S3バケット内にファイルとして存在します。
- 専用エンジンが処理を実行: 分析クエリが実行されると、通常のPostgresエンジンは使いません。代わりに、オンデマンドで専用の高性能な分析エンジンを持つ「Lakehouseノード」を起動します。
- 効率的な処理: この専用エンジンは、S3からカラムナ(列指向)データをスキャンし、メモリ上で処理して、素早く結果を返すように最適化されています。この強力なコンピュートは、クエリ実行時にのみ課金されます。
4. 何が作れるのか?(ユースケース)
- 高速なダッシュボード: 何年分もの履歴データにクエリを実行しても、待たされることのないBIツール(TableauやPower BI)のダッシュボード。
- ログ分析: S3に保存されたテラバイト級のアプリケーションログやサーバーログに対し、直接複雑なSQLクエリを実行。
- 履歴データのレポーティング: 本番データベースの速度を低下させることなく、巨大なデータセットを分析する四半期末レポートなどを作成。
- AI/ML向けデータ: データサイエンスチームが機械学習モデルのトレーニングに使うための、クリーンで巨大なデータセットを迅速に提供。
Apache Icebergとは?(簡単な説明)
クラウドストレージ上のデータが、単なる巨大なファイルの集まりだとしたら、それは混沌とした状態です。
Apache Icebergは、それらのファイル群の上にある賢い「目次」のようなものです。
この「目次」が混沌とした状態を整理し、データレイクにデータベースのような機能を与えます。開発者にとっての主なメリットは以下の通りです。
- 簡単なスキーマ変更: テラバイト級のデータを全て書き換えることなく、列を追加したり名前を変更したりできます。これは開発者にとって救世主のような機能です。
- 信頼性の高いデータ: 複数のシステムが同時に書き込みを試みても、データの破損を防ぎます(ACIDトランザクションを提供)。
- タイムトラベル(過去データの参照): 昨日や先週の時点のデータを簡単に照会できます。デバッグやレポートの再実行に非常に便利です。
日本語マニュアルを見る
※ 日本語マニュアルの閲覧には ユーザー登録(パスワード)が必要です。