【製品情報】EDB Postgres Analytic Accelerator 1.3

音声ガイド

概要

1. EDB Analytics Accelerator 1.3 とは何か?
EDB Analytics Accelerator (PGAA) は、EDB Postgresをトランザクション処理 (OLTP) と分析処理 (OLAP) の両方に対応する統合プラットフォームへと変革する、一連の統合された機能群です。

その中核的な目的は、Postgresの信頼性と親しみやすさを、現代的なデータレイクハウスのスケーラビリティとコスト効率に組み合わせることにあります。これにより、Postgresはクラウドのオブジェクトストレージ(AWS S3など)に保存されたオープンフォーマット(Apache IcebergやDelta Lakeなど)の巨大なデータセットを直接クエリできるようになります。このアプローチは、柔軟性を最大化するためにオープンスタンダードを活用し、複雑なETLプロセスを不要にします。

2. EDB Analytics Accelerator の利点は何か?
主な利点は、コスト削減、アーキテクチャの大幅な簡素化、そして既存データエコシステムとの連携強化です。

a. 利点:ETLパイプラインの排除とTCOの大幅な削減 (PGDオフロード)
これは間違いなく最も重要な利点です。この機能は、従来、分析プロジェクトのコストとワークロードの最大80%を占めると言われる、高コストで壊れやすく、時間のかかるETL(Extract, Transform, Load)パイプラインを置き換えるように設計されています。手動のエンジニアリング作業の代わりに、宣言的で自動化されたデータライフサイクルを提供します。

  • データ転送とフォーマット変換の自動化: ユーザーは「90日より古いデータをオフロードする」といったポリシーを宣言するだけです。システムはネイティブのトランザクションレプリケーションを使用し、データの移動とリレーショナル形式から分析用のIceberg形式への変換プロセス全体を自動的に処理します。 これにより、カスタムプログラミングや外部スケジューリングツールが完全に不要になります。
  • 内在するデータ検証: データ転送はデータベースによってトランザクションの保証付きで内部的に管理されるため、ETLで一般的なデータ品質の問題(データの欠損や重複など)を根本的に排除します。これにより、複雑でリソースを大量に消費するデータ照合ジョブの必要性がなくなります。
  • スキーマ進化の自動化: ソースとなるPostgresテーブルのスキーマ変更は、Icebergの強力なスキーマ進化機能を活用して、自動的にIceberg側の表現にも伝播されます。これにより、データレイクは手動介入なしで常に同期が保たれます。
  • トランザクション性能の最大化: このシームレスなオフロードの結果、主要な業務データベース(「ホット」層)はスリムで高速な状態を維持し、インデックス作成、バキューム、バックアップ時間が改善されます。
  • 階層を横断する透過的なクエリ: このような物理的な分離にもかかわらず、ユーザーは標準的なSQLクエリを実行するだけで「ホット」層と「コールド」層の両方のデータにシームレスにアクセスでき、基盤となる複雑さはすべて隠蔽されます。

b. 利点:既存データレイクとのシームレスな統合 (サードパーティIcebergカタログ)
これは相互運用性のための基盤となる機能であり、EDB Analyticsが既存のデータエコシステムにおける完全な統合メンバー(first-class citizen)になることを可能にします。

  • 自動検出と摩擦ゼロの導入: 管理者は何百ものテーブルを手動で定義する代わりに、既存のカタログ(AWS Glue, Nessieなど)にEDB Analyticsを一度接続するだけです。すべてのテーブルが自動的に検出され、即座にPostgres内でクエリ可能になります。
  • 真の相互運用性と単一の信頼できる情報源(Single Source of Truth): カタログは「共有された頭脳」のように機能します。Sparkのような別のツールがテーブルを書き込み・更新すると、EDB Postgresは即座にその変更を認識し、その逆も同様です。これにより、すべてのツールが一貫した単一の情報源から動作することが保証されます。
  • データ移行ゼロで即時の価値創出: 企業は、既存のIcebergデータを、使い慣れた強力なPostgres SQLで即座に分析し始めることができます。 これにより、コストのかかるリスキーなデータ移行プロジェクトなしに、即時の価値を提供します。

c. 利点:使い慣れた操作性とエコシステム (ネイティブPostgres)
ネイティブのPostgresインターフェースを使用することは、導入と運用の効率において大きな利点をもたらします。

  • 使い慣れたSQLインターフェース: アナリストや開発者は、既に知っている標準的なPostgres SQLを使用できるため、新しいクエリ言語の学習曲線が不要になります。
  • 広範なツールエコシステム: Postgresに接続できるあらゆるアプリケーションやBIツール(Tableau, Power BIなど)は、標準的なドライバーを使用して、データレイクハウスのデータに即座に接続し、クエリを実行できます。
  • 統一されたスキルセット: 企業は既存のPostgresに関する専門知識を管理、セキュリティ、運用に活用できるため、トレーニングや採用コストを削減できます。

3. Analytics Accelerator はどのようにしてこれらの利点を実現するのか?
専門的なコンポーネントと現代的なアーキテクチャ設計の組み合わせによって実現されます。

  • ストレージとコンピュートの分離: データはオブジェクトストレージに永続化され、専用のステートレスなレイクハウスノードが計算能力を提供します。これにより、それぞれを独立して拡張できます。
  • ベクトル化クエリエンジン: レイクハウスノードは、データをカラム単位のバッチで処理する、高度に最適化されたベクトル化実行エンジン(Apache DataFusionベース)を使用します。これにより、分析クエリが桁違いに高速化されます。
  • PGFS (Postgres File System): Postgresがさまざまなオブジェクトストレージシステムと透過的に対話できるようにするストレージ抽象化レイヤーです。
  • PGAA拡張機能: ユーザーがオブジェクトストレージ内のデータを指すテーブルを定義し、クエリを適切な実行エンジンに振り分けるための中核的な統合機能です。
  • スマートなクエリプランニング: 階層化テーブルに対して、プランナーは適切な層(ホットデータはPGD、コールドデータはレイクハウス)で実行されるサブクエリをインテリジェントに作成し、結果を統合します。

4. EDB Analytics Accelerator のユースケースは何か?

  • 金融サービス: コンプライアンスのために長年の取引データをアーカイブしつつ、本番システムを高速に保ち、データセット全体にわたるリスク分析クエリを実行する。
  • IoT・製造業: 大量のセンサーデータを管理し、リアルタイム監視には最新データを、トレンド分析や予知保全には履歴データを使用する。
  • 小売・Eコマース: 広範な注文履歴を階層化し、顧客サービスのために最近の注文はホット層に保持しつつ、長年の履歴データを分析して顧客行動を理解し、需要を予測する。
  • データレイクのモダナイゼーション: 既存のデータレイク上に即時利用可能な高性能SQLインターフェースを提供し、ビジネスアナリストが直接データをクエリできるようにする。

日本語マニュアルを見る
※ 日本語マニュアルの閲覧には ユーザー登録(パスワード)が必要です。