Zendesk、DynamoDBからMySQLとS3へ移行し、コストを80％以上削減 - InfoQ

原文げんぶんリンク(2023-12-29)

Zendeskは、DynamoDBからMySQLとS3を使用しようした階層かいそう型がたストレージソリューションに移行いこうすることで、データストレージのコストを80%以上いじょう削減さくげんした。同社どうしゃは様々さまざまなストレージ技術ぎじゅつを検討けんとうしたが、コストを抑おさえつつ、クエリ性せいとスケーラビリティのバランスを取とるために、リレーショナルデータベースとオブジェクトストアを組くみ合あわせることにした。

Zendeskは、ストレージにDynamoDBを使用しようして、イベントストリームデータの永続えいぞく化かソリューションを作成さくせいした。初期しょきの設計せっけいはうまくいっていたが、ソリューションの運用うんようコストがどんどん高たかくなっていった。チームはプロビジョニング課金かきんモデルに切きり替かえ、コストを50％削減さくげんしたが、顧客こきゃくベースの拡大かくだいと新あたらしいクエリパターンをサポートするためのグローバルセカンダリインデックス（GSI）の必要ひつよう性せいに伴ともない、アーキテクチャの運用うんようコストは維持いじできなくなった。

DynamoDBを使用しようした初期しょきのアーキテクチャ（出典しゅってん：Zendesk Engineering Blog）

ZendeskはAWS上じょうでプラットフォームを運用うんようしているため、チームはコストを削減さくげんしながら機能きのう的てき・技術ぎじゅつ的てき要件ようけんを満みたせる代替だいたいストレージソリューションを探さがしていた。S3、Hudi（Zendeskで使用しようされているデータレイク）、ElasticSearch、MySQLを検討けんとうしたが、Hudiはその複雑ふくざつさと24時じ間あいだの遅延ちえんが発生はっせいするため、ElasticSearchはDynamoDBを使用しようするのと同様どうようのコストのため、採用さいようを見送みおくった。最終さいしゅう的てきにチームは、Apache Kafkaからのログのバッファリングとメタデータの保存ほぞんにMySQLを使用しようし、1ファイルあたり10,000のバッチで生なまデータを保存ほぞんするためにS3の使用しようを決定けっていした。

インジェストフローでは、Kafkaから消費しょうひされたログデータをMySQLのバッファテーブルに格納かくのうする。1時じ間あいだごとに、バックグラウンドジョブがバッファテーブルからS3に1ファイルあたり1万まんログのバッチで新あたらしいレコードをアップロードし、S3ファイルごとにメタデータレコードを挿入そうにゅうする。別べつの毎時まいじジョブは、バッファテーブルから4時間じかん以上いじょう前まえのログを削除さくじょする。

MySQL（AuroraDB）とS3を使用しようした新あたらしいアーキテクチャ（出典しゅってん：Zendesk Engineering Blog）

クエリを処理しょりするために、新あたらしいソリューションでは、MySQLのメタデータテーブルをルックアップし、ルックアップによって返かえされたファイルに対たいしてS3-Selectクエリを並行へいこうして実行じっこうする必要ひつようがある。データレイアウトは時とき系列けいれつ検索けんさくに最適さいてき化かされているため、チームはより複雑ふくざつなクエリを実行じっこうする際さいに問題もんだいを経験けいけんした。

Zendeskの技術ぎじゅつ開発かいはつ部門ぶもんの責任せきにん者しゃであるShane Hender氏しは、新あたらしいアーキテクチャにおける柔軟じゅうなんなクエリの課題かだいについてこのように説明せつめいしている。

一いち通とおり動作どうささせた後のち、クライアントがタイムスタンプ以外いがいのフィールドで結果けっかをフィルタリングしたい場合ばあい、パフォーマンスの問題もんだいが発生はっせいしました。例たとえば、クライアントが特定とくていのユーザーIDのログが欲ほしい時とき、最悪さいあくの場合ばあい、関連かんれんするログを見みつけるために、時間じかん範囲はんい内ないの全すべてのS3データをスキャンしなければなりません。

エンジニアは、より多おおくのフィルタリング可能かのうなフィールドを扱あつかうために、S3でデータを複製ふくせいすることを検討けんとうしたが、フィールドの組くみ合あわせの数かずを考かんがえると、このアプローチは実現じつげん不可能ふかのうだった。最終さいしゅう的てきに、彼かれらはブルーム・フィルターに注目ちゅうもくし、さらにCount-Min Sketchデータ構造こうぞうと組くみ合あわせることで、マルチフィールド・フィルタークエリーをサポートする効果こうか的てきな方法ほうほうを提供ていきょうした。改善かいぜんされたソリューションでは、クエリするS3ファイルを決定けっていするために使用しようされるシリアライズされたデータ構造こうぞうを格納かくのうする追加ついかのテーブルが必要ひつようになった。

移行いこう後ご、ZendeskはストレージコストをDynamoDBのプロビジョニングコストの20%未満みまんに削減さくげんし、MySQL (AuroraDB)が90%以上いじょう、S3とS3-Selectが10%未満みまんを占しめるようになった。新あたらしいソリューションのクエリレイテンシは約やく200-500ミリ秒びょうだが、数すう秒びょうに及およぶものもあり、チームはさらなる最適さいてき化かを目指めざしている。

作者さくしゃについて

Rafal Gancarz

もっと見みるより少すくなく

Topics

Spring BootによるAPIバックエンド構築こうちく実践じっせんガイド第だい2版はん

マルチリージョン・データレジデンシーのためのアーキテクチャを理解りかいする

Justin Sheehy、AIハイプの時代じだいにおける責任せきにんある開発かいはつ者しゃであるために

創造そうぞう的てき活動かつどう：スタッフ・プラスは、「科学かがく」というよりもむしろ「芸術げいじゅつ」である

Low Code/No Codeを採用さいようする：確認かくにんするべき6つの適性てきせい

役やくに立たつリンク集しゅう

地域ちいきを選えらぶ

Zendesk、DynamoDBからMySQLとS3へ移行いこうし、コストを80％以上いじょう削減さくげん

作者さくしゃについて

Rafal Gancarz

この記事きじに星ほしをつける

このコンテンツのトピックは Amazon Webサービスです。

関連かんれん記事きじ:

関連かんれん記事きじ

関連かんれんスポンサーコンテンツ

QCon London：Netflix、サーバー駆動くどう型がた通知つうちで時間じかんとコストを節約せつやく

InfoQ Dev Summit Boston：AIハイプの時代じだいにおいて責任せきにんある開発かいはつ者しゃであるために

JetBrains IDE RustRoverが無償むしょうの非ひ商用しょうようライセンスで正式せいしきリリース

マルチリージョン・データレジデンシーのためのアーキテクチャを理解りかいする

Uber社しゃ、DynamoDBからLedgerStoreに1兆ちょうレコードを移行いこうし、年間ねんかん600万まんドルを節約せつやく

QCon London：Meta社しゃ、モノリシック・アーキテクチャを用もちいわずか5ヶ月かげつでThreadsをリリース

包括ほうかつ的てきなパブリックソフトウェア・プラットフォームを構築こうちくするためのアイデア

製品せいひんとしてのプラットフォームを構築こうちくすることで、ソフトウェア・エンジニアはどのように力ちからを得えたか？

ソフトウェア製品せいひんチームを技術ぎじゅつ投資とうし家かに変かえる

Redisがマルチスレッド・クエリ・エンジンでベクトルセマンティック検索けんさくのパフォーマンスを向上こうじょう

OpenAI、脱獄だつごく耐たい性せいを向上こうじょうさせたGPT-4o miniモデルをリリース

Justin Sheehy、AIハイプの時代じだいにおける責任せきにんある開発かいはつ者しゃであるために

HashiCorp、KubernetesとNomadの統合とうごうを強化きょうかしたConsul 1.19をリリース

HashiCorp Boundaryがエイリアス、MinIOストレージ、検索けんさく機能きのうを追加ついか

Ngrok Traffic Inspectorがネットワーク・トラフィックのオブザーバビリティを提供ていきょう

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持もちでない方ほう

Zendesk、DynamoDBからMySQLとS3へ移行いこうし、コストを80％以上いじょう削減さくげん

作者さくしゃについて

Rafal Gancarz

この記事きじに星ほしをつける

このコンテンツのトピックは Amazon Webサービス です。

関連かんれん記事きじ:

関連かんれん記事きじ

関連かんれんスポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは Amazon Webサービスです。