データ統合とうごう課題かだいはデータ仮想かそう解決かいけつ

データ活用かつよう万能ばんのうナイフ「CData Virtuality」で、めるだけのビッグデータやDWH乱立らんりつ訣別けつべつ

大谷おおやイビサ 編集へんしゅう●ASCII

提供ていきょう: CData Software Japan

  • この記事をはてなブックマークに追加
  • 本文印刷

 CData Softwareの「CData Virtuality」は企業きぎょうのデータ統合とうごう最適さいてきなデータ仮想かそう製品せいひん。「それはデータウェアハウス(DWH)やレプリケーションを使つかえばいいのでは?」とおもったユーザーはぜひ記事きじんでいただきたい。めているだけのビッグデータ、複数ふくすうのBIツールやDHWの管理かんり統合とうごうなやむユーザーにもオススメ。いたのは、CData Software Japanテクニカルディレクターの桑島くわしま 義行よしゆきだ。

CData Software Japanテクニカルディレクターの桑島くわしま 義行よしゆき

現場げんばとデータを最適さいてきかたち連携れんけいするデータ仮想かそう

 CData Virtualityはエンタープライズグレードのデータ仮想かそう実現じつげんするソフトウェア。CData Softwareが今年ことしの4がつ買収ばいしゅうしたドイツのData Virtuality GmbHの製品せいひんがベースになっており、買収ばいしゅう大文字おおもじの「C」を追加ついかし、CData VirtualityとしてCData製品せいひんのポートフォリオに統合とうごうしている。

 これまでCData Softwareはデータのレプリケーションをおこなう「CData Sync」、B2B連携れんけいをノーコードで自動じどうできる「CData Arc」、セルフサービスでデータ接続せつぞくおこなう「CData Connect Cloud」などを展開てんかいしてきたが、今回こんかい紹介しょうかいする「CData Virtuality」はエンタープライズグレードのデータ仮想かそう実現じつげんする。まずはデータ仮想かそうについて説明せつめいしてもらおう。

 データ仮想かそうは、もとのデータソースから物理ぶつりてきなデータのコピーをおこなわず、論理ろんりてきにデータを統合とうごうするという技術ぎじゅつす。データソースからデータウェアハウス(DWH)などにデータ自体じたいをコピーするCData Syncとことなり、データソースから仮想かそうてきにデータベースを構成こうせいするのがCData Virtualityになる。

 データ仮想かそう概念がいねんふるくから存在そんざいしていたが、実装じっそうしていたのは、データベースからレポートを生成せいせいするためのBIツールがわだった。BIツールにはデータベースに登録とうろくされているデータ項目こうもくと、レポートで利用りようするためのビジネス表現ひょうげんをマッピングした「セマンティックレイヤー」が実装じっそうされていたわけだ。しかし、BIツールやアプリケーションがえてくると、当然とうぜんこれらを共通きょうつうしたほうがよいというアイデアにつながり、論理ろんりてきなデータモデルを構成こうせいできるCData Virtualityのような製品せいひんてきたという経緯けいいだ。

 もう1つはもとデータが複製ふくせいされつづけることへのアンチテーゼだ。データの複製ふくせいには、エンジニアがつくったジョブが必要ひつようになり、ストレージコストも消費しょうひされる。複製ふくせいであるかぎり、かならずタイムラグはしょうじるし、コピーが加工かこうされつづけるのは管理かんりやセキュリティの観点かんてんでもリスクはおおきい。もちろんレプリケーション自体じたいのメリットもあり、CData SoftwareもCData Syncという製品せいひんっているが、それだけではカバーできないニーズが存在そんざいする。これをめるあらたな選択肢せんたくしがCData Virtualityだ。

業務ぎょうむデータを仮想かそう統合とうごうするCData Virtuality

仮想かそうDBならリアルタイムにデータを取得しゅとくでき、ジョブの生成せいせい管理かんり不要ふよう

 データ仮想かそうのメリットはリアルタイムなデータアクセスが可能かのうになることだ。「データをコピーするわけではないので、つねに鮮度せんどたかいデータにアクセスできる」と桑島くわしまかたる。また、データをコピーするわけではないので、データストアのコストやジョブにかかる時間じかん削減さくげんでき、規制きせい要件ようけん変化へんかなどにも柔軟じゅうなん対応たいおうできる。さらに、複数ふくすうデータソースへのアクセスを統合とうごうできるので、データガバナンスやセキュリティにも寄与きよするという。

 一方いっぽうでユースケースによっては考慮こうりょすべきてんもある。あくまで仮想かそうしているだけなので、データの履歴りれきうことはできない。履歴りれき保管ほかんのためには別途べっとDWHが必要ひつようだ。また、リアルタイムにソースデータにアクセスするため、大量たいりょうのデータを取得しゅとくする場合ばあいは、レスポンスタイムも必要ひつようになるし、ソースとなるシステムにも負荷ふかがかかる。

 こうした特徴とくちょう考慮こうりょしたCData Virtualityのユースケースの1つは、ETLとDWHにわるデータ統合とうごうだ。いままでは、SaaSやデータベースからETLをかいして、DWHにデータを統合とうごうするのが一般いっぱんてきだったが、これをCData Virtualityによる仮想かそうデータベースにえる。仮想かそうデータベースにはいわゆるメタデータやテーブルのフィールド情報じょうほうのみをち、データはリアルタイムに参照さんしょうすればよい。

データ統合とうごうあたらしい選択肢せんたくし

 2つのユースケースは、BIやアプリケーション開発かいはつ効率こうりつだ。DWHがない企業きぎょう場合ばあい複数ふくすうのデータソースにアクセスするBIやアプリケーションの開発かいはつはコストと手間てまのかかる作業さぎょうになる。そのてん、CData Virtualityでは複数ふくすうソースのデータを仮想かそうし、単一たんいつのデータアクセスポイントに統合とうごうすることができる。

 用意よういされたデータアクセスポイントでは、ODBCやJDBC、REST APIなどことなるインターフェイス、セマンティックレイヤーを提供ていきょうするほか、アクセスコントロールや証跡しょうせき秘匿ひとく、バージョン管理かんりなどのデータガバナンスなどの機能きのうそなわっている。こうしたリッチなデータアクセスポイントを統合とうごうすれば、BIツールやアプリケーションの開発かいはつ生産せいさんせい向上こうじょうさせることができる。

 3つのユースケースは、複数ふくすうのDWHの統合とうごうだ。「だい企業きぎょうになるとすでにDWHはっている。しかも営業えいぎょう部門ぶもんけDWH、センサーデータをあつめたDWH、買収ばいしゅうした企業きぎょうのDWHなど複数ふくすうあるんです。プロダクトも、クラウドならAmazon RedshiftやAzure DWH、オンプレミスならTeradata、Oracleなどさまざまです。これらのデータを統一とういつしてたいというときに、『じゃあDWHのDWHをつくるのか』、というはなしになるんです」と桑島くわしまかたる。そのてん、CData Virtualityを使つかえば、複数ふくすうDWHのデータを仮想かそうし、統一とういつてき環境かんきょう利用りようできるわけだ。

複数ふくすうのDWHの統合とうごうにデータ仮想かそう

圧倒的あっとうてきすう対応たいおうデータソース、複製ふくせいにも対応たいおう費用ひようたい効果こうかたか

 データ仮想かそうは、すでにDenodo、TIBCO、IBMなどのベンダーが製品せいひん提供ていきょうしている。これらの製品せいひんくらべた競合きょうごうポイントとしては、なんといっても対応たいおうするデータソースのかずだ。「CDataはそもそもデータコネクターですから、つながるデータソースは圧倒的あっとうてきおおいです。買収ばいしゅうでも100程度ていどだったが、統合とうごうはすごいスピードで対応たいおうデータソースをやしています」と桑島くわしま。CRM&ERP、コラボレーション、マーケティング、アカウンティングなどのSaaS、RDBMSやNoSQLなどのデータベース、各種かくしゅファイル、APIまで対応たいおうデータソースは200をえる。

 2つのポイントは、論理ろんりデータ統合とうごう物理ぶつりデータ統合とうごう両方りょうほう実現じつげんできるハイブリッドなプラットフォームになっているてんだ。仮想かそうのみならず、データ複製ふくせいであるレプリケーション(ETL/ELT)の機能きのう包含ほうがんしているため、特徴とくちょうにあわせて使つかけることができる。「複製ふくせいかんしてはCData Syncをおすすめしているのですが、仮想かそうしながら、履歴りれきデータもとらなければならない場合ばあいは、CData Virtualityでカバーできます」(桑島くわしま)。

論理ろんりデータ統合とうごうも、物理ぶつりデータ統合とうごう

 3つ費用ひようたい効果こうかたかさと管理かんり容易たやすさ。まずSaaS、オンプレミス、ホスティングなどの運用うんよう形態けいたいえらべるじょう、AIをもちいた最適さいてきやデータ仮想かそう弱点じゃくてんとされるクエリのおそさをおぎなうインメモリキャッシングのエンジンもふくまれる。また、利用りようかんしてもセルフサービスやオートメーションなどが利用りようできるだけでなく、すべての操作そうさ手続てつづがたのSQLコマンドで実行じっこうすることも可能かのうなので、あらゆる専門せんもん利用りようしやすいという。

 エンタープライズグレードで重視じゅうしされるセキュリティについても、ISO 27001、SOC 2 Type II、SOC 3認証にんしょう、GDPRおよびHIPAAに準拠じゅんきょするほか、さまざまな認証にんしょう・セキュリティプロトコルをサポート。データガバナンスも重視じゅうししており、堅牢けんろうできめささやかなユーザーのアクセス管理かんり、データの変換へんかん追跡ついせきし、履歴りれき使用しようじょうきょう管理かんりするデータリネージ、れつレベルマスキングでの機密きみつデータの保護ほご、メタデータの詳細しょうさい履歴りれき管理かんりなど充実じゅうじつした機能きのうっている。

データ統合とうごう必要ひつよう機能きのうが「本当ほんとうに」1つのプラットフォームに統合とうごう

 具体ぐたいてき利用りようイメージをてみよう。まずはGUIの画面がめんから接続せつぞくするデータソースを選択せんたくする。前述ぜんじゅつしたとおり、200以上いじょうのデータソースがあるので、接続せつぞくさき選択せんたく認証にんしょう情報じょうほう登録とうろくすると、接続せつぞくさきのスキーマがえるので、SQL開発かいはつしゃけの「コードエディタ」でクエリを生成せいせいすればよい。スクリプトのスケジューリング、履歴りれき表示ひょうじ、ファイルのインポート、CSVのエキスポートなどもこの画面がめんからくだりなえる。

 また、ビューエディタを利用りようすると、ことなるデータベースのテーブルから取得しゅとくしたデータを結合けつごうし、独自どくじのビューを作成さくせいできる。「MySQLに顧客こきゃくデータ、PostgreSQLに注文ちゅうもんデータがはいっているような場合ばあいは、両者りょうしゃのデータから顧客こきゃく注文ちゅうもんビューをつくることができます。BIツールやスプレッドシートからこのビューにたいしてリクエストをおこなうと、その時点じてん最新さいしんのデータを取得しゅとくするというながれになります」(桑島くわしま)。

CData Virtualityの画面がめん

 ただ、データ仮想かそうという仕組しくじょう、リクエストのために毎回まいかいデータソースにアクセスするため、データソースの負荷ふかおもくなる。それを回避かいひする施策しさくとして、分析ぶんせきようのストレジ(Analytical Storage)に実態じったいった「マテリアライズドテーブル」とばれるキャッシュを作成さくせいできる。「パフォーマンスを重視じゅうしする場合ばあいはマテリアライズドテーブルを作成さくせいし、リアルタイムせい重視じゅうしする場合ばあい直接ちょくせつデータソースにアクセスするという方法ほうほう選択せんたくできます」(桑島くわしま)。また、前述ぜんじゅつしたレプリケーション機能きのう実装じっそうしており、いわゆるあらえ、増分ぞうぶん履歴りれき、アップサートなどのモードで、データ自体じたいをコピーすることも可能かのうだ。

 ExcelやBIツールなどでデータを利用りようするエンドユーザーにけては、組織そしきないにあるデータ資産しさん包括ほうかつてき表示ひょうじする「ビジネスデータショップ」というデータアクセスポータルが提供ていきょうできる。「ExcelやCSV、TableauやPower BIのレポートファイルをそのままダウンロードし、可視かしできます」(桑島くわしま)。データリネージもここからあつかえるので、エンドユーザーからもたいデータの生成せいせいもと経緯けいいうことが可能かのうだ。Webインターフェイスだけではなく、デスクトップツールの「CData Virtuality Studio」も用意よういされている。

ビッグデータをたんなるストレージコスト消費しょうひのための存在そんざいにしていくのか?

 取材しゅざいかんじたCData Virtualityの魅力みりょくは、やはりデータ統合とうごう必要ひつよう機能きのうがワンプラットフォームとして提供ていきょうされているというてんだ。多種たしゅ多様たようなサービスとつなげるインターフェイスやセマンティックレイヤーを統合とうごうするデータ仮想かそうくわえ、履歴りれきをとるための物理ぶつり複製ふくせい機能きのう最適さいてきやレスポンス向上こうじょうのためのエンジン、セキュリティやデータガバナンス、ユーザーをえらばないエディターやツールなど、いままでべつのツールで提供ていきょうされていた機能きのうがすべて1つに統合とうごうされている。

 せっかくのビッグデータも、そこから価値かちられなければ、たんにストレージコストを消費しょうひするだけの存在そんざいぎなくなる。一方いっぽうで、BIツールやAIに活用かつようしやすいようデータを整備せいびし、データガバナンスを強化きょうかしていくのは、データカンパニーになるためにはけてとおれない作業さぎょうだ。そのてん必要ひつよう機能きのうをすべてりそろえたCData Virtualityはデータ統合とうごうのための万能ばんのうナイフとして期待きたいできる。複数ふくすうのデータソースやDWHの統合とうごう、AI-Readyなデータ生成せいせいなどになやんでいる企業きぎょうにとっては、かなり強力きょうりょくなツールになるのではないだろうか?

関連かんれんサイト

過去かこ記事きじアーカイブ

2024ねん
02がつ
03がつ
04がつ
05がつ
06がつ
07がつ
08がつ
09がつ
10月
2023ねん
04がつ
07がつ
08がつ
09がつ
10月
11月
12月