(Translated by https://www.hiragana.jp/)
DWHの人気記事 174件 - はてなブックマーク

検索けんさく対象たいしょう

ならじゅん

ブックマークすう

期間きかん指定してい

  • から
  • まで

1 - 40 けん / 174けん

DWHの検索けんさく結果けっか1 - 40 けん / 174けん

DWHかんするエントリは174けんあります。 データ分析ぶんせきBigQuery などが関連かんれんタグです。 人気にんきエントリには 近年きんねんのデータ分析ぶんせき基盤きばん構築こうちくにおける失敗しっぱいはBigQueryを採用さいようしなかったことにすべ起因きいんしている - データエンジニアの酩酊めいてい日記にっきなどがあります。
  • 近年きんねんのデータ分析ぶんせき基盤きばん構築こうちくにおける失敗しっぱいはBigQueryを採用さいようしなかったことにすべ起因きいんしている - データエンジニアの酩酊めいてい日記にっき

    ひさしぶりにペラペラなおもいつきをてて、ます。 2、3ねんまえぐらいにSIerやコンサルでTreasure Dataとか使つかってマネージドDWHつくろうぜっていう風潮ふうちょう流行はやって、いま運用うんようフェーズにはいってどこも結構けっこうくるしんでるってのがぼくのすごくせま観測かんそく範囲はんいでの印象いんしょう。 AWSのReadshiftしかり。 なぜくるしんでるかっていうと、うほどスケールしないからであり、うほどマネージドじゃないから。 Treasure Dataは基本きほんてき割当わりあてメモリが固定こていでオートスケールしないので、ピークわせて必要ひつようなメモリを確保かくほしておかないといけない。そうなるとメモリ使用しようりょうとか負荷ふかとかをモニタリングしないといけないわけだけど、Saasだから内部ないぶのアーキテクチャが隠蔽いんぺいされていていちいちサポートにわせないといけなかったりする。 Redshiftの場合ばあいはそもそも自前じまえでクラスタ管理かんりしなくちゃいけないのでそれが大変たいへんって

      近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
    • データ基盤きばんにありがちな「なに使つかってつくればよいか?」といういにたいする処方箋しょほうせん用意よういしてみました. - Lean Baseball

      ちょっとむかしまではデータ基盤きばん管理人かんりにん・アーキテクト, 現在げんざいおもいっきりクラウドアーキをあつかうコンサルタントになったマンです. わたし自身じしん経験けいけん・スキル・このブログにいているコンテンツの関係かんけいで, 「データ基盤きばんってなに使つかってつくればいいの?」てきなHow(もしくはWhere)の相談そうだん. 「Googleのビッグクエリーってやつがいいといたけどなにができるの?」てき個別こべつのサービスにたいするご相談そうだん. 「ぶっちゃけおいくらかかりますか💸」というHow much?なはなし. がたくもこのようなおはなしをよくおけしています. が, (仕事しごと以外いがいいとなみにおける)個人こじんとしては毎度まいどおなばなしをするのはまあまあつかれるので, データ基盤きばんにありがちな「なに使つかってつくればよいか?」といういにたいする処方箋しょほうせん というテーマで, クラウドじょうでデータ基盤きばん構築こうちくするさいのサービスのえらかた (データ基盤きばんかぎらず)クラウド料金りょうきん基本きほんてきかんがかた をGoogle

        データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋を用意してみました. - Lean Baseball
      • Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log

        はじめに Modern Data Stack ? Modern Data Stack の特徴とくちょうやメリット、関連かんれんするトレンド データインフラのクラウドサービス / Data infrastructure as a service データ連携れんけいサービスの発展はってん ELT! ELT! ELT! Reverse ETL テンプレートされた SQL and YAML などによるデータの管理かんり セマンティックレイヤーの凋落ちょうらくと Headless BI 計算けいさんフレームワーク (Computation Frameworks) 分析ぶんせきプロセスの民主みんしゅ、データガバナンスとデータメッシュのこころみ プロダクトようデータサービス リアルタイム Analytics Engineer の登場とうじょう 各社かくしゃファウンダーがかんがえる Modern Data Stack さいごに Further Readings はじめに Modern Dat

          Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
        • 論理ろんりプログラミング言語げんごLogicaでデータサイエンス100ほんノック

          Googleが発表はっぴょうしたOSSプロジェクトである論理ろんりプログラミング言語げんごLogicaを使つかって、データサイエンス100ほんノック(構造こうぞうデータ加工かこうへん)の設問せつもんきながらどのような言語げんごかを確認かくにんしていく。 (BigQueryのクエリとして実行じっこうしていく) 最初さいしょに、プログラミング言語げんごLogicaの特徴とくちょうまとめておく。 論理ろんりがたプログラミング言語げんご: このカテゴリではPrologが有名ゆうめい SQLにコンパイルされる: 現状げんじょうBigQueryとPostgreSQLに対応たいおう モジュール機構きこうがある: SQLと比較ひかくしたつよみ コンパイラはPythonでかれている: Jupyter NotebookやGoogle Colabですぐはじめられる Colabでチュートリアルが用意よういされているので、まずこちらからやるといとおもう。 コードの関係かんけい論理ろんり記述きじゅつている。 事前じぜんに、データサイエンス100ほんノックのテーブルデータをBigQu

          • コールセンターの担当たんとうしゃもSQLをたたく。モノタロウのデータドリブンな文化ぶんかれた|株式会社かぶしきがいしゃMonotaRO(モノタロウ)

            ほん記事きじ内容ないよう取材しゅざいのものであり、組織そしきめい役職やくしょくとう取材しゅざい時点じてんのものを掲載けいさいしております。 モノタロウの継続けいぞくてきなビジネス成長せいちょうともない、月間げっかんセッションすう注文ちゅうもんすう大幅おおはば増加ぞうかつづけています。指数しすう関数かんすうてきえるデータをあつかいやすくするための技術ぎじゅつてき探求たんきゅうきません。 なかでもデータハブの整理せいり構築こうちく中心ちゅうしん技術ぎじゅつ開発かいはつ研究けんきゅうたずさわるのが、エンジニアの中村なかむらさん(ECシステムエンジニアリング部門ぶもん EC基盤きばんグループ コアロジックチーム)です。データ領域りょういきで「冒険ぼうけんしたかった」というかれが、モノタロウをえらんだ理由りゆう技術ぎじゅつてき面白おもしろさ、今後こんご展望てんぼうについてはなしきました。 データが“いくらでもつづける”サービスでのチャレンジ ——はじめに、現在げんざい業務ぎょうむについておしえてください。 おもにデータハブの整理せいり構築こうちくです。実際じっさいのデータからバッチ処理しょりでデータをつくり、APIしていく手法しゅほう開発かいはつ研究けんきゅうしています。プラクティスを開発かいはつしゃ展開てんかいするなど、

              コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた|株式会社MonotaRO(モノタロウ)
            • Data Platform Guide - 事業じぎょう成長せいちょうさせるデータ基盤きばんつくるには #DataEngineeringStudy / 20200715

              Data Engineering Study #1 の発表はっぴょう資料しりょうです。 https://forkwell.connpass.com/event/179786/ 当日とうじつ動画どうがはYoutubeで閲覧えつらん可能かのうです。 https://www.youtube.com/watch?v=hFYNuuAaiTg …

                Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
              • MonotaROのデータ基盤きばん10ねん前編ぜんぺん) - MonotaRO Tech Blog

                おしらせ:12/23 に後編こうへん記事きじがでました! tech-blog.monotaro.com こんにちは、データ基盤きばんグループの香川かがわです。 現在げんざいモノタロウではBigQueryに社内しゃないのデータを集約しゅうやくし、データ基盤きばん構築こうちくしています。 およそぜん従業じゅうぎょういんの6わり日々ひびデータ基盤きばん利用りようしており、利用りよう方法ほうほう目的もくてき多岐たきわたります。 データ基盤きばんグループはこれまでデータ基盤きばんシステムの開発かいはつ保守ほしゅ利用りようしゃのサポートをおも業務ぎょうむとしてんできましたが、これら多岐たきにわたる社内しゃないのデータ利用りようにおける課題かだい解決かいけつおよびさらなるデータ活用かつよう高度こうど目的もくてきとして、今年ことしの5月よりデータ管理かんりせんもんおこな組織そしきとしてあらたに体制たいせいさい構築こうちくしました。 そこであらためて組織そしきとしてむべき課題かだい方向ほうこうせいめるために、まず自分じぶんたちの現在地げんざいちることが重要じゅうようかんがえ、データ基盤きばん歴史れきしかえり、社内しゃないのデータ活用かつようにおける課題かだいやそれを状況じょうきょうがどうわってきたのかを

                  MonotaROのデータ基盤10年史(前編) - MonotaRO Tech Blog
                • なぜETLではなくELTが流行はやってきたのか - Qiita

                  概要がいよう troccoのみのおやで、げんプロダクト責任せきにんしゃをしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事きじいていきます!(みんなも参加さんかしてね) データ分析ぶんせきやデータエンジニアリングにおいてETL(Extract Transform Load)という言葉ことばみみにしたことがあるほうおおいのではないでしょうか? 一方いっぽう、「ETLではなくELT(音楽おんがくグループではない)が主流しゅりゅうになりつつある」といったような論調ろんちょうえてきました。 この記事きじでは、ETLとELTのちがいや、なぜELTにシフトしつつあるのか、このせんどうなるのか(予想よそう)について、わたしなりの見解けんかいいてみようとおもいます。 一昔ひとむかしまえまではETLパターンがおおかった Redshiftが登場とうじょうした2013ねんごろ人々ひとびとはデータレイクそうはS3じょう構築こうちくし、データウェアハウスそう〜データマートそうはRedshiftじょうひとおおかったよう

                    なぜETLではなくELTが流行ってきたのか - Qiita
                  • [レポート]みんなのかんがえた最強さいきょうのデータアーキテクチャ #datatechjp | DevelopersIO

                    さがらです。 11月8にち20~22に、datatech-jp(データエンジニアリング関係かんけいのコミュニティ)主催しゅさいでみんなのかんがえた最強さいきょうのデータアーキテクチャというイベントが開催かいさいされました。 ほん記事きじはこのイベントのレポートブログとなります。 イベント概要がいよう ※connpassより引用いんよう datatech-jpでたかったデータエンジニアが、それぞれみんなのかんがえた最強さいきょうのデータアーキテクチャを紹介しょうかいうというゆめのような企画きかく実現じつげんしました! たくさんのあたらしいプロダクトが群雄割拠ぐんゆうかっきょする現在げんざい、モダンデータスタックなどという言葉ことば登場とうじょうしています。 いまこそ、どんなプロダクトをえらび、どのようなデータ基盤きばんつくれば、効率こうりつてきにやりたいことが実現じつげんできるのか。 5にん猛者もさからおすすめの構成こうせいをご紹介しょうかいいただきながら、参加さんかしゃのみなさんとも一緒いっしょかんがえていく時間じかんとしたいとおもいます。 おまけ:とうイベントの応募おうぼしゃすう このイベントですが、なんと

                      [レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
                    • dbtでやすいER生成せいせいする - yasuhisa's blog

                      背景はいけい: dbtを使つかっていてもERしい! どうやってER生成せいせいするか どうやってERやすくするか まとめ 背景はいけい: dbtを使つかっていてもERしい! dbtはモデルあいだのリネージなど可視かし得意とくいなツールではありますが、万能ばんのうなわけではありません。モデルの生成せいせい過程かていなどはリネージで担保たんぽできますが、分析ぶんせきに「どれとどのモデルがJOINできて、JOINするさいのキーはこれを使つかって」というERあつかうような可視かしはディフォルトではできません。 DWHをつくっているがわからすると「このテーブルはあのあたりのテーブルと一緒いっしょ使つかうと便利べんりで、いつもあのキーでJOINして」というのがあたまなかはいっていることがおおいため、ERがなくてもどうにかなることもおおいでしょう。しかし、分析ぶんせきれていないひと分析ぶんせきれているひとであっても、普段ふだんことなるドメインのテーブルをさわるときはER提供ていきょうしてくれる情報じょうほう有用ゆうようです。ちなみに

                        dbtで見やすいER図を生成する - yasuhisa's blog
                      • DMBOKをもちいたアセスメントでデータマネジメントを加速かそくさせる - MonotaRO Tech Blog

                        こんにちは、データ基盤きばんグループの吉田よしだ(id:syou6162)です。データ基盤きばんやデータマネジメントに興味きょうみたれているほうはDMBOKをっている / んだことがあるというほうおおいのではないでしょうか。このエントリではDMBOKちゅう紹介しょうかいされているデータマネジメント成熟せいじゅくアセスメント(以下いか、アセスメントと省略しょうりゃく)をモノタロウでどう活用かつようしているかについて紹介しょうかいします。 背景はいけい 初手しょて: 自社じしゃのデータ基盤きばん歴史れきしかえる アセスメントの実施じっし データ活用かつようしゃ / システム提供ていきょうしゃ / 意思いし決定けっていしゃへのヒアリングの実施じっし アセスメントを実施じっしした結果けっか 最後さいご背景はいけい まず、モノタロウでなぜアセスメントをおこなったかについて説明せつめいします。モノタロウは20ねん以上いじょう歴史れきしのある企業きぎょうであり、データ基盤きばん自体じたいも10ねん以上いじょう歴史れきしがあります。単一たんいつ事業じぎょうではあるものの、受注じゅちゅう / 売上うりあげ / 商品しょうひん / 在庫ざいこ / 顧客こきゃく / 行動こうどう履歴りれきなど、対象たいしょうとなるドメ

                          DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
                        • Apache Iceberg とはなにか - りゅうすなかわ

                          はじめに 概要がいよう Apache Iceberg(アイスバーグ)とは [重要じゅうよう] Icebergの本質ほんしつはTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴とくちょう 同時どうじ整合せいごうせい担保たんぽ 一貫いっかんせい、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類しゅるい 時間じかん truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能せいのう最適さいてき ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢せんたくし metadata layer metadata files manifest lists manifest f

                            Apache Iceberg とは何か - 流沙河鎮
                          • BigQuery と Snowflake を徹底てってい比較ひかく

                            最初さいしょにBigQueryとSnowflakeの概要がいようと、登場とうじょう背景はいけい説明せつめいします。 その、ユーザにとっての使つか勝手がってと、管理かんりしゃにとっての使つか勝手がってを、ベンダーフリーな立場たちばでそれぞれします。 最後さいごに、BigQueryとSnowflakeどっちがはやいのか?といった疑問ぎもんたいして、アーキテクチャをもとに考察こうさつします。

                              BigQuery と Snowflake を徹底比較
                            • 次世代じせだいデータ基盤きばん:データレイクハウスを Google Cloud で実現じつげんする

                              はじめに こんにちは、クラウドエース データソリューション松本まつもとです。 普段ふだんはデータ基盤きばんや MLOps の構築こうちくをしたり、Google Cloud 認定にんていトレーナーとしてトレーニングを提供ていきょうしております。また、昨年さくねんは Google Cloud Partner Top Engineer 2024 に選出せんしゅつされました。今年ことしも Goodle Cloud 界隈かいわいげていけるよう頑張がんばっていきたいとおもいます。 クラウドエース データソリューション について クラウドエースのITエンジニアリングをになう システム開発かいはつ統括とうかつなかで、とくにデータ基盤きばん構築こうちく分析ぶんせき基盤きばん構築こうちくからデータ分析ぶんせきまでをふく一貫いっかんしたデータ課題かだい解決かいけつ専門せんもんとするのが データソリューション です。 弊社へいしゃでは、あらたに仲間なかまくわわってくださるほう募集ぼしゅうしています。もし、ご興味きょうみがあれば エントリー をおちしております! 今回こんかいは、次世代じせだいデータ基盤きばんであるデ

                                次世代データ基盤:データレイクハウスを Google Cloud で実現する
                              • GoogleがBigQueryを安価あんか提供ていきょうできる理由りゆうは、Borgによるだい規模きぼ分散ぶんさんコンテナ環境かんきょうがあるから

                                GoogleがBigQueryを安価あんか提供ていきょうできる理由りゆうは、Borgによるだい規模きぼ分散ぶんさんコンテナ環境かんきょうがあるから いまから6ねんまえの2014ねん当時とうじようやくDockerコンテナがなかられるようになってきたころ、Googleはすでに社内しゃないのすべてのソフトウェアをコンテナしており、毎週まいしゅう20おくものコンテナをクラウドじょう起動きどうしていると発表はっぴょうし、おおくのエンジニアをおどろかせました。 このだい規模きぼなコンテナの制御せいぎょ、すなわちオーケストレーションをおこなっていたのがどう社内しゃないで「Borg」とばれるソフトウェアです。 そしてKubernetesはこのBorgをもとに、Googleがオープンソースしたコンテナオーケストレーションソフトウェアだとされています。 Borgのだい規模きぼ分散ぶんさんコンテナ基盤きばんでBigQueryが成立せいりつする このBorgによるだい規模きぼ分散ぶんさんコンテナ基盤きばんがあるからこそ、BigQueryが安価あんか提供ていきょうできるのだと、Google

                                  GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから
                                • DWHにおけるデータモデリングで大事だいじにしているかんがかた

                                  こんにちは。データエンジニアリングの支援しえんおこなっているstable株式会社かぶしきがいしゃ代表だいひょうみや﨑(@ikki_mz)です。弊社へいしゃでは、クライアント社内しゃないのデータウェアハウス(DWH)におけるデータモデリングをサポート...

                                    DWHにおけるデータモデリングで大事にしている考え方 
                                  • データ活用かつよう基盤きばんいま 〜DWH外観がいかん〜 - クックパッド開発かいはつしゃブログ

                                    こんにちは、今年ことしの1がつ会員かいいん事業じぎょうから技術ぎじゅつデータ基盤きばんグループへ異動いどうした佐藤さとうです。先日せんじつきょうまふ2019前夜祭ぜんやさいイベントに参加さんかするために人生じんせいはじめてピカピカひかぼういました。 新卒しんそつ入社にゅうしゃしてから2ねんほど分析ぶんせき作業さぎょうをしていたから、データ活用かつよう基盤きばんつくがわ立場たちばえました。今回こんかいあらたにうつしたデータ活用かつよう基盤きばん外観がいかん説明せつめいしたいとおもいます。 2017ねんにもどう内容ないよう記事きじ投稿とうこうされていますので、当時とうじとのちがいを中心ちゅうしん説明せつめいしていきます。 外観がいかん 以下いかが2019ねん10がつ現在げんざいにおけるクックパッドのデータ活用かつよう基盤きばん全体ぜんたいぞうです。 クックパッドのDWH外観がいかん masterデータのインポートがMySQL以外いがいにも複数ふくすうしゅ対応たいおうはじめたことと、PrismとSpectrum(S3+Glue)まわりと、Tableau Serverがおおきな変更へんこうてんとなっています。2017ねんにDmemoはありませんでしたが、記事きじ本文ほんぶんにあるとお当時とうじ

                                      データ活用基盤の今 〜DWH外観図〜 - クックパッド開発者ブログ
                                    • データウェアハウスのデータモデリングを整理せいりしてみた - Qiita

                                      概要がいよう スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、かくスキーマの特徴とくちょう利点りてん、そして適用てきようシナリオをげます。 スタースキーマ スタースキーマをもと整理せいりします。 スタースキーマ または ほしがたスキーマ はデータウェアハウスに利用りようされるもっと単純たんじゅんなスキーマである。スタースキーマにはただ1つもしくは少数しょうすうのファクトひょう複数ふくすうのディメンションひょうふくまれる。スタースキーマはスノーフレークスキーマの一種いっしゅであるが、おおくの用途ようと利用りようされている。 DWHに利用りようされるもっと単純たんじゅんなスキーマ 唯一ゆいいつまたは少数しょうすうのファクトテーブルと、複数ふくすうのディメンションテーブルがふくまれる スノーフレークスキーマの一種いっしゅ モデル ファクトひょうはデータウェアハウスでの解析かいせき利用りようされ、複数ふくすうことなるディメンションに区分くぶんされる。ファクトひょう主要しゅようなデータを一方いっぽう、ディメンションひょう相対そうたいてきにサイズがちいさくディメン

                                        データウェアハウスのデータモデリングを整理してみた - Qiita
                                      • オラクルとAWSが「Oracle Database@AWS」発表はっぴょう、AzureやGoogleにつづく“分散ぶんさんクラウド”提携ていけい

                                        べいオラクルとべいAmazon Web Services(AWS)が2024ねん9がつ9にち米国べいこく時間じかん)、戦略せんりゃくてきパートナーシップにもとづくあらたなオファリング「Oracle Database@AWS」を発表はっぴょうした。AWSデータセンターに配置はいちされたインフラをもちいて、オラクルが「Oracle Exadata Database Service」や「Oracle Autonomous Database」を提供ていきょうする。 オラクルでは、“分散ぶんさんクラウド/マルチクラウド戦略せんりゃく”にもとづき、すでにMicrosoft Azure(Oracle Database@Azure)やGoogle Cloud(Oracle Database@Google Cloud)とのあいだ同様どうようのパートナーシップを実現じつげんしている。 Oracle Database@AWSの提供ていきょうによって、AWSクラウドで稼働かどうするアプリケーションからOracle Database

                                          オラクルとAWSが「Oracle Database@AWS」発表、AzureやGoogleに続く“分散クラウド”提携
                                        • BigQueryのセキュリティ対策たいさく手順てじゅん

                                          ふうおんでは、データエンジニア、データアナリスト、データコンサルタントを募集ぼしゅうしています。 書籍しょせき執筆しっぴつしゃやOSSコントリビューターなど、業界ぎょうかい代表だいひょうする20めい以上いじょうのアドバイザーと一緒いっしょにベストプラクティスを追求ついきゅうできる環境かんきょうです。 ぜひカジュアルトークをおもうみください。 ふうおんアドバイザーの山田やまだつよし(@nii_yan)です。 データ活用かつようにおいてセキュリティ対策たいさくさい重要じゅうようトピックであることはうまでもありません。 ふうおんでBigQueryの導入どうにゅう支援しえんおこなうにあたって、どのようなセキュリティ対策たいさくおこなっているのかをご紹介しょうかいします。 この記事きじ全体ぜんたいぞう この記事きじは2つのパートにかれています。 最初さいしょに、BigQuery導入どうにゅうプロジェクトをはじめるにあたって、セキュリティ観点かんてんでどのようなコミュニケーションが必要ひつようになるかを説明せつめいします。 つぎに、一般いっぱんてき情報じょうほうセキュリティ対策たいさくである「抑止よくし」「予防よぼう」「検知けんち」「回復かいふく」の4つの観点かんてんにもと

                                            BigQueryのセキュリティ対策手順
                                          • データ分析ぶんせき基盤きばんにおける個人こじん情報じょうほうあつかいについて - NRIネットコムBlog

                                            こんにちは佐々木ささきです。 だれのぞまれたわけでもないですが、データ分析ぶんせき基盤きばん設計せっけいシリーズのだいさんだんです。今回こんかいのテーマは、データ分析ぶんせき基盤きばんにおける個人こじん情報じょうほう&パーソナルデータのあつかいについてです。ここを最初さいしょかんがえておかないと、データ分析ぶんせき基盤きばんどくりとなって、あつかいづらいものになります。 データ分析ぶんせき基盤きばん構築こうちくきもは、データレイクとDWHの分離ぶんり - NRIネットコムBlog データレイクはRAWデータレイク・中間なかまデータレイク・構造こうぞうデータレイクの3そう構造こうぞうにするとい - NRIネットコムBlog 個人こじん情報じょうほう&パーソナルデータと匿名とくめい加工かこうについて まず最初さいしょ個人こじん情報じょうほう&パーソナルデータの定義ていぎ匿名とくめい加工かこうについて、サラッと確認かくにんしておきましょう。 個人こじん情報じょうほう&パーソナルデータ 個人こじん情報じょうほうとは、任意にんい一個人いっこじんかんする情報じょうほうであり、かつその情報じょうほうをもとに個人こじん特定とくていできるものをします。代表だいひょうてき個人こじん情報じょうほうとしては、名前なまえ住所じゅうしょ電話でんわ番号ばんごう・E-ma

                                              データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
                                            • Microsoft Fabricの登場とうじょう - テクテク日記にっき

                                              米国べいこく時間じかん2023ねん5がつ23にちから開催かいさいされたMicrosoft Buildは、歴史れきしてき瞬間しゅんかんとなりました。データアナリティクスの世界せかいにおいて世界せかいはつとなるエンドツーエンド(E2E)のSaaS*1がたアナリティクスサービス、Microsoft Fabric(以降いこう「Fabric」)の登場とうじょうです。Microsoft Fabricは業界ぎょうかい常識じょうしきくつがえすほどのインパクトをち、ビッグデータ分析ぶんせき、セルフサービス分析ぶんせき、データサイエンスプロジェクトなど、あらゆるデータニーズをたす革新かくしんてきなクラウドサービスが誕生たんじょうしました。 Microsoft Power BIの製品せいひんチームに所属しょぞくしていることもあり、Fabricについては入社にゅうしゃるようになりました。今回こんかいのMicrosoft Buildでその瞬間しゅんかんえることができ、非常ひじょううれしくおもいます。いままではPower BIをひろめる立場たちばということでのAzureサービス*2とのかかわり

                                                Microsoft Fabricの登場 - テクテク日記
                                              • 今後こんごは「データ指向しこうアプリケーションデザイン」をかんがえよう(Red Hat Forum講演こうえんフォローアップ記事きじ) - 赤帽あかぼうエンジニアブログ

                                                Red Hatの須江すえです。 ほん記事きじ赤帽あかぼうエンジニア Advent Calendar 2019の10日とおかです。 子供こども皮膚ひふれてったりなんだりで、づいたら12/11になってますが、こまかいことはにせずすすめます。 セッション資料しりょう動画どうが redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向しこうアプリケーションデザイン」をメインテーマにえらんだわけ デジタルトランスフォーメーション(DX)がバズワードしてひさしいですが、自分じぶんつねに「DXは目的もくてきではなく手段しゅだんなので、DXしたあとにどうありたいかのビジョンをち、そこから逆算ぎゃくさんしていまやることをかんがえる」ことが重要じゅうようだとかんがえています。 ビジョンをつためには、まずDX世界せかいがどうなっているのかをイメージできるようになる必要ひつようがあります。 そこで、2019/6/20に開催かいさいされた「DX&Open Hybrid Cl

                                                  今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
                                                • 手軽てがる検索けんさくAPI構築こうちく | メルカリエンジニアリング

                                                  こんにちは、メルペイソリューションチーム所属しょぞくエンジニアの@orfeonです。 この記事きじは Merpay Tech Openness Month 2021 5にち記事きじです。 メルペイソリューションチームでは、社内しゃないけの技術ぎじゅつコンサルや技術ぎじゅつ研修けんしゅう部門ぶもんまたいだ共通きょうつう問題もんだい発見はっけんして解決かいけつするソリューションの提供ていきょうなどをおこなっています。 自分じぶんおも社内しゃないのデータまわりの課題かだい解決かいけつするソリューションを提供ていきょうしており、一部いちぶ成果せいかはOSSとして公開こうかいしています。 この記事きじではいろいろな場面ばめん必要ひつようとされるものの、運用うんよう負荷ふかなどの問題もんだいから導入どうにゅう敷居しきいたか検索けんさく機能きのうを(条件じょうけんきで)簡易かんい提供ていきょうするためのソリューションを紹介しょうかいします。 基本きほんてきなアイデア 全文ぜんぶん検索けんさく位置いち検索けんさくなど、検索けんさくはいろいろな場面ばめん必要ひつようとされる機能きのうです。しかしいざ検索けんさくサーバをてて運用うんようするとなると、データの整合せいごうせいやモニタリングなどかんがえないといけないこともおおく、利用りよう

                                                    お手軽な検索API構築 | メルカリエンジニアリング
                                                  • SnowflakeとRedshiftの比較ひかく検証けんしょう

                                                    300コアちかくのRedshiftクラスタを運用うんようしている広告こうこく配信はいしんプロダクトでSnowflakeを検証けんしょうした結果けっかをご紹介しょうかいします。

                                                      SnowflakeとRedshiftの比較検証
                                                    • データ分析ぶんせき基盤きばん構築こうちくきもは、データレイクとDWHの分離ぶんり - NRIネットコムBlog

                                                      こんにちは佐々木ささきです。 いろいろなところでくちっぱくしてっているのは、データレイクとDWHを分離ぶんりしろと。とりあえずDWHにほうむというかんがえはあるけど、DWHにれる時点じてんでデータの整形せいけいおこなわれて、情報じょうほう欠損けっそんがでてくる。だから、そのまえにデータレイクになまのままにれること— Takuro SASAKI (@dkfj) 2021ねん5がつ1にち データレイクとDWHの分離ぶんりについてつぶやいたら、それなりの反響はんきょういただきました。せっかくの機会きかいなので、もうすこししっかりと解説かいせつしてみます。何故なぜ、データレイクとDWHを分離ぶんりする必要ひつようがあるのか、格納かくのうするデータの構造こうぞうと、データレイク・DWHの役割やくわり観点かんてんからかんがえてみましょう。まずは、データの種類しゅるいとして、構造こうぞうデータや構造こうぞうデータの説明せつめいをします。そのつぎに、データレイクとDWHなどの用語ようご役割やくわり説明せつめいをし、最後さいごにアーキテクチャをかんがえてみます。 構造こうぞうデータとはん構造こうぞうデータ、

                                                        データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
                                                      • ZOZOTOWNの事業じぎょうささえるBigQueryのはなし / BigQuery behind ZOZOTOWN

                                                        タイムトラベルはじめました 〜をかけるBigQuery〜 / Now serving Time Machine 〜BigQuery Which Leapt Through Time〜

                                                          ZOZOTOWNの事業を支えるBigQueryの話 / BigQuery behind ZOZOTOWN
                                                        • SQLではじめる自然しぜん言語げんご処理しょり - やむやむもやむなし

                                                          こちらの記事きじはRecruit Engineers Advent Calendar 2020の24にち記事きじです。メリークリスマス! adventar.org 仕事しごと分析ぶんせき使つかうデータはほとんどがBigQueryに保存ほぞんされているため、基本きほんてき分析ぶんせき作業さぎょうおおくはBigQueryでSQLをくことでおこなっています。 BigQueryでテキストデータをあつかおうとおもうとSQLではできない or まわしがわるいこともおおく、一度いちどPythonでスクリプトをいてその結果けっか再度さいどBigQueryのテーブルに格納かくのうし、Joinして分析ぶんせき使つかうということをしていました。 しかしこのやりかただとテキストデータを分析ぶんせきしたいときは毎回まいかいPythonのコードをきにいかねばならず、またPythonでのテキスト処理しょりけっしてはやいとはいえず、せっかくBigQueryでさくさく分析ぶんせきしているのにどうしてもテキスト処理しょり部分ぶぶん作業さぎょう時間じかんのボトルネッ

                                                            SQLで始める自然言語処理 - やむやむもやむなし
                                                          • 速報そくほう】 BigQuery の料金りょうきん体系たいけい変更へんこうされます | DevelopersIO

                                                            ウィスキー、シガー、パイプをこよなくあいする大栗おおぐりです。 先程さきほど開催かいさいされたGoogle Data Cloud & AI Summitにて、BigQuery の料金りょうきん体系たいけい変更へんこう発表はっぴょうされましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類しゅるい料金りょうきん階層かいそう発表はっぴょうされました。これらのエディションは個々ここのワークロードの必要ひつようせいもとづいて適切てきせつ価格かかく性能せいのうわせられます。 BigQuery editions は、コンピュート キャパシティのオートスケーリングと、compressed storage(Preview には physical storage とばれて

                                                              【速報】 BigQuery の料金体系が変更されます | DevelopersIO
                                                            • Startup.fm: スタートアップのためのデータレイク構築こうちくながれ / Startup.fm: Build a Data Lake in steps

                                                              データウェアハウスやログ分析ぶんせき機械きかい学習がくしゅうといった進化しんかする分析ぶんせき環境かんきょう柔軟じゅうなん対応たいおうする 「データレイク」はいまやデータ活用かつようかせないものとなりました。 一方いっぽうで、現場げんばでは以下いかのような疑問ぎもん課題かだいおおてきているのではないでしょうか? 「データレイクけの関連かんれんサービスとかおおくてなんかよくわからない」 「最初さいしょからデー…

                                                                Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
                                                              • メルカリしゃ運用うんようする trocco & BigQuery のデータ分析ぶんせき基盤きばん経済けいざいせい #GoogleCloudDay / 20210526

                                                                Google Cloud Day: Digital ’21 の発表はっぴょう資料しりょうです。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo -----------------------------…

                                                                  メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
                                                                • 速報そくほう]Amazon AuroraのOLTPとRedshiftのDWHを統合とうごうする「Amazon Aurora zero-ETL integration with Amazon Redshift」発表はっぴょう。AWS re:Invent 2022

                                                                  Amazon Web Services(AWS)の年次ねんじイベント「AWS re:Invent 2022」がべいラスベガスで開催かいさいちゅうです。 2にち基調きちょう講演こうえんには、AWS CEOのAdam Selipskyなまバンドの演奏えんそうとともに登場とうじょうしました。 Selipskyは、さまざまなデータを分析ぶんせきするじょう多数たすう分析ぶんせきツールのあいだでデータを転送てんそうしなければならない問題もんだい指摘してきし、データ転送てんそうツールであるETLがなくなることが同社どうしゃのビジョンだと説明せつめいしんサービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表はっぴょうしました。 Amazon Auroraは高速こうそくなトランザクション処理しょり特徴とくちょうとするリレーショナルデータベースであり、Amazon Redshiftはだい規模きぼデータの高速こうそく分析ぶんせき特徴とくちょうとするデータウェアハウスのサービスです。 しんサービス「Amaz

                                                                    [速報]Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
                                                                  • BigQueryでの集計しゅうけい結果けっかをノーコードでSlackに定期ていき投稿とうこうしてみた - ZOZO TECH BLOG

                                                                    こんにちは、DATA-SREチームの塩崎しおざきです。最近さいきんになるニュースは「ネコがマタタビをこの理由りゆうけるためだった1」です。 さて、みなさんはデータ基盤きばん集計しゅうけいした結果けっかをどのようにして確認かくにんしていますか。LookerやPower BIなどのBIツールを使つかって綺麗きれいなダッシュボードを作成さくせいしているほうおおいかとおもいます。しかし、全員ぜんいん毎日まいにち確認かくにんすべき数値すうちはSlackなどの全員ぜんいん日常にちじょうてきにする場所ばしょかかげたいです。ほん記事きじではBigQueryとSlackを連携れんけいさせる機能きのうをノーコードで作成さくせいする方法ほうほう紹介しょうかいします。 従来じゅうらい手法しゅほう BigQueryで集計しゅうけいした結果けっかをSlackに通知つうちするためにはGoogle Apps Script(以下いか、GAS)をもちいるやりかた現在げんざいでは主流しゅりゅうです。GASの文法ぶんぽうはJavaScriptとほぼおなじであり、普段ふだん分析ぶんせきをメインで担当たんとうしているひとたちには馴染なじみのうす言語げんごです。また、Cloud Functio

                                                                      BigQueryでの集計結果をノーコードでSlackに定期投稿してみた - ZOZO TECH BLOG
                                                                    • N予備校よびこうのデータ分析ぶんせき基盤きばん構築こうちくけたみ - ドワンゴ教育きょういくサービス開発かいはつしゃブログ

                                                                      はじめに 昨今さっこんWebにかぎらずあらゆる事業じぎょう領域りょういきにおいて、蓄積ちくせきされたデータの活用かつよう必要ひつよう不可欠ふかけつ、やっていてたりまえなものになってきているかとおもいます。これまでこのブログではあまりそういう話題わだいれてこなかったこともあり、本稿ほんこうではあらためてドワンゴ教育きょういくサービスにおけるデータの活用かつようかんするみについて、概要がいようレベルにはなりますがご紹介しょうかいしたいとおもいます。 はじめに N予備校よびこうにおける従来じゅうらいのデータのあつか現在げんざい本番ほんばん環境かんきょうのデータのBigQueryへの蓄積ちくせき データ活用かつようのプロトタイピング そのほかのデータ活用かつよう関連かんれんするみや展望てんぼう N予備校よびこうのアーキテクチャ・パイプラインの検討けんとう 分析ぶんせき対象たいしょうのデータ拡充かくじゅう データの管理かんり体制たいせい 機械きかい学習がくしゅう技術ぎじゅつとう活用かつよう おわりに We are hiring! N予備校よびこうにおける従来じゅうらいのデータのあつかい まず従来じゅうらいからおこなわれているN予備校よびこうにおけるデータ活用かつようみについて紹介しょうかいします。げん

                                                                        N予備校のデータ分析基盤構築に向けた取り組み - ドワンゴ教育サービス開発者ブログ
                                                                      • DWHを活用かつようした機械きかい学習がくしゅうプロジェクト/ml-with-dwh

                                                                        Data Platform Meetup 【vol.2】 https://data-platform-meetup.connpass.com/event/155073/ での発表はっぴょうスライドです。 クックパッドにおける,DWHとみつ連携れんけいした機械きかい学習がくしゅうプロジェクトのはなしです。

                                                                          DWHを活用した機械学習プロジェクト/ml-with-dwh
                                                                        • 2024年度ねんど サイバーエージェント新卒しんそつ社内しゃない研修けんしゅうの「データモデリング」の資料しりょう公開こうかい | CyberAgent Developers Blog

                                                                          協業きょうぎょうリテールメディアdivでデータエンジニアをしているせんようです。 本日ほんじつは、先日せんじつ弊社へいしゃない実施じっしをしたAI事業じぎょう本部ほんぶ 新人しんじん研修けんしゅう一部いちぶである「データモデリング」について記載きさいをします。 おなじく講師こうしとして登壇とうだんをした yassun7010 も「データベースの歴史れきし」について、ブログとして公開こうかいをしているため、わせてていただけるとうれしいです。 ※今回こんかい記事きじ作成さくせいわせて一部いちぶ加筆かひつ修正しゅうせいをしています。 基幹きかんけい情報じょうほうけい 今回こんかい研修けんしゅうでは、データモデリングをあつかうシステムを 基幹きかんけい 情報じょうほうけいけて説明せつめいをしています。 というのも基幹きかんけい情報じょうほうけいでは、そもそもデータのあつかわれかたやシステムの特性とくせいことなります。 基幹きかんけいシステムではOLTPとばれる処理しょりシステムになっており、オンラインでかつリアルタイムにデータを追加ついか更新こうしんします。そのため、重要じゅうようとなってくるのがおおくのトランザクション(処理しょりすう)を正確せいかくにさばくことです。代表だいひょうれいとしては銀行ぎんこう

                                                                            2024年度 サイバーエージェント新卒社内研修の「データモデリング」の資料公開 | CyberAgent Developers Blog
                                                                          • データカタログ特集とくしゅう データ活用かつようけたアーキテクチャ6せん - Findy Tools

                                                                            整備せいびしたデータ基盤きばんを、事業じぎょう会社かいしゃ全体ぜんたい活用かつようっていくなかで「データカタログ」の必要ひつようせいぞう注目ちゅうもくあつめています。 今回こんかいは、データカタログを導入どうにゅうし、データ活用かつよういどんでいる6しゃに、アーキテクチャの工夫くふうポイントからデータカタログ導入どうにゅうによってられた効果こうかなどをうかがいました。 株式会社かぶしきがいしゃ10X事業じぎょう内容ないよう10Xでは「10xをつくる」をミッションとし、小売こうりけECプラットフォーム「Stailer」の提供ていきょうつうじて、スーパーやドラッグストアとうのオンライン事業じぎょうげ・運営うんえい支援しえんおこなっています。Stailerでは業務ぎょうむ構築こうちくにおけるコンサルティングから、必要ひつよう商品しょうひんマスタやお客様きゃくさまアプリ・スタッフけのオペレーションシステムとう提供ていきょう配達はいたつシステムの提供ていきょう販売はんばい促進そくしん支援しえんなど、データを分析ぶんせきしながら一気いっきどおりぬきでの支援しえんおこなっています。 データカタログ導入どうにゅう背景はいけい以前いぜんはデータ分析ぶんせきにデータレイクのテーブルがよく利用りようされており、カラムのメタデ

                                                                              データカタログ特集 データ利活用に向けたアーキテクチャ6選 - Findy Tools
                                                                            • [動画どうが公開こうかい] データ分析ぶんせきささえる技術ぎじゅつ データモデリングさい入門にゅうもん #devio2022 | DevelopersIO

                                                                              データアナリティクス事業じぎょう本部ほんぶのコンサルティングチームの石川いしかわです。クラスメソッド主催しゅさいのオンラインカンファレンス、Developers.IO 2022にて「データ分析ぶんせきささえる技術ぎじゅつ データモデリングさい入門にゅうもん」というテーマにてセッション動画どうが資料しりょう公開こうかいいたしました。 セッション概要がいようふつつくってたましいれず」ということわざがありますが、データモデリングせずにDWHという「うつわ」を導入どうにゅうしただけでは、データ分析ぶんせきはかどりません。 データモデリングをかんがえずに導入どうにゅうしたデータ分析ぶんせき基盤きばんは、データマートの乱立らんりつ、もしくは、データがかりにくく、分析ぶんせき手間てまがかかるため、あまり使つかわれなくなってしまったり、分析ぶんせきてきさないテーブル構造こうぞう構成こうせいによる性能せいのう低下ていか、オーバープロビジョニングによるコスト上昇じょうしょうなどの問題もんだいかんがえられます。 DWH(データウェアハウス)のデータモデリングとはなにか、代表だいひょうてきなDWHのデータモデリング手法しゅほう紹介しょうかいと、長所ちょうしょ短所たんしょ

                                                                                [動画公開] データ分析を支える技術 データモデリング再入門 #devio2022 | DevelopersIO
                                                                              • DWHにおけるデータモデル 定番ていばんから最新さいしんトレンドまで

                                                                                中規模ちゅうきぼ・ミドルTier開発かいはつ組織そしきにおけるDevRelの戦略せんりゃく実行じっこう成果せいか - DevRel Guild Conference Mini -

                                                                                  DWHにおけるデータモデル 定番から最新トレンドまで
                                                                                • 書籍しょせき紹介しょうかいだい規模きぼデータ管理かんり(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ぎじゅつブログ

                                                                                  最近さいきんんだ書籍しょせきなか非常ひじょう良質りょうしつ内容ないようでしたので紹介しょうかいしたいとおもいます。すこしでもおおくのほう興味きょうみってもらえることを期待きたいしています。 O’Reilly Japan はじめにわたし自身じしんがデータ管理かんり(データマネージメント)という観点かんてんでここすうねん様々さまざま検討けんとうおこなってきていますので前提ぜんていとしてその背景はいけいについて簡単かんたんにまとめてみます。 かつてオンプレミスで運用うんようおこなっていたとき企業きぎょうないのデータは完全かんぜん管理かんりされていました。データウェアハウスを導入どうにゅうしてデータの集約しゅうやく加工かこうおこなわれていましたが、専門せんもんチームがデータ仕様しよう確認かくにんやデータ提供ていきょうまでもすべての責任せきにんになっていました。品質ひんしつたかいのですが利用りようしゃからの要望ようぼうあたらしいデータの提供ていきょう仕様しよう変更へんこう)の対応たいおうについてはスピードおおきな制約せいやくがありました。まただい規模きぼなデータをあつかうためには多大ただいなコストが必要ひつようという制約せいやくもあります。 クラウド技術ぎじゅつによる「スモールスタートを可能かのうとするインフラ」「だい規模きぼなデータ

                                                                                    書籍紹介:大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ

                                                                                  新着しんちゃく記事きじ