データ解析かいせき

出典しゅってん: フリー百科ひゃっか事典じてん『ウィキペディア(Wikipedia)』
データ分析ぶんせきから転送てんそう

データ解析かいせき(データかいせき、えい: data analysis)は、データ分析ぶんせき(データぶんせき)ともばれ、有用ゆうよう情報じょうほう発見はっけんし、結論けつろん報告ほうこくし、意思いし決定けってい支援しえんすることを目的もくてきとして、データ検査けんさし、クリーニング英語えいごばん変換へんかん英語えいごばんて、モデルする一連いちれんのプロセスである[1]。データ解析かいせきには多数たすう側面そくめんとアプローチがあり、色々いろいろ名称めいしょうのもとで多様たよう手法しゅほう包含ほうがんし、ビジネス、科学かがく社会しゃかい科学かがくのさまざまな領域りょういきもちいられている[2]今日きょうのビジネスかいにおいて、データ解析かいせきは、より科学かがくてき意思いし決定けっていおこない、ビジネスの効率こうりつてき運営うんえい貢献こうけんする役割やくわりになっている[3]

データマイニングは、(純粋じゅんすい記述きじゅつてき目的もくてきではなく)予測よそくてき目的もくてき統計とうけいてきモデリングと知識ちしき獲得かくとく重点じゅうてんいた固有こゆうのデータ解析かいせき技術ぎじゅつである。これにたいし、ビジネスインテリジェンスは、おもにビジネス情報じょうほう重点じゅうてんいて、集計しゅうけいおおきく依存いぞんするデータ解析かいせき対象たいしょうとしている[4]統計とうけいがくてき用途ようとでは、データ解析かいせき記述きじゅつ統計とうけいがく (en:英語えいごばん探索たんさくてきデータ解析かいせき(EDA)、確認かくにんてきデータ解析かいせき仮説かせつ検定けんてい(CDA)にけられる[5]。EDAはデータのあらたな特徴とくちょう発見はっけんすることに重点じゅうてんき、CDAは既存きそん仮説かせつ確認かくにんまたは反証はんしょう焦点しょうてんてる[6][7]予測よそく分析ぶんせきは、予測よそくてき発生はっせい予報よほうあるいは分類ぶんるいのための統計とうけいモデルの応用おうよう重点じゅうてんき、テキスト分析ぶんせきは、統計とうけいてき言語げんごてき、および構造こうぞうてき手法しゅほうもちいて、構造こうぞうデータ一種いっしゅであるテキストデータから情報じょうほう抽出ちゅうしゅつ知識ちしき発見はっけん分類ぶんるいおこなう。上記じょうきはどれも、データ解析かいせき一種いっしゅである[8]

データ統合とうごう英語えいごばんはデータ解析かいせきぜん段階だんかいであり、データ可視かしおよびデータ配布はいふ英語えいごばんはデータ解析かいせき密接みっせつ関連かんれんしている[9]

データ解析かいせきのプロセス[編集へんしゅう]

データ解析かいせきのプロセス。Doing Data Science, Schutt & O'Neil (2013)から。

解析かいせき(analysis)とは、全体ぜんたい構成こうせい要素ようそ分割ぶんかつし、個々ここ考察こうさつすることである[10]。データ解析かいせきとは、なまデータ英語えいごばん入手にゅうしゅし、それを利用りようしゃ意思いし決定けってい役立やくだ情報じょうほう変換へんかんするプロセス英語えいごばんである[1]。データ(data)は、質問しつもんこたえたり、仮説かせつ検証けんしょうしたり、理論りろん反証はんしょうするために収集しゅうしゅうされ、解析かいせきされる[11]

統計とうけい学者がくしゃジョン・テューキーは、1961ねんにデータ解析かいせきつぎのように定義ていぎした。

「データを解析かいせきする手順てじゅん、その結果けっか解釈かいしゃくするための技術ぎじゅつ解析かいせきをより容易よういに、正確せいかくで、精密せいみつにするためのデータ収集しゅうしゅう計画けいかく方法ほうほう、およびデータの解析かいせき適用てきようされるすべての機械きかいと(数学すうがくてき統計とうけいがく結果けっか[12]

以下いか説明せつめいするように、区別くべつすることができるいくつかの段階だんかいがある。かく段階だんかい反復はんぷくてき英語えいごばんであり、段階だんかいからのフィードバックが、まえ段階だんかいでの追加ついか作業さぎょうにつながることがある[13]データマイニング使用しようされるCRISPフレームワーク英語えいごばんにも同様どうようのステップがある。

データ要件ようけん[編集へんしゅう]

データは、解析かいせき入力にゅうりょくとして必須ひっすなものであり、解析かいせきプロセスを管理かんりするひと(または解析かいせき結果けっか報告ほうこくする顧客こきゃく)の要求ようきゅうもとづいて特定とくていされる[14][15]。データ収集しゅうしゅう対象たいしょうとなる一般いっぱんてき主体しゅたい実験じっけん単位たんい英語えいごばんばれる(れいひと、またはひと集団しゅうだん)。そして、データは母集団ぼしゅうだんかんする特定とくてい変数へんすうれい年齢ねんれい所得しょとく)を指定していして収集しゅうしゅうされる。データは、数値すうちでもカテゴリでもよい(れい番号ばんごうひもくテキストがたラベル)[13]

データ収集しゅうしゅう[編集へんしゅう]

データはさまざまな情報じょうほうげんから収集しゅうしゅうされる[16][17]。その要求ようきゅう事項じこうは、解析かいせきしゃからデータ管理かんりしゃ英語えいごばん(たとえば、組織そしきない情報じょうほうシステム技術ぎじゅつしゃ英語えいごばん)につたえられる場合ばあいがある[18]。データは、交通こうつう監視かんしカメラ、人工じんこう衛星えいせい記録きろく装置そうちなど、環境かんきょうないセンサーから収集しゅうしゅうされることもある。また、インタビュー、オンライン情報じょうほうげんからのダウンロード、または文書ぶんしょ閲覧えつらんつうじてることもある[13]

データ処理しょり[編集へんしゅう]

なま情報じょうほう実用じつようてきなインテリジェンス(知恵ちえ)や知識ちしき変換へんかんするためのインテリジェンス・サイクルかく段階だんかいは、データ解析かいせきにおける段階だんかい概念的がいねんてき類似るいじしている。

入手にゅうしゅしたデータはまず、解析かいせきのために加工かこうあるいは整理せいりする必要ひつようがある[19][20]。たとえば、さらなる解析かいせきをするためにデータをおもて形式けいしきくだりれつ配置はいちすることがあり(構造こうぞうデータばれる)、おおくの場合ばあいおもて計算けいさんソフトウェアや統計とうけいソフトウェアがもちいられる[13]

データクリーニング[編集へんしゅう]

いちでも処理しょりされて整理せいりけたデータは、不完全ふかんぜんであったり、重複じゅうふくがあったり、あやまりをふくむことがある[21][22]データクリーニング必要ひつようせいは、データの入力にゅうりょく保存ほぞんのしかたに問題もんだいがあることから発生はっせいする。データクリーニングは、このようなエラー(あやまり)をふせぎ、修正しゅうせいする作業さぎょうである[21]一般いっぱんてき作業さぎょうとしては、レコードの照合しょうごう、データの不正確ふせいかくさの特定とくてい既存きそんデータ全体ぜんたい品質ひんしつ管理かんり重複じゅうふく排除はいじょ、およびれつ分割ぶんかつふくまれる[23]。このようなデータの問題もんだいは、さまざまな解析かいせき技術ぎじゅつによってもつけることができる。たとえば、財務ざいむ情報じょうほう場合ばあい特定とくてい変数へんすう合計ごうけいを、信頼しんらいせいたかいとかんがえられる別途べっと公表こうひょうされた数値すうち比較ひかくすることができる[24][25]。また、事前じぜんめられた閾値(しきいち)を上回うわまわったり下回したまわったりする異常いじょうはず)もさい調査ちょうさされることがある。データクリーニングには、電話でんわ番号ばんごう電子でんしメールアドレス、勤務きんむさきなど、データ集合しゅうごうないデータがたっていくつかの種類しゅるいがある[26][27]異常いじょう検出けんしゅつのための定量ていりょうてきデータ手法しゅほうもちいて、あやま入力にゅうりょくされた可能かのうせいたかいとおもわれるデータをのぞくことができる[28]。テキストデータのスペルチェッカーをもちいて入力にゅうりょくミスのりょうらすことができる。ただし、単語たんごそのものがただしいかかを判断はんだんするのはむずかしい[29]

探索たんさくてきデータ解析かいせき[編集へんしゅう]

データセットをクリーニングすると、つぎ解析かいせきうつることができる。解析かいせきしゃは、取得しゅとくしたデータにふくまれるメッセージを理解りかいはじめるために、探索たんさくてきデータ解析かいせきばれるさまざまな手法しゅほう適用てきようすることができる[30]。データ探索たんさく過程かていで、データのクリーニングを追加ついかしたり、データへの要求ようきゅう追加ついかすることもある。その結果けっか本節ほんぶし冒頭ぼうとう説明せつめいしたような反復はんぷくてき段階だんかい開始かいしされる[31]。データの理解りかいたすけるために、平均へいきん中央ちゅうおうなどの記述きじゅつ統計とうけいりょう英語えいごばん作成さくせいすることもある[32][33]データ可視かしもそのひとつであり、解析かいせきしゃはデータを図表ずひょうし、考察こうさつをして、データないのメッセージについてさらなる洞察どうさつることができる[13]

モデリングとアルゴリズム[編集へんしゅう]

変数へんすうあいだ関係かんけい特定とくていするために、数式すうしきまたはモデルアルゴリズムばれる)をデータに適用てきようする場合ばあいがある。たとえば、相関そうかん関係かんけい因果いんが関係かんけい使用しようする[34][35]一般いっぱんろんとして、モデルは、データセットないふくまれるほか変数へんすうもとづいて特定とくてい変数へんすう評価ひょうかするために開発かいはつされ、実装じっそうされたモデルの精度せいどおうじて多少たしょう残余ざんよ誤差ごさ英語えいごばんしょうじる(たとえば、データ = モデル + 誤差ごさ[36][11]

推測すいそく統計とうけいには、特定とくてい変数へんすうあいだ関係かんけい測定そくていする手法しゅほう利用りようふくまれる[37]。たとえば、広告こうこく変化へんか独立どくりつ変数へんすう X)が、売上うりあげ従属じゅうぞく変数へんすう Y)変動へんどうする説明せつめいあたえるかどうかをモデルするのに、回帰かいき分析ぶんせきもちいることがある[38]数学すうがく用語ようごでは、Y売上うりあげだか)はX広告こうこく)の関数かんすうである[39]。たとえば、モデルを「Y = aX + b + 誤差ごさ」と記述きじゅつすることができ、X所与しょよ範囲はんいたいして Y予測よそくするときの誤差ごさ最小さいしょうするように ab設計せっけいされる[40]。また、解析かいせきしゃは、解析かいせき単純たんじゅんし、結果けっか伝達でんたつすることを目的もくてきに、記述きじゅつてきデータ解析かいせきのためのモデル構築こうちくこころみることもある[11]

データプロダクト[編集へんしゅう]

データプロダクトdata product)は、データの入力にゅうりょくから出力しゅつりょく生成せいせいし、環境かんきょうにフィードバックするコンピュータ・アプリケーションである[41]。モデルやアルゴリズムにもとづいている場合ばあいもある。たとえば、顧客こきゃく購入こうにゅう履歴りれきデータを分析ぶんせきし、その結果けっか利用りようして、顧客こきゃく有益ゆうえきさをもたらすようなべつ購入こうにゅうすすめるアプリケーションがあげられる[42][13]

コミュニケーション[編集へんしゅう]

データ可視かしは、データ解析かいせき結果けっか理解りかいするのに役立やくだ[43]

データの解析かいせきは、解析かいせき結果けっか利用りようしゃからの要求ようきゅうこたえるために、さまざまな書式しょしき報告ほうこくされることがある[44]利用りようしゃからフィードバックがなされ、その結果けっか追加ついか分析ぶんせきおこなわれることもある。このように、分析ぶんせきサイクルのだい部分ぶぶん反復はんぷくてきである[13]

解析かいせきしゃは、解析かいせき結果けっかつたえるやりかためるさい、メッセージをより明確めいかくかつ効率こうりつてき報告ほうこくさき伝達でんたつするために、さまざまなデータ可視かし手法しゅほう導入どうにゅう検討けんとうすることができる[45]。データ可視かしは、情報じょうほうディスプレイひょうやグラフなどのグラフィクス)をもちいて、データにふくまれる重要じゅうようなメッセージを伝達でんたつする[46]ひょうは、特定とくてい数値すうち着目ちゃくもくしたり照会しょうかいできる重要じゅうようなツールであり、一方いっぽう、チャート(ぼうグラフやせんグラフなど)は、データにふくまれる定量ていりょうてきなメッセージを説明せつめいするのに役立やくだ場合ばあいがある[47]

定量ていりょうてきメッセージ[編集へんしゅう]

米国べいこく連邦れんぽう政府せいふ歳出さいしゅつ歳入さいにゅうとき系列けいれつ推移すいいしめせんグラフ。
ある時点じてん測定そくていされた2つの変数へんすう(インフレりつ失業しつぎょうりつ)の相関そうかん関係かんけいしめ散布さんぷ

ステファン・フュー(Stephen Few)は、利用りようしゃ一連いちれんのデータから理解りかいしようとする、あるいはつたえようとする8種類しゅるい定量ていりょうてきメッセージと、そのメッセージの伝達でんたつたすけるために使用しようされる関連かんれんグラフについてべた[48]要求ようきゅう指定していする顧客こきゃくとデータ解析かいせきおこな解析かいせきしゃは、プロセスの推移すいいでこれらのメッセージを検討けんとうすることができる[49]

  1. どき系列けいれつ: 10年間ねんかん失業しつぎょうりつなど、ある期間きかんにわたってひとつの変数へんすうとらえる。トレンドをしめすためにせんグラフ使用しようすることもある[50]
  2. ランキング: データは、カテゴリで細分さいぶんされ、昇順しょうじゅんまたは降順こうじゅんでランクけされる。たとえば、ある期間きかん営業えいぎょう担当たんとうしゃ(カテゴリに対応たいおう)が、販売はんばい実績じっせき尺度しゃくど対応たいおう)でランクけされる[51]営業えいぎょう担当たんとうしゃあいだ比較ひかくしめすためにささげグラフ使用しようすることがある[52]
  3. 部分ぶぶんたい全体ぜんたい: カテゴリべつ細分さいぶんしたりょうを、全体ぜんたいたいする比率ひりつ(100%なか割合わりあい)で測定そくていする。えんグラフぼうグラフで、市場いちばにおける競合きょうごう他社たしゃのシェアなど、比率ひりつ比較ひかくしてしめすことができる[53]
  4. 偏差へんさ: カテゴリごとに細分さいぶんしたものを、ある基準きじゅんたいして比較ひかくする。たとえば、ある期間きかんのビジネスにおけるいくつかの部門ぶもん経費けいひについて予算よさん実績じっせき比較ひかくする場合ばあいである。ぼうグラフは、実際じっさい金額きんがく基準きじゅん金額きんがく比較ひかくしめすことができる[54]
  5. 度数どすう分布ぶんぷ: たとえば、株式かぶしき市場いちば利益りえきが0~10%、11~20%などの間隔かんかくあいだにあるとしかずなど、所与しょよ間隔かんかくたいする特定とくてい変数へんすう観察かんさつすうしめす。ぼうグラフの一種いっしゅであるヒストグラムがこの分析ぶんせきもちいられることがある[55]
  6. 相関そうかん: 2つの変数へんすう (X, Y) であらわされる観測かんそく結果けっか比較ひかくし、それらがおな方向ほうこう、または反対はんたい方向ほうこううご傾向けいこうがあるかを判断はんだんする。たとえば、つきサンプルについて、失業しつぎょうりつ(X)とインフレりつ(Y)をプロットする。このメッセージには通常つうじょう散布さんぷ使用しようされる[56]
  7. 名目めいもくじょう比較ひかく商品しょうひんコードべつ販売はんばいりょうなど、カテゴリべつ細分さいぶんしたものを順不同じゅんふどう比較ひかくする。この比較ひかくにはぼうグラフがもちいられる[57]
  8. 地理ちりてきまたは地理ちりてき空間くうかんしゅうごとの失業しつぎょうりつ建物たてものかいごと人数にんずうなど、地図ちず配置はいち横断おうだんして変数へんすう比較ひかくする。カルトグラムが、典型てんけいてきなグラフィックとして使用しようされる[58][59]

定量ていりょうデータの解析かいせき手法しゅほう[編集へんしゅう]

著者ちょしゃのジョナサン・クーメイ(Jonathan Koomey)は、定量ていりょうデータを理解りかいするための一連いちれんベストプラクティス推奨すいしょうしている[60]。これらはつぎのとおりである。

  • 解析かいせきおこなまえに、なまデータに異常いじょうがないかをチェックする。
  • 重要じゅうよう計算けいさんさい実行じっこうする。たとえば、計算けいさんしきもとづくデータれつ検証けんしょうする。
  • 総計そうけい小計しょうけい合計ごうけいであることを確認かくにんする。
  • 時間じかん経過けいかともな比率ひりつなど、予測よそく可能かのうかたち関連かんれんすべき数値すうちあいだ関係かんけい確認かくにんする。
  • 数字すうじ正規せいきして比較ひかく容易よういにする。たとえば、1人ひとりたりの金額きんがく、GDPとの比較ひかく、または指標しひょうとして基準きじゅんねん比較ひかくして分析ぶんせきする。
  • 自己じこ資本しほん利益りえきりつたいするデュポン分析ぶんせき英語えいごばんのように、結果けっかみちびいた要因よういん分析ぶんせきし、問題もんだい構成こうせい要素ようそ分解ぶんかいする[25]

解析かいせきしゃ通常つうじょう調査ちょうさ対象たいしょうとなる変数へんすうについて、平均へいきん中央ちゅうおう標準ひょうじゅん偏差へんさなどの記述きじゅつ統計とうけいりょうもとめる[61]。また、個々ここ平均へいきん周囲しゅういにどのようにあつまっているかを確認かくにんするために、主要しゅよう変数へんすう分布ぶんぷ分析ぶんせきすることもある[62]

データ分析ぶんせき使用しようされるMECE原則げんそく図解ずかい

マッキンゼー・アンド・カンパニーのコンサルタントは、定量ていりょうてき問題もんだい構成こうせい要素ようそ分解ぶんかいする手法しゅほうMECE原則げんそく名付なづけた。各層かくそうは、その構成こうせい要素ようそ分解ぶんかいすることができる[63]各々おのおの部分ぶぶん構成こうせい要素ようそたがいに排他はいたてき英語えいごばんであり、わせるとその上位じょういそうにならなければならない[64]。この関係かんけいは「相互そうご排他はいたてき項目こうもくによる完全かんぜん全体ぜんたい集合しゅうごう」またはMECE(Mutually Exclusive and Collectively Exhaustive)とばれる。たとえば、利益りえき定義ていぎは、そう収入しゅうにゅうそう費用ひよう分解ぶんかいすることができる[65]。そしてそう収入しゅうにゅうは、部門ぶもんA、B、Cの収入しゅうにゅう(これらはたがいに排他はいたてき)によって分析ぶんせきでき、そう収入しゅうにゅう加算かさんされる(あますところなくまとまる)べきである[66]

解析かいせきしゃは、特定とくてい分析ぶんせきじょう問題もんだい解決かいけつするために、ロバスト統計とうけいりょう使用しようすることがある[67]解析かいせきしゃは、しん状態じょうたいかんする特定とくてい仮説かせつて、その状態じょうたいしんであるかにせであるかを判断はんだんするために、データが収集しゅうしゅうされて仮説かせつ検定けんていおこなわれる[68][69]。たとえば、「失業しつぎょうはインフレに影響えいきょうしない」という仮説かせつかんがえられる。これはフィリップス曲線きょくせんばれる経済けいざいがく概念がいねん関連かんれんしている[70]仮説かせつ検定けんていでは、データが仮説かせつ支持しじするか棄却ききゃくするかにかんするだい一種いっしゅ過誤かごだいしゅ過誤かご可能かのうせい検討けんとうする[71][72]

回帰かいき分析ぶんせきは、独立どくりつ変数へんすう X が従属じゅうぞく変数へんすう Y にどの程度ていど影響えいきょうするかを解析かいせきしゃ判断はんだんするときに使用しようされる。たとえば「失業しつぎょうりつ変化へんか X はインフレりつ Y にどの程度ていど影響えいきょうするか」[73]。これは、Y が X の関数かんすうであるように、データをモデルまたは直線ちょくせん曲線きょくせん方程式ほうていしき適合てきごうさせようとするものである[74][75]

必要ひつよう条件じょうけん分析ぶんせき(NCA)は、解析かいせきしゃ独立どくりつ変数へんすう X が変数へんすう Y をどの程度ていどまで許容きょようするかを決定けっていするときに使用しようすることがある。たとえば「特定とくていのインフレりつ(Y)に必要ひつよう特定とくてい失業しつぎょうりつ(X)はどの程度ていどか?」[73]じゅう回帰かいき分析ぶんせきが、かく X 変数へんすう結果けっか生成せいせいし、X が相互そうご補償ほしょうできる(それらは十分じゅうぶんであるが必要ひつようではない)加法かほう論理ろんりもちいるのにたい[76]必要ひつよう条件じょうけん分析ぶんせき(NCA)は、1つまたは複数ふくすうの X 変数へんすう結果けっか存在そんざい可能かのうにするが、それを生成せいせいしないかもしれない(それらは必要ひつようだが十分じゅうぶんではない)必要ひつよう論理ろんりもちいる。それぞれの単一たんいつ必要ひつよう条件じょうけん存在そんざいしなければならず、補償ほしょう不可能ふかのうである[77]

データ利用りようしゃ分析ぶんせき活動かつどう[編集へんしゅう]

データ利用りようしゃは、上述じょうじゅつ一般いっぱんてきなメッセージングとは対照たいしょうてきに、データセットない特定とくていのデータポイントに関心かんしんいだくことがある。このような利用りようしゃによるてい水準すいじゅん分析ぶんせき活動かつどうつぎひょうしめす。この分類ぶんるいほうはまた、取得しゅとく、データポイントの発見はっけん、データポイントの配置はいちという3つの活動かつどうはしらによって整理せいりすることができる[78][79][80][81]

# 作業さぎょう 概要がいよう 概念的がいねんてき要約ようやく 事例じれい
1 特定とくてい事例じれい集合しゅうごうあたえられたとき、それらの事例じれい属性ぞくせいつける。 データ事例じれい{A, B, C, ...}の属性ぞくせい{X, Y, Z, ...}のなにか? - フォードモンデオの1ガロンあたりの走行そうこう距離きょりは?

- 映画えいがふうともりぬ」の上映じょうえい時間じかんは?

2 選別せんべつ 属性ぞくせいかんする具体ぐたいてき条件じょうけんあたえられ、その条件じょうけんたすデータ事例じれいつけす。 条件じょうけん{A, B, C...}をたすデータ事例じれいはどれか? - どのケロッグのシリアルが食物しょくもつ繊維せんい豊富ほうふふくむか?

- どのコメディーが受賞じゅしょうしたことがあるか?

- どの株式かぶしきがS&P 500で目標もくひょうひつじたちであったか?

3 導出どうしゅつ計算けいさん データ事例じれい集合しゅうごうあたえられたとき、それらデータ事例じれい集計しゅうけい数値すうち表現ひょうげん計算けいさんする。 あたえられたデータ事例じれい集合しゅうごうSにたいする集計しゅうけい関数かんすうFのはなにか? - ポスト・シリアルの平均へいきんカロリーはどのくらいか?

- すべての店舗てんぽそう収入しゅうにゅう合計ごうけいするといくらか?

- 自動車じどうしゃメーカーはなんしゃあるか?

4 きょく検索けんさく ある属性ぞくせいが、データセットない範囲はんいないきょくつデータ事例じれいさがす。 属性ぞくせいAにかんする上位じょうい/下位かいNのデータ事例じれいはどれか?

- 燃費ねんぴ(MPG)がもっとすぐれたくるまなにか?

- もっとおおくのしょう受賞じゅしょうした監督かんとく映画えいがはどれか?

- マーベル・スタジオで、もっと公開こうかいあたらしい映画えいがはどれか?

5 なら データ事例じれい集合しゅうごうあたえられたとき、ある順序じゅんじょ尺度しゃくどしたがってランクけする。 データ事例じれい集合しゅうごうSを、属性ぞくせいAのもとづいてならえるとどのような順序じゅんじょになるか? - 自動車じどうしゃ重量じゅうりょうならえよ。

- シリアル食品しょくひんをカロリーによってランクけせよ。

6 範囲はんい決定けってい データ事例じれい集合しゅうごう関心かんしんがある属性ぞくせい指定していされたとき、集合しゅうごうない範囲はんいもとめる。 データ事例じれい集合しゅうごうSでの属性ぞくせいAの範囲はんいは? - フィルムのながさの範囲はんいはどれくらいか?

- くるま馬力ばりき範囲はんいはどれくらいか?

- このデータセットにはどういった女優じょゆうふくまれているか?

7 分布ぶんぷ特徴とくちょうづけ データ事例じれい集合しゅうごう関心かんしんのある量的りょうてき属性ぞくせいあたえられたとき、その属性ぞくせい集合しゅうごう全体ぜんたいでの分布ぶんぷ特徴とくちょうづける。 データ事例じれい集合しゅうごうSにおける属性ぞくせいAのはどのように分布ぶんぷしているか?

- シリアル食品しょくひんちゅう炭水化物たんすいかぶつ分布ぶんぷはどのようであるか?

- ものきゃく年齢ねんれいはどのように分布ぶんぷしているか?

8 異常いじょう発見はっけん あたえられたデータ事例じれい集合しゅうごうなかで、特定とくてい関係かんけいまたは期待きたいかんする異常いじょう統計とうけい的外まとはずなど)を特定とくていする。 データ事例じれい集合しゅうごうSにおいて、どのデータ事例じれい予期よきしない/例外れいがいてきであるか? - 馬力ばりき加速度かそくど関係かんけい例外れいがいはあるか?

- タンパク質たんぱくしつ含有がんゆうりょうについてはずはあるか?

9 クラスター データ事例じれい集合しゅうごうなかで、類似るいじした属性ぞくせいのクラスター(集団しゅうだん)をつける。 データ事例じれい集合しゅうごうSのなかで、属性ぞくせい{X, Y, Z, ...}が類似るいじしているデータ事例じれいはどれか?

- 類似るいじ脂肪しぼうぶん/カロリー/糖分とうぶんふくむシリアル食品しょくひんのグループはあるか?

- 典型てんけいてきなフィルムちょうのクラスターはあるか?

10 相関そうかん データ事例じれい集合しゅうごうなかで、2つの属性ぞくせいあいだ有用ゆうよう関係かんけい決定けっていする。 あたえられたデータ事例じれい集合しゅうごうSにおける属性ぞくせいXとYの相関そうかんは? - 炭水化物たんすいかぶつ脂肪しぼうあいだには相関そうかんがあるか?

- 原産げんさんこく燃費ねんぴ(MPG)のあいだには相関そうかんがあるか?

- 性別せいべつによって支払しはらい方法ほうほうこのみはことなるか?

- フィルムちょうとしとともにながくなる傾向けいこうはあるか?

11 文脈ぶんみゃく理解りかい[81] データ事例じれい集合しゅうごうあたえられたとき、利用りようしゃたいするデータの文脈ぶんみゃくじょう関連かんれんせい見出みいだす。 データ事例じれい集合しゅうごうSのなかで、どのデータ事例じれい現在げんざい利用りようしゃ状況じょうきょう関連かんれんしているか? - 現在げんざいのカロリー摂取せっしゅりょうもとづいた料理りょうりがあるレストランのグループはあるか?

効果こうかてき分析ぶんせき障壁しょうへき[編集へんしゅう]

効果こうかてき分析ぶんせきはば障壁しょうへきは、データ解析かいせきおこな解析かいせきしゃあいだにだけでなく、顧客こきゃくどうしのあいだにも存在そんざいする可能かのうせいがある。事実じじつ意見いけん区別くべつすること、認知にんちバイアス、および数学すうがくてき基礎きそ知識ちしき不足ふそくはすべて、健全けんぜんなデータ解析かいせきたいする課題かだいである[82]

事実じじつ意見いけん混同こんどう[編集へんしゅう]

だれもが自分じぶん意見いけん権利けんりをもつが、それは事実じじつもとづくものでなければならない。
ダニエル・パトリック・モイニハン

効果こうかてき分析ぶんせきにおいては、質問しつもんこたえたり、結論けつろん正式せいしき意見いけん裏付うらづけたり、仮説かせつ検証けんしょうするために、関連かんれんする事実じじつ入手にゅうしゅする必要ひつようがある[83][84]事実じじつ定義ていぎは「反証はんしょうできないこと」であり、分析ぶんせきかかわるすべてのひとがその事実じじつ同意どういできるという意味いみである[85]。たとえば、2010ねん8がつ米国べいこく議会ぎかい予算よさんきょく英語えいごばん(CBO)は、2001ねんと2003ねんのブッシュ減税げんぜいを2011ねん-2020ねんまでの期間きかん延長えんちょうすると、やく3ちょう3せんおくドルの国家こっか債務さいむ追加ついかされると試算しさんした[86]だれもがCBOの報告ほうこく調しらべることができ、実際じっさいそうだと同意どういするはずである。これは事実じじつである。ひとがCBOに賛成さんせいするか反対はんたいするかは、そのひと自身じしん意見いけんである[87]

べつれいとして、公開こうかい会社かいしゃ監査かんさじんは、上場じょうじょう企業きぎょう財務諸表ざいむしょひょうが「すべての重要じゅうようてんにおいて公正こうせい記載きさいされている」かどうか正式せいしき意見いけんみちびさなければならない[88]。そのためには、事実じじつデータや証拠しょうこ広範こうはん分析ぶんせきして、意見いけん裏付うらづける必要ひつようがある。事実じじつから意見いけんへと飛躍ひやくするとき、その意見いけんあやまっている可能かのうせいつねにある[89]

認知にんちバイアス[編集へんしゅう]

分析ぶんせき悪影響あくえいきょうおよぼしうる認知にんちバイアスにはさまざまなものがある。たとえば、確証かくしょうバイアスは、自分じぶん先入観せんにゅうかん確認かくにんする方法ほうほう情報じょうほう検索けんさくしたり、解釈かいしゃくしたりする傾向けいこうである[90]。さらに、自分じぶん見解けんかい支持しじしない情報じょうほう信用しんようしないこともありうる[91]

解析かいせきしゃは、これらのバイアスを認識にんしきし、克服こくふくするための特別とくべつ訓練くんれんけることができる[92]。CIAのもとアナリストのリチャーズ・ホイヤーは、著書ちょしょ情報じょうほう分析ぶんせき心理しんりがくPsychology of Intelligence Analysis)』のなかで、解析かいせきしゃみずからの仮定かてい推論すいろん連鎖れんさ明確めいかく描写びょうしゃし、結論けつろんかかわる確実かくじつせい程度ていど原因げんいん明記めいきすべきとべている[93]かれは、代替だいたいあんによる視点してん表面ひょうめんさせ、議論ぎろんするための手順てじゅん強調きょうちょうした[94]

数学すうがくてき基礎きそ知識ちしき欠如けつじょ[編集へんしゅう]

有能ゆうのう解析かいせきしゃは、一般いっぱんてきにさまざまな数値すうち技法ぎほう精通せいつうしている。しかし、顧客こきゃく数字すうじ数学すうがく基礎きそかんする能力のうりょくっていない場合ばあいがあり、そのような人々ひとびと数学すうがくてき識字しきじ[訳語やくご疑問ぎもんてん][95]。またデータをつたえるひとが、意図いとてきわる数値すうちてき技法ぎほう使つかって、誤解ごかいまねいたり間違まちがった伝達でんたつこそうとする場合ばあいもある[96]

たとえば、数値すうち上昇じょうしょうしているか下降かこうしているかは重要じゅうよう要素ようそではないことがある。より重要じゅうようなことは、経済けいざい規模きぼ(GDP)にたいする政府せいふ歳入さいにゅう歳出さいしゅつ規模きぼ、あるいは企業きぎょう財務諸表ざいむしょひょうにおける収益しゅうえきたいする費用ひようがくなど、数値すうちとの相対そうたいてき比較ひかくかもしれない[97]。このような数値すうちてき技法ぎほうは、正規せいきまたはさいスケールばれる[25]。インフレ調整ちょうせい実質じっしつデータと名目めいもくデータの比較ひかく)や、人口じんこう増加ぞうか人口じんこう動態どうたい考慮こうりょするかにかかわらず、解析かいせきしゃ採用さいようするこのような手法しゅほう数多かずおお存在そんざいする[98]解析かいせきしゃは、本節ほんぶし冒頭ぼうとう説明せつめいしたさまざま定量ていりょうてきメッセージに対処たいしょするために、さまざまな手法しゅほう適用てきようしている[99]

また、解析かいせきしゃはさまざまな仮定かていやシナリオのしたでデータを解析かいせきすることもある。たとえば、解析かいせきしゃ財務諸表ざいむしょひょう分析ぶんせきおこな場合ばあい将来しょうらいのキャッシュフローを推定すいていするために、さまざまな仮定かていした財務諸表ざいむしょひょうつくなおし、それをある金利きんりもとづいて現在げんざい価値かちもどして、企業きぎょう株式かぶしき評価ひょうかくだすことがよくある[100][101]同様どうように、CBOは、さまざまな政策せいさくオプションが政府せいふ歳入さいにゅう歳出さいしゅつ赤字あかじおよぼす影響えいきょう分析ぶんせきし、主要しゅよう指標しひょうについて代替だいたいてき将来しょうらいシナリオを作成さくせいする[102]

その話題わだい[編集へんしゅう]

スマートビルディング[編集へんしゅう]

建物たてもののエネルギー消費しょうひりょう予測よそくするために、データ解析かいせき手法しゅほうもちいることができる[103]。スマートビルディングを実現じつげんするために、データ解析かいせきプロセスのさまざまな段階だんかい実行じっこうされる。スマートビルディングでは、暖房だんぼう換気かんき空調くうちょう照明しょうめい、セキュリティなどのビル管理かんりおよび制御せいぎょ業務ぎょうむが、ビル利用りようしゃのニーズを模倣もほうしてエネルギーや時間じかんのような資源しげん最適さいてきすることで自動的じどうてきおこなわれる[104]

アナリティクスとビジネスインテリジェンス[編集へんしゅう]

解析かいせき(アナリティクス、analytics)とは「意思いし決定けってい行動こうどう推進すいしんするために、データ、統計とうけいてきおよび定量ていりょうてき分析ぶんせき説明せつめいてきおよび予測よそくてきモデル、事実じじつもとづくマネジメントを広範こうはん活用かつようすること」である。これはビジネスインテリジェンスのサブセットであり、データを使用しようしてビジネス業績ぎょうせき理解りかいおよび分析ぶんせきし、意思いし決定けってい促進そくしんする一連いちれん技術ぎじゅつとプロセスである[105]

教育きょういく[編集へんしゅう]

データ可視かし利用りようしゃ分析ぶんせき活動かつどう

教育きょういく活動かつどうでは、ほとんどの教育きょういく関係かんけいしゃ学生がくせいのデータを分析ぶんせきする目的もくてきデータシステム英語えいごばんにアクセスしている[106]。これらのデータシステムは、教育きょういくしゃによるデータ分析ぶんせき精度せいどたかめるために、店頭てんとうデータ形式けいしき英語えいごばん教育きょういくしゃにデータを提示ていじする(埋込うめこみラベル、補足ほそく文書ぶんしょ、ヘルプシステム、主要しゅようパッケージ/表示ひょうじ内容ないよう決定けってい[107]

専門せんもんてき注記ちゅうき[編集へんしゅう]

このふしには、実務じつむたすけになるようなかなり専門せんもんてき説明せつめいふくまれているが、ウィキペディアの記事きじ一般いっぱんてき範囲はんいえている[108]

初期しょきデータ解析かいせき[編集へんしゅう]

初期しょきデータ解析かいせきほん解析かいせき段階だんかいあいだもっと重要じゅうようちがいは、初期しょきデータ解析かいせきでは、本来ほんらい調査ちょうさ課題かだいこたえるための分析ぶんせきひかえることである[109]初期しょきデータ解析かいせき段階だんかいは、つぎの4つの質問しつもんによってみちびかれる[110]

データの品質ひんしつ[編集へんしゅう]

データの品質ひんしつは、できるだけはや段階だんかいでチェックする必要ひつようがある。データの品質ひんしつは、さまざまな種類しゅるい分析ぶんせきもちいて、いくつかの方法ほうほう評価ひょうかすることができる。頻度ひんどカウント、記述きじゅつ統計とうけい平均へいきん標準ひょうじゅん偏差へんさ中央ちゅうおう)、正規せいきせいいびつとんがたび頻度ひんどヒストグラム)、普通ふつう代入だいにゅうほうかけはかデータの補完ほかん)をようする[111]

  • 極端きょくたん観測かんそく分析ぶんせき: データないふくまれる範囲はんいがい観測かんそく分析ぶんせきして、分布ぶんぷみだすようにえるかどうかを確認かくにんする[112]
  • コーディングスキームのちがいの比較ひかく修正しゅうせい変数へんすうは、データセット外部がいぶにある変数へんすうのコーディングスキームと比較ひかくされ、コーディングスキームが比較ひかくできない場合ばあいはできるかぎ修正しゅうせいする[113]
  • 共通きょうつうほう分散ぶんさん英語えいごばん(CMV)の確認かくにん

初期しょきデータ解析かいせき段階だんかいにおいて、データの品質ひんしつ評価ひょうかするためにもちいる解析かいせき手法しゅほう選択せんたくは、ほん解析かいせき段階だんかい実施じっしされる解析かいせき依存いぞんする[114]

測定そくてい品質ひんしつ[編集へんしゅう]

計測けいそく機器きき品質ひんしつは、それが研究けんきゅう焦点しょうてんまたは研究けんきゅう課題かだいではない場合ばあい初期しょきデータ解析かいせき段階だんかいでのみチェックされるべきである[115][116]測定そくてい構造こうぞう文献ぶんけん報告ほうこくされている構造こうぞう一致いっちしているかどうかを確認かくにんする必要ひつようがある。

測定そくてい品質ひんしつ評価ひょうかする方法ほうほうは2つある。

初期しょき変換へんかん[編集へんしゅう]

データおよび測定そくてい品質ひんしつ評価ひょうかしたのち欠損けっそんデータの入力にゅうりょく、または1つ以上いじょう変数へんすう初期しょき変換へんかんおこなうかを決定けっていすることがあるが、これはほん解析かいせき段階だんかいおこなうことも可能かのうである[119]かんがえられそうな変数へんすう変換へんかんつぎにあげる[120]

  • 平方根へいほうこん変換へんかん分布ぶんぷ正規せいき分布ぶんぷからなか程度ていどにずれている場合ばあい
  • 対数たいすう変換へんかん分布ぶんぷ正規せいき分布ぶんぷとかなりの程度ていどことなる場合ばあい
  • ぎゃく変換へんかん分布ぶんぷ正規せいき分布ぶんぷいちじるしくことなる場合ばあい
  • カテゴリ順序じゅんじょすうこう)(分布ぶんぷ正規せいき分布ぶんぷ大幅おおはばことなり、どの変換へんかんやくにたない場合ばあい

研究けんきゅう実施じっしは、研究けんきゅう設計せっけい意図いとたしていたか?[編集へんしゅう]

たとえば、結果けっか変数へんすう独立どくりつ変数へんすうがグループないとグループあいだ均等きんとう分散ぶんさんしているかどうかなど、作為さくい手順てじゅん成功せいこうしたかどうかを確認かくにんする必要ひつようがある[121]

作為さくい手順てじゅん必要ひつようとしない、あるいは使用しようしない研究けんきゅう場合ばあい、たとえば、対象たいしょう母集団ぼしゅうだんのすべてのサブグループが標本ひょうほん反映はんえいされているかどうかを確認かくにんすることによって、無作為むさくい抽出ちゅうしゅつ成否せいひ確認かくにんする必要ひつようがある[122]

チェックすべきその可能かのうせいのあるデータのゆがみはつぎのとおりである。

データ標本ひょうほん特徴とくちょう[編集へんしゅう]

どんな報告ほうこくしょ論文ろんぶんでも、標本ひょうほん構造こうぞう正確せいかく記述きじゅつする必要ひつようがある[124][125]

とくに、ほん解析かいせき段階だんかいでサブグループ分析ぶんせきおこな場合ばあいは、標本ひょうほん構造こうぞうとくにサブグループのサイズ)を正確せいかく決定けっていすることが重要じゅうようである[126]

データ標本ひょうほん特性とくせいは、以下いか確認かくにんすることによって評価ひょうかできる。

  • 重要じゅうよう変数へんすう基本きほん統計とうけいりょう
  • 散布さんぷ
  • 相関そうかん関連かんれんせい
  • クロス集計しゅうけい[127]

初期しょきデータ解析かいせき最終さいしゅう段階だんかい[編集へんしゅう]

最終さいしゅう段階だんかいでは、初期しょきデータ解析かいせき結果けっか文書ぶんしょし、必要ひつようで、のぞましく、可能かのう是正ぜせい措置そちこうじる[128]

また、ほんデータ解析かいせき当初とうしょ計画けいかくは、より詳細しょうさい指定していするかなおすことがあり、そうすべきである[129][130]

そのためには、ほんデータ解析かいせきかんするいくつかの決定けっていおこなうことができ、またおこなうべきである。

  • 正規せいきがた場合ばあい変数へんすう変換へんかん英語えいごばんか、変数へんすうのカテゴリ順序じゅんじょ変数へんすうこう変数へんすう)か、分析ぶんせき手法しゅほう修正しゅうせいのいずれかをすべきか?
  • かけはかデータ場合ばあいかけはかデータを無視むしまたは補完ほかんするか、どの補完ほかん手法しゅほう使つかうべきか?
  • はず場合ばあい: ロバスト解析かいせき技術ぎじゅつもちいるべきか?
  • 項目こうもく尺度しゃくどわない場合ばあい項目こうもく省略しょうりゃくして測定そくてい適合てきごうさせるべきか、それとも測定そくてい(その測定そくていの)との比較ひかく可能かのうせい確保かくほすべきか?
  • サブグループがちいさい(ちいさすぎる)場合ばあい: グループあいだかんする仮説かせつげるべきか、正確せいかく検定けんていブートストラップほうのようなちいさな標本ひょうほん技術ぎじゅつもちいるべきか?
  • 作為さくい手順てじゅん欠陥けっかんがあるとおもわれる場合ばあい傾向けいこうスコア計算けいさんし、それをほん解析かいせききょう変量へんりょうとしてふくめることができるか、またそうすべきか?[131]

解析かいせき方法ほうほう[編集へんしゅう]

初期しょきデータ解析かいせき段階だんかいで、いくつかの解析かいせきおこなうことができる[132]

  • たん変量へんりょう統計とうけい単一たんいつ変数へんすう
  • 変量へんりょう関連かんれんせい相関そうかん関係かんけい
  • グラフィカル手法しゅほう散布さんぷ

それぞれの変数へんすう測定そくていレベルにたいして特別とくべつ統計とうけい手法しゅほう利用りようできるので、解析かいせきにおいては変数へんすう測定そくていレベルを考慮こうりょすることが重要じゅうようである[133]

  • 名目めいもく変数へんすう順序じゅんじょ変数へんすう
    • 度数どすうカウント(数量すうりょうとパーセンテージ)
    • 関連かんれん
      • しゅうこう(クロス集計しゅうけい
      • 階層かいそうてき対数たいすう線形せんけい分析ぶんせき最大さいだい8変数へんすう制限せいげんされる)
      • 対数たいすう線形せんけい分析ぶんせき関連かんれんする/重要じゅうよう変数へんすうかんがえられる交絡因子いんし特定とくていするため)
    • 正確せいかく検定けんていまたはブートストラップ(サブグループがちいさい場合ばあい
    • あたらしい変数へんすう計算けいさん
  • 連続れんぞく変数へんすう
    • 分布ぶんぷ
      • 統計とうけいりょう平均へいきん中央ちゅうおう標準ひょうじゅん偏差へんさ分散ぶんさんひずみとんがたび
      • みき表示ひょうじ
      • はこひげはこがたプロット)

非線形ひせんけい解析かいせき[編集へんしゅう]

非線形ひせんけいシステムからデータを記録きろくする場合ばあい、しばしば非線形ひせんけい解析かいせき必要ひつようとなる。非線形ひせんけいシステムは、分岐ぶんきカオス高調こうちょうふく高調こうちょう英語えいごばんなど、単純たんじゅん線形せんけい手法しゅほうでは解析かいせきできない複雑ふくざつ動的どうてき効果こうかしめすことがある。非線形ひせんけいデータ解析かいせきは、非線形ひせんけいシステム同定どうてい英語えいごばん密接みっせつ関係かんけいしている[134]

ほんデータ解析かいせき[編集へんしゅう]

ほん解析かいせき段階だんかいでは、研究けんきゅう課題かだいこたえるための分析ぶんせき、および研究けんきゅう報告ほうこくしょ初稿しょこうくために必要ひつようなその関連かんれんする分析ぶんせきおこな[135]

探索たんさくてきアプローチと確認かくにんてきアプローチ[編集へんしゅう]

ほん解析かいせき段階だんかいでは、探索たんさくてきアプローチと確認かくにんてきアプローチのいずれかを採用さいようすることができる。通常つうじょうは、データを収集しゅうしゅうするまえにアプローチを決定けっていする[136]探索たんさくてき分析ぶんせきでは、データを分析ぶんせきするまえ明確めいかく仮説かせつてず、データを適切てきせつ説明せつめいするモデルをさがしてデータを検索けんさくする[137]一方いっぽう確認かくにんてき分析ぶんせきでは、データにかんする明確めいかく仮説かせつ検証けんしょうされる[138]

探索たんさくてきデータ解析かいせきは、慎重しんちょう解釈かいしゃくする必要ひつようがある。いち複数ふくすうのモデルを検定けんていする場合ばあい、そのうちのすくなくとも1つが有意ゆういであることをいだす可能かのうせいたかくなるが、これはだい一種いっしゅ過誤かごによるものである可能かのうせいがある[139]複数ふくすうのモデルを検定けんていするさいには、(たとえばボンフェローニ補正ほせいで)つね有意ゆうい水準すいじゅん調整ちょうせいすることが重要じゅうようである[140]。また、おなじデータセットをもちいて探索たんさくてき分析ぶんせきつづいて確認かくにんてき分析ぶんせきおこなうべきではない[141]探索たんさくてき分析ぶんせきは、理論りろんのアイデアをつけるためにもちいるが、その理論りろん検証けんしょうするためのものではない[141]。あるデータセットで探索たんさくてきにモデルがつかったとき、おなじデータセットで確認かくにんてき分析ぶんせきおこなうと、確認かくにんてき分析ぶんせき結果けっかが、最初さいしょ探索たんさくてきモデルがもたらしただい一種いっしゅ過誤かごおなあやまりを意味いみする可能かのうせいがある[141]。したがって、その確認かくにんてき分析ぶんせきは、もと探索たんさくてき分析ぶんせきよりも有益ゆうえきとはならない[142]

結果けっか安定あんていせい[編集へんしゅう]

解析かいせき結果けっかがどの程度ていど一般いっぱんできるかについて、なんらかの指標しひょうつことは重要じゅうようである[143]。これを確認かくにんするのはむずかしいことがおおいが、結果けっか安定あんていせいることは可能かのうである。結果けっか信頼しんらいできるか?再現さいげんせいはあるか?、これをたしかめるには、おもに2つの方法ほうほうがある[144]

  • 交差こうさ検証けんしょう(クロスバリデーション): データを複数ふくすう部分ぶぶん分割ぶんかつすることで、そのデータの一部いちぶもとづく分析ぶんせき適合てきごうモデルなど)が、データのべつ部分ぶぶんにも一般いっぱんするかどうかを確認かくにんすることができる[145]。ただし、データない相関そうかんがある場合ばあい(たとえば、パネルデータ)、交差こうさ検証けんしょう一般いっぱん不適ふてきである[146]。そのため、検証けんしょう方法ほうほう必要ひつようになることもある。このトピックの詳細しょうさいについては、統計とうけいてきモデル検査けんさ英語えいごばん参照さんしょうのこと[147]
  • 感度かんど分析ぶんせき英語えいごばん: グローバルパラメータを(系統けいとうてきに)変化へんかさせたときのけいまたはモデルの挙動きょどう調しらべる手法しゅほう。その方法ほうほうの1つはブートストラップほうである[148]

データ解析かいせきのフリーソフトウェア[編集へんしゅう]

データ解析かいせきのための代表だいひょうてきなフリーソフトをつぎにあげる。

  • ELKI英語えいごばん - データマイニング指向しこう可視かし機能きのうそなえたJavaによるデータマイニングフレームワーク。
  • KNIME英語えいごばん- Konstanz Information Miner、ユーザーフレンドリーで包括ほうかつてきなデータ分析ぶんせきフレームワーク。
  • Orange - 対話たいわてきなデータ可視かし統計とうけいデータ解析かいせき、データマイニング、機械きかい学習がくしゅう手法しゅほうそなえたビジュアルプログラミングツール。
  • Pandas - Python言語げんごによるデータ解析かいせきのためのライブラリ。
  • PAW英語えいごばん- CERNで開発かいはつされたFORTRAN/Cデータ解析かいせきフレームワーク。
  • R - 統計とうけい計算けいさんとグラフィックスのためのプログラミング言語げんごとソフトウェア環境かんきょう[149]
  • ROOT - CERNで開発かいはつされたC++データ解析かいせきフレームワーク。
  • SciPy - データ解析かいせきのためのPythonライブラリ。
  • Julia - 数値すうち解析かいせき計算けいさん科学かがくてきしたプログラミング言語げんご

国際こくさいデータ解析かいせきコンテスト[編集へんしゅう]

さまざまな企業きぎょう団体だんたいがデータ解析かいせきコンテストを開催かいさいし、研究けんきゅうしゃがデータを活用かつようしたり、データ解析かいせきによる特定とくてい課題かだい解決かいけつしたりすることを奨励しょうれいしている[150][151]。よくられた国際こくさいデータ解析かいせきコンテストのれいつぎがある[152]

脚注きゃくちゅう[編集へんしゅう]

出典しゅってん[編集へんしゅう]

  1. ^ a b “Transforming Unstructured Data into Useful Information”, Big Data, Mining, and Analytics (Auerbach Publications): pp. 227–246, (2014-03-12), doi:10.1201/b16666-14, ISBN 978-0-429-09529-0, https://doi.org/10.1201/b16666-14 2021ねん5がつ29にち閲覧えつらん 
  2. ^ “The Multiple Facets of Correlation Functions”, Data Analysis Techniques for Physical Scientists (Cambridge University Press): pp. 526–576, (2017), doi:10.1017/9781108241922.013, ISBN 978-1-108-41678-8, https://doi.org/10.1017/9781108241922.013 2021ねん5がつ29にち閲覧えつらん 
  3. ^ Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050
  4. ^ Exploring Data Analysis
  5. ^ “Data Coding and Exploratory Analysis (EDA) Rules for Data Coding Exploratory Data Analysis (EDA) Statistical Assumptions”, SPSS for Intermediate Statistics (Routledge): pp. 42–67, (2004-08-16), doi:10.4324/9781410611420-6, ISBN 978-1-4106-1142-0, https://doi.org/10.4324/9781410611420-6 2021ねん5がつ29にち閲覧えつらん 
  6. ^ “New European ICT call focuses on PICs, lasers, data transfer”. SPIE Professional. (2014-10-01). doi:10.1117/2.4201410.10. ISSN 1994-4403. https://doi.org/10.1117/2.4201410.10. 
  7. ^ Samandar, Petersson; Svantesson, Sofia (2017). Skapandet av förtroende inom eWOM : En studie av profilbildens effekt ur ett könsperspektiv. Högskolan i Gävle, Företagsekonomi. OCLC 1233454128 
  8. ^ Goodnight, James (2011-01-13). “The forecast for predictive analytics: hot and getting hotter”. Statistical Analysis and Data Mining: The ASA Data Science Journal 4 (1): 9–10. doi:10.1002/sam.10106. ISSN 1932-1864. https://doi.org/10.1002/sam.10106. 
  9. ^ Sherman, Rick (4 November 2014). Business intelligence guidebook: from data integration to analytics. Amsterdam. ISBN 978-0-12-411528-6. OCLC 894555128. https://www.worldcat.org/oclc/894555128 
  10. ^ Field, John (2009), “Dividing listening into its components”, Listening in the Language Classroom (Cambridge: Cambridge University Press): pp. 96–109, doi:10.1017/cbo9780511575945.008, ISBN 978-0-511-57594-5, https://doi.org/10.1017/cbo9780511575945.008 2021ねん5がつ29にち閲覧えつらん 
  11. ^ a b c Judd, Charles; McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0 
  12. ^ John Tukey-The Future of Data Analysis-July 1961
  13. ^ a b c d e f g Doing Data Science. O'Reilly Media. (2013). ISBN 978-1-449-35865-5 
  14. ^ “USE OF THE DATA”, Handbook of Petroleum Product Analysis (Hoboken, NJ: John Wiley & Sons, Inc): pp. 296–303, (2015-02-06), doi:10.1002/9781118986370.ch18, ISBN 978-1-118-98637-0, https://doi.org/10.1002/9781118986370.ch18 2021ねん5がつ29にち閲覧えつらん 
  15. ^ Ainsworth, Penne (20 May 2019). Introduction to accounting : an integrated approach. ISBN 978-1-119-60014-5. OCLC 1097366032 
  16. ^ Margo, Robert A. (2000). Wages and labor markets in the United States, 1820-1860. University of Chicago Press. ISBN 0-226-50507-3. OCLC 41285104 
  17. ^ Olusola, Johnson Adedeji; Shote, Adebola Adekunle; Ouigmane, Abdellah; Isaifan, Rima J. (7 May 2021). “Table 1: Data type and sources of data collected for this research.”. PeerJ 9: e11387. doi:10.7717/peerj.11387/table-1. https://doi.org/10.7717/peerj.11387/table-1 2021ねん5がつ29にち閲覧えつらん. 
  18. ^ MacPherson, Derek (2019-10-16), “Information Technology Analysts' Perspectives”, Data Strategy in Colleges and Universities (Routledge): pp. 168–183, doi:10.4324/9780429437564-12, ISBN 978-0-429-43756-4, https://doi.org/10.4324/9780429437564-12 2021ねん5がつ29にち閲覧えつらん 
  19. ^ Nelson, Stephen L. (2014). Excel data analysis for dummies. Wiley. ISBN 978-1-118-89810-9. OCLC 877772392 
  20. ^ Figure 3—source data 1. Raw and processed values obtained through qPCR.. (30 August 2017). doi:10.7554/elife.28468.029. https://doi.org/10.7554/elife.28468.029 2021ねん5がつ29にち閲覧えつらん. 
  21. ^ a b Bohannon, John (2016-02-24). “Many surveys, about one in five, may contain fraudulent data”. Science. doi:10.1126/science.aaf4104. ISSN 0036-8075. 
  22. ^ Jeannie Scruggs, Garber; Gross, Monty; Slonim, Anthony D. (2010). Avoiding common nursing errors. Wolters Kluwer Health/Lippincott Williams & Wilkins. ISBN 978-1-60547-087-0. OCLC 338288678 
  23. ^ Data Cleaning”. Microsoft Research. 2013ねん10がつ26にち閲覧えつらん
  24. ^ Hancock, R.G.V.; Carter, Tristan (February 2010). “How reliable are our published archaeometric analyses? Effects of analytical techniques through time on the elemental analysis of obsidians”. Journal of Archaeological Science 37 (2): 243–250. doi:10.1016/j.jas.2009.10.004. ISSN 0305-4403. https://doi.org/10.1016/j.jas.2009.10.004. 
  25. ^ a b c Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006
  26. ^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (2011-03-23). “Providing cell phone numbers and email addresses to Patients: the physician's perspective”. BMC Research Notes 4 (1): 76. doi:10.1186/1756-0500-4-76. ISSN 1756-0500. PMC 3076270. PMID 21426591. https://doi.org/10.1186/1756-0500-4-76. 
  27. ^ Goodman, Lenn Evan (1998). Judaism, human rights, and human values. Oxford University Press. ISBN 0-585-24568-1. OCLC 45733915 
  28. ^ Hanzo, Lajos. Blind joint maximum likelihood channel estimation and data detection for single-input multiple-output systems. doi:10.1049/iet-tv.44.786. https://doi.org/10.1049/iet-tv.44.786 2021ねん5がつ29にち閲覧えつらん. 
  29. ^ Hellerstein, Joseph (27 February 2008). “Quantitative Data Cleaning for Large Databases”. EECS Computer Science Division: 3. http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf 2013ねん10がつ26にち閲覧えつらん. 
  30. ^ Davis, Steve; Pettengill, James B.; Luo, Yan; Payne, Justin; Shpuntoff, Al; Rand, Hugh; Strain, Errol (26 August 2015). “CFSAN SNP Pipeline: An automated method for constructing SNP matrices from next-generation sequence data”. PeerJ Computer Science 1: e20. doi:10.7717/peerj-cs.20/supp-1. https://doi.org/10.7717/peerj-cs.20/supp-1 2021ねん5がつ31にち閲覧えつらん. 
  31. ^ “FTC requests additional data”. Pump Industry Analyst 1999 (48): 12. (December 1999). doi:10.1016/s1359-6128(99)90509-8. ISSN 1359-6128. https://doi.org/10.1016/s1359-6128(99)90509-8. 
  32. ^ Exploring your Data with Data Visualization & Descriptive Statistics: Common Descriptive Statistics for Quantitative Data. (2017). doi:10.4135/9781529732795. https://doi.org/10.4135/9781529732795. 
  33. ^ Murray, Daniel G. (2013). Tableau your data! : fast and easy visual analysis with Tableau Software. J. Wiley & Sons. ISBN 978-1-118-61204-0. OCLC 873810654 
  34. ^ Ben-Ari, Mordechai (2012), “First-Order Logic: Formulas, Models, Tableaux”, Mathematical Logic for Computer Science (London: Springer London): pp. 131–154, doi:10.1007/978-1-4471-4129-7_7, ISBN 978-1-4471-4128-0, https://doi.org/10.1007/978-1-4471-4129-7_7 2021ねん5がつ31にち閲覧えつらん 
  35. ^ Sosa, Ernest (2011). Causation. Oxford Univ. Press. ISBN 978-0-19-875094-9. OCLC 767569031 
  36. ^ Evans, Michelle V.; Dallas, Tad A.; Han, Barbara A.; Murdock, Courtney C.; Drake, John M. (28 February 2017). “Figure 2. Variable importance by permutation, averaged over 25 models.”. eLife 6: e22053. doi:10.7554/elife.22053.004. https://doi.org/10.7554/elife.22053.004 2021ねん5がつ31にち閲覧えつらん. 
  37. ^ Watson, Kevin; Halperin, Israel; Aguilera-Castells, Joan; Iacono, Antonio Dello (12 November 2020). “Table 3: Descriptive (mean ± SD), inferential (95% CI) and qualitative statistics (ES) of all variables between self-selected and predetermined conditions.”. PeerJ 8: e10361. doi:10.7717/peerj.10361/table-3. https://doi.org/10.7717/peerj.10361/table-3 2021ねん5がつ31にち閲覧えつらん. 
  38. ^ Cortés-Molino, Álvaro; Aulló-Maestro, Isabel; Fernandez-Luque, Ismael; Flores-Moya, Antonio; Carreira, José A.; Salvo, A. Enrique (22 October 2020). “Table 3: Best regression models between LIDAR data (independent variable) and field-based Forestereo data (dependent variable), used to map spatial distribution of the main forest structure variables.”. PeerJ 8: e10158. doi:10.7717/peerj.10158/table-3. https://doi.org/10.7717/peerj.10158/table-3 2021ねん5がつ31にち閲覧えつらん. 
  39. ^ International Sales Terms, Beck/Hart, (2014), doi:10.5040/9781472561671.ch-003, ISBN 978-1-4725-6167-1, https://doi.org/10.5040/9781472561671.ch-003 2021ねん5がつ31にち閲覧えつらん 
  40. ^ Nwabueze, JC (2008-05-21). “Performances of estimators of linear model with auto-correlated error terms when the independent variable is normal”. Journal of the Nigerian Association of Mathematical Physics 9 (1). doi:10.4314/jonamp.v9i1.40071. ISSN 1116-4336. https://doi.org/10.4314/jonamp.v9i1.40071. 
  41. ^ Conway, Steve (2012-07-04). “A Cautionary Note on Data Inputs and Visual Outputs in Social Network Analysis”. British Journal of Management 25 (1): 102–117. doi:10.1111/j.1467-8551.2012.00835.x. hdl:2381/36068. ISSN 1045-3172. https://doi.org/10.1111/j.1467-8551.2012.00835.x. 
  42. ^ “Customer Purchases and Other Repeated Events”, Data Analysis Using SQL and Excel® (Indianapolis, Indiana: John Wiley & Sons, Inc.): pp. 367–420, (2016-01-29), doi:10.1002/9781119183419.ch8, ISBN 978-1-119-18341-9, https://doi.org/10.1002/9781119183419.ch8 2021ねん5がつ31にち閲覧えつらん 
  43. ^ Grandjean, Martin (2014). “La connaissance est un réseau”. Les Cahiers du Numérique 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54. http://www.martingrandjean.ch/wp-content/uploads/2015/02/Grandjean-2014-Connaissance-reseau.pdf. 
  44. ^ Data requirements for semiconductor die. Exchange data formats and data dictionary, BSI British Standards, doi:10.3403/02271298, https://doi.org/10.3403/02271298 2021ねん5がつ31にち閲覧えつらん 
  45. ^ Yee, D. (1985-04-01). “How to Communicate Your Message to an Audience Effectively”. The Gerontologist 25 (2): 209. doi:10.1093/geront/25.2.209. ISSN 0016-9013. https://doi.org/10.1093/geront/25.2.209. 
  46. ^ Bemowska-Kałabun, Olga; Wąsowicz, Paweł; Napora-Rutkowski, Łukasz; Nowak-Życzyńska, Zuzanna; Wierzbicka, Małgorzata (11 June 2019). Supplemental Information 1: Raw data for charts and tables. doi:10.7287/peerj.preprints.27793v1/supp-1. https://doi.org/10.7287/peerj.preprints.27793v1/supp-1 2021ねん5がつ31にち閲覧えつらん. 
  47. ^ Visualizing Data About UK Museums: Bar Charts, Line Charts and Heat Maps. (2021). doi:10.4135/9781529768749. ISBN 9781529768749. https://doi.org/10.4135/9781529768749 
  48. ^ Tunqui Neira, José Manuel (2019-09-19). Thank you for your review. Please find in the attached pdf file a detailed response to the points you raised.. doi:10.5194/hess-2019-325-ac2. https://doi.org/10.5194/hess-2019-325-ac2 2021ねん6がつ1にち閲覧えつらん. 
  49. ^ Brackett, John W. (1989), “Performing Requirements Analysis Project Courses for External Customers”, Issues in Software Engineering Education (New York, NY: Springer New York): pp. 276–285, doi:10.1007/978-1-4613-9614-7_20, ISBN 978-1-4613-9616-1, https://doi.org/10.1007/978-1-4613-9614-7_20 2021ねん6がつ3にち閲覧えつらん 
  50. ^ Wyckhuys, Kris A. G.; Wongtiem, Prapit; Rauf, Aunu; Thancharoen, Anchana; Heimpel, George E.; Le, Nhung T. T.; Fanani, Muhammad Zainal; Gurr, Geoff M. et al. (19 October 2018). “Figure 2: Bi-monthly mealybug population fluctuations in southern Vietnam, over a 2-year time period.”. PeerJ 6: e5796. doi:10.7717/peerj.5796/fig-2. https://doi.org/10.7717/peerj.5796/fig-2 2021ねん6がつ3にち閲覧えつらん. 
  51. ^ Riehl, Emily (2014), “A sampling of 2-categorical aspects of quasi-category theory”, Categorical Homotopy Theory (Cambridge: Cambridge University Press): pp. 318–336, doi:10.1017/cbo9781107261457.019, ISBN 978-1-107-26145-7, https://doi.org/10.1017/cbo9781107261457.019 2021ねん6がつ3にち閲覧えつらん 
  52. ^ “X-BAR CHART”, SpringerReference (Berlin/Heidelberg: Springer-Verlag), (2011), doi:10.1007/springerreference_7402, https://doi.org/10.1007/springerreference_7402 2021ねん6がつ3にち閲覧えつらん 
  53. ^ Chart C5.3. Percentage of 15-19 year-olds not in education, by labour market status (2012). doi:10.1787/888933119055. https://doi.org/10.1787/888933119055 2021ねん6がつ3にち閲覧えつらん. 
  54. ^ Chart 7: Households: final consumption expenditure versus actual individual consumption. doi:10.1787/665527077310. https://doi.org/10.1787/665527077310 2021ねん6がつ3にち閲覧えつらん. 
  55. ^ Chao, Luke H.; Jang, Jaebong; Johnson, Adam; Nguyen, Anthony; Gray, Nathanael S.; Yang, Priscilla L.; Harrison, Stephen C. (12 July 2018). “Figure 4. Frequency of hemifusion (measured as DiD fluorescence dequenching) as a function of number of bound Alexa-fluor-555/3-110-22 molecules.”. eLife 7: e36461. doi:10.7554/elife.36461.006. https://doi.org/10.7554/elife.36461.006 2021ねん6がつ3にち閲覧えつらん. 
  56. ^ Garnier, Elodie M.; Fouret, Nastasia; Descoins, Médéric (3 February 2020). “Table 2: Graph comparison between Scatter plot, Violin + Scatter plot, Heatmap and ViSiElse graph.”. PeerJ 8: e8341. doi:10.7717/peerj.8341/table-2. https://doi.org/10.7717/peerj.8341/table-2 2021ねん6がつ3にち閲覧えつらん. 
  57. ^ Product comparison chart: Wearables. (2009). doi:10.1037/e539162010-006. https://doi.org/10.1037/e539162010-006 2021ねん6がつ3にち閲覧えつらん. 
  58. ^ Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004
  59. ^ Stephen Few-Perceptual Edge-Graph Selection Matrix
  60. ^ Recommended Best Practices. (2008-10-01). doi:10.14217/9781848590151-8-en. https://doi.org/10.14217/9781848590151-8-en 2021ねん6がつ3にち閲覧えつらん. 
  61. ^ Hobold, Edilson; Pires-Lopes, Vitor; Gómez-Campos, Rossana; Arruda, Miguel de; Andruske, Cynthia Lee; Pacheco-Carrillo, Jaime; Cossio-Bolaños, Marco Antonio (30 November 2017). “Table 1: Descriptive statistics (mean ± standard-deviation) for somatic variables and physical fitness ítems for males and females.”. PeerJ 5: e4032. doi:10.7717/peerj.4032/table-1. https://doi.org/10.7717/peerj.4032/table-1 2021ねん6がつ3にち閲覧えつらん. 
  62. ^ Ablin, Jacob N.; Zohar, Ada H.; Zaraya-Blum, Reut; Buskila, Dan (13 September 2016). “Table 2: Cluster analysis presenting mean values of psychological variables per cluster group.”. PeerJ 4: e2421. doi:10.7717/peerj.2421/table-2. https://doi.org/10.7717/peerj.2421/table-2 2021ねん6がつ3にち閲覧えつらん. 
  63. ^ “Consultants Employed by McKinsey & Company”, Organizational Behavior 5 (Routledge): pp. 77–82, (2008-07-30), doi:10.4324/9781315701974-15, ISBN 978-1-315-70197-4, https://doi.org/10.4324/9781315701974-15 2021ねん6がつ3にち閲覧えつらん 
  64. ^ Antiphanes (2007), Olson, S. Douglas, ed., “H6 Antiphanes fr.172.1-4, from Women Who Looked Like Each Other or Men Who Looked Like Each Other”, Broken Laughter: Select Fragments of Greek Comedy (Oxford University Press), doi:10.1093/oseo/instance.00232915, ISBN 978-0-19-928785-7, https://doi.org/10.1093/oseo/instance.00232915 2021ねん6がつ3にち閲覧えつらん 
  65. ^ Carey, Malachy (November 1981). “On Mutually Exclusive and Collectively Exhaustive Properties of Demand Functions”. Economica 48 (192): 407–415. doi:10.2307/2553697. ISSN 0013-0427. JSTOR 2553697. https://doi.org/10.2307/2553697. 
  66. ^ Total tax revenue. doi:10.1787/352874835867. https://doi.org/10.1787/352874835867 2021ねん6がつ3にち閲覧えつらん. 
  67. ^ “Dual-use car may solve transportation problems”. Chemical & Engineering News Archive 46 (24): 44. (1968-06-03). doi:10.1021/cen-v046n024.p044. ISSN 0009-2347. https://doi.org/10.1021/cen-v046n024.p044. 
  68. ^ Heckman (1978). “Simple Statistical Models for Discrete Panel Data Developed and Applied to Test the Hypothesis of True State Dependence against the Hypothesis of Spurious State Dependence”. Annales de l'inséé (30/31): 227–269. doi:10.2307/20075292. ISSN 0019-0209. JSTOR 20075292. https://doi.org/10.2307/20075292. 
  69. ^ Koontz, Dean (2017). False Memory. Headline Book Publishing. ISBN 978-1-4722-4830-5. OCLC 966253202 
  70. ^ Munday, Stephen C. R. (1996), “Unemployment, Inflation and the Phillips Curve”, Current Developments in Economics (London: Macmillan Education UK): pp. 186–218, doi:10.1007/978-1-349-24986-2_11, ISBN 978-0-333-64444-7, https://doi.org/10.1007/978-1-349-24986-2_11 2021ねん6がつ3にち閲覧えつらん 
  71. ^ Louangrath, Paul I. (2013). “Alpha and Beta Tests for Type I and Type II Inferential Errors Determination in Hypothesis Testing”. SSRN Electronic Journal. doi:10.2139/ssrn.2332756. ISSN 1556-5068. https://doi.org/10.2139/ssrn.2332756. 
  72. ^ Walko, Ann M. (2006). Rejecting the second generation hypothesis : maintaining Estonian ethnicity in Lakewood, New Jersey. AMS Press. ISBN 0-404-19454-0. OCLC 467107876 
  73. ^ a b Yanamandra, Venkataramana (September 2015). “Exchange rate changes and inflation in India: What is the extent of exchange rate pass-through to imports?”. Economic Analysis and Policy 47: 57–68. doi:10.1016/j.eap.2015.07.004. ISSN 0313-5926. https://doi.org/10.1016/j.eap.2015.07.004. 
  74. ^ Mudiyanselage, Nawarathna; Nawarathna, Pubudu Manoj. Characterization of epigenetic changes and their connection to gene expression abnormalities in clear cell renal cell carcinoma. OCLC 1190697848 
  75. ^ Moreno Delgado, David; Møller, Thor C.; Ster, Jeanne; Giraldo, Jesús; Maurel, Damien; Rovira, Xavier; Scholler, Pauline; Zwier, Jurriaan M. et al. (29 June 2017). “Appendix 1—figure 5. Curve data included in Appendix 1—table 4 (solid points) and the theoretical curve by using the Hill equation parameters of Appendix 1—table 5 (curve line).”. eLife 6: e25233. doi:10.7554/elife.25233.027. https://doi.org/10.7554/elife.25233.027 2021ねん6がつ3にち閲覧えつらん. 
  76. ^ Feinmann, Jane. How Can Engineers and Journalists Help Each Other?. doi:10.1049/iet-tv.48.859. https://doi.org/10.1049/iet-tv.48.859 2021ねん6がつ3にち閲覧えつらん. 
  77. ^ Dul, Jan (2015). “Necessary Condition Analysis (NCA): Logic and Methodology of 'Necessary But Not Sufficient' Causality”. SSRN Electronic Journal. doi:10.2139/ssrn.2588480. hdl:1765/77890. ISSN 1556-5068. https://doi.org/10.2139/ssrn.2588480. 
  78. ^ Robert Amar, James Eagan, and John Stasko (2005) "Low-Level Components of Analytic Activity in Information Visualization"
  79. ^ William Newman (1994) "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts"
  80. ^ Mary Shaw (2002) "What Makes Good Research in Software Engineering?"
  81. ^ a b Yavari, Ali; Jayaraman, Prem Prakash; Georgakopoulos, Dimitrios; Nepal, Surya (2017). ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications. Proceedings of the 50th Hawaii International Conference on System Sciences (2017). HICSS50. doi:10.24251/HICSS.2017.715. hdl:10125/41879. ISBN 9780998133102. https://scholarspace.manoa.hawaii.edu/handle/10125/41879 2017ねん5がつ24にち閲覧えつらん 
  82. ^ “Connectivity tool transfers data among database and statistical products”. Computational Statistics & Data Analysis 8 (2): 224. (July 1989). doi:10.1016/0167-9473(89)90021-2. ISSN 0167-9473. https://doi.org/10.1016/0167-9473(89)90021-2. 
  83. ^ “Information relevant to your job”, Obtaining Information for Effective Management (Routledge): pp. 48–54, (2007-07-11), doi:10.4324/9780080544304-16, ISBN 978-0-08-054430-4, https://doi.org/10.4324/9780080544304-16 2021ねん6がつ3にち閲覧えつらん 
  84. ^ Lehmann, E. L. (2010). Testing statistical hypotheses. Springer. ISBN 978-1-4419-3178-8. OCLC 757477004 
  85. ^ Fielding, Henry (2008-08-14), “Consisting partly of facts, and partly of observations upon them”, Tom Jones (Oxford University Press), doi:10.1093/owc/9780199536993.003.0193, ISBN 978-0-19-953699-3, https://doi.org/10.1093/owc/9780199536993.003.0193 2021ねん6がつ3にち閲覧えつらん 
  86. ^ Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24” (PDF) (2010ねん8がつ18にち). 2011ねん3がつ31にち閲覧えつらん
  87. ^ “Students' sense of belonging, by immigrant background”. PISA 2015 Results (Volume III). PISA. (2017-04-19). doi:10.1787/9789264273856-table125-en. ISBN 9789264273818. ISSN 1996-3777. https://doi.org/10.1787/9789264273856-table125-en. 
  88. ^ Gordon, Roger (March 1990). Do Publicly Traded Corporations Act in the Public Interest?. Cambridge, MA. doi:10.3386/w3303. https://doi.org/10.3386/w3303. 
  89. ^ Minardi, Margot (2010-09-24), “Facts and Opinion”, Making Slavery History (Oxford University Press): pp. 13–42, doi:10.1093/acprof:oso/9780195379372.003.0003, ISBN 978-0-19-537937-2, https://doi.org/10.1093/acprof:oso/9780195379372.003.0003 2021ねん6がつ3にち閲覧えつらん 
  90. ^ Rivard, Jillian R. Confirmation bias in witness interviewing: Can interviewers ignore their preconceptions? (Thesis). Florida International University. doi:10.25148/etd.fi14071109
  91. ^ Papineau, David (1988), “Does the Sociology of Science Discredit Science?”, Relativism and Realism in Science (Dordrecht: Springer Netherlands): pp. 37–57, doi:10.1007/978-94-009-2877-0_2, ISBN 978-94-010-7795-8, https://doi.org/10.1007/978-94-009-2877-0_2 2021ねん6がつ3にち閲覧えつらん 
  92. ^ Bromme, Rainer; Hesse, Friedrich W.; Spada, Hans, eds (2005). Barriers and Biases in Computer-Mediated Knowledge Communication. doi:10.1007/b105100. ISBN 978-0-387-24317-7. https://doi.org/10.1007/b105100 
  93. ^ Heuer, Richards (2019-06-10). Heuer, Richards J. ed. Quantitative Approaches to Political Intelligence. doi:10.4324/9780429303647. ISBN 9780429303647. https://doi.org/10.4324/9780429303647 
  94. ^ Richards J. Heuer, Jr.. “Psychology of Intelligence Analysis”. cia.gov. 2022ねん1がつ30にち閲覧えつらん
  95. ^ Figure 6.7. Differences in literacy scores across OECD countries generally mirror those in numeracy. doi:10.1787/888934081549. https://doi.org/10.1787/888934081549 2021ねん6がつ3にち閲覧えつらん. 
  96. ^ Bloomberg-Barry Ritholz-Bad Math that Passes for Insight-October 28, 2014
  97. ^ Gusnaini, Nuriska; Andesto, Rony; Ermawati (2020-12-15). “The Effect of Regional Government Size, Legislative Size, Number of Population, and Intergovernmental Revenue on The Financial Statements Disclosure”. European Journal of Business and Management Research 5 (6). doi:10.24018/ejbmr.2020.5.6.651. ISSN 2507-1076. https://doi.org/10.24018/ejbmr.2020.5.6.651. 
  98. ^ Linsey, Julie S.; Becker, Blake (2011), “Effectiveness of Brainwriting Techniques: Comparing Nominal Groups to Real Teams”, Design Creativity 2010 (London: Springer London): pp. 165–171, doi:10.1007/978-0-85729-224-7_22, ISBN 978-0-85729-223-0, https://doi.org/10.1007/978-0-85729-224-7_22 2021ねん6がつ3にち閲覧えつらん 
  99. ^ Lyon, J. (April 2006). Purported Responsible Address in E-Mail Messages. doi:10.17487/rfc4407. https://doi.org/10.17487/rfc4407. 
  100. ^ Stock, Eugene (10 June 2017). The History of the Church Missionary Society Its Environment, its Men and its Work. ISBN 978-3-337-18120-8. OCLC 1189626777 
  101. ^ Gross, William H. (July 1979). “Coupon Valuation and Interest Rate Cycles”. Financial Analysts Journal 35 (4): 68–71. doi:10.2469/faj.v35.n4.68. ISSN 0015-198X. https://doi.org/10.2469/faj.v35.n4.68. 
  102. ^ 25. General government total outlays. doi:10.1787/888932348795. https://doi.org/10.1787/888932348795 2021ねん6がつ3にち閲覧えつらん. 
  103. ^ González-Vidal, Aurora; Moreno-Cano, Victoria (2016). “Towards energy efficiency smart buildings models based on intelligent data analytics”. Procedia Computer Science 83 (Elsevier): 994–999. doi:10.1016/j.procs.2016.04.213. 
  104. ^ “Low-Energy Air Conditioning and Lighting Control”, Building Energy Management Systems (Routledge): pp. 406–439, (2013-07-04), doi:10.4324/9780203477342-18, ISBN 978-0-203-47734-2, https://doi.org/10.4324/9780203477342-18 2021ねん6がつ3にち閲覧えつらん 
  105. ^ Davenport, Thomas; Harris, Jeanne (2007). Competing on Analytics. O'Reilly. ISBN 978-1-4221-0332-6 
  106. ^ Aarons, D. (2009). Report finds states on course to build pupil-data systems. Education Week, 29(13), 6.
  107. ^ Rankin, J. (2013, March 28). How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help. Archived 2019-03-26 at the Wayback Machine. Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit.
  108. ^ Brödermann, Eckart J. (2018), “Article 2.2.1 (Scope of the Section)”, Commercial Law (Nomos Verlagsgesellschaft mbH & Co. KG): pp. 525, doi:10.5771/9783845276564-525, ISBN 978-3-8452-7656-4, https://doi.org/10.5771/9783845276564-525 2021ねん6がつ3にち閲覧えつらん 
  109. ^ Jaech, J.L. (1960-04-21). Analysis of dimensional distortion data from initial 24 quality certification tubes. doi:10.2172/10170345. https://doi.org/10.2172/10170345. 
  110. ^ Adèr 2008a, p. 337.
  111. ^ Kjell, Oscar N. E.; Thompson, Sam (19 December 2013). “Descriptive statistics indicating the mean, standard deviation and frequency of missing values for each condition (N = number of participants), and for the dependent variables (DV)”. PeerJ 1: e231. doi:10.7717/peerj.231/table-1. https://doi.org/10.7717/peerj.231/table-1 2021ねん6がつ3にち閲覧えつらん. 
  112. ^ Practice for Dealing With Outlying Observations, ASTM International, doi:10.1520/e0178-16a, https://doi.org/10.1520/e0178-16a 2021ねん6がつ3にち閲覧えつらん 
  113. ^ “Alternative Coding Schemes for Dummy Variables”, Regression with Dummy Variables (2455 Teller Road, Newbury Park California 91320 United States of America: SAGE Publications, Inc.): pp. 64–75, (1993), doi:10.4135/9781412985628.n5, ISBN 978-0-8039-5128-0, https://doi.org/10.4135/9781412985628.n5 2021ねん6がつ3にち閲覧えつらん 
  114. ^ Adèr 2008a, pp. 338–341.
  115. ^ Danilyuk, P. M. (July 1960). “Computing the displacement of the initial contour of gears when they are checked by means of balls”. Measurement Techniques 3 (7): 585–587. doi:10.1007/bf00977716. ISSN 0543-1972. https://doi.org/10.1007/bf00977716. 
  116. ^ Newman, Isadore (1998). Qualitative-quantitative research methodology : exploring the interactive continuum. Southern Illinois University Press. ISBN 0-585-17889-5. OCLC 44962443 
  117. ^ Terwilliger, James S.; Lele, Kaustubh (June 1979). “Some Relationships Among Internal Consistency, Reproducibility, and Homogeneity”. Journal of Educational Measurement 16 (2): 101–108. doi:10.1111/j.1745-3984.1979.tb00091.x. ISSN 0022-0655. https://doi.org/10.1111/j.1745-3984.1979.tb00091.x. 
  118. ^ Adèr 2008a, pp. 341–342.
  119. ^ Adèr 2008a, p. 344.
  120. ^ Tabachnick & Fidell, 2007, p. 87-88.
  121. ^ Tchakarova, Kalina (October 2020). “2020/31 Comparing job descriptions is insufficient for checking whether work is equally valuable (BG)”. European Employment Law Cases 5 (3): 168–170. doi:10.5553/eelc/187791072020005003006. ISSN 1877-9107. https://doi.org/10.5553/eelc/187791072020005003006. 
  122. ^ Random sampling and randomization procedures, BSI British Standards, doi:10.3403/30137438, https://doi.org/10.3403/30137438 2021ねん6がつ3にち閲覧えつらん 
  123. ^ Adèr 2008a, pp. 344–345.
  124. ^ Sandberg, Margareta (June 2006). “Acupuncture Procedures Must be Accurately Described”. Acupuncture in Medicine 24 (2): 92–94. doi:10.1136/aim.24.2.92. ISSN 0964-5284. PMID 16783285. https://doi.org/10.1136/aim.24.2.92. 
  125. ^ Jaarsma, C.F.. Verkeer in een landelijk gebied: waarnemingen en analyse van het verkeer in zuidwest Friesland en ontwikkeling van een verkeersmodel. OCLC 1016575584 
  126. ^ Foth, Christian; Hedrick, Brandon P.; Ezcurra, Martin D. (18 January 2016). “Figure 4: Centroid size regression analyses for the main sample.”. PeerJ 4: e1589. doi:10.7717/peerj.1589/fig-4. https://doi.org/10.7717/peerj.1589/fig-4 2021ねん6がつ3にち閲覧えつらん. 
  127. ^ Adèr 2008a, p. 345.
  128. ^ “The Final Years (1975-84)”, The Road Not Taken (Boydell & Brewer): pp. 853–922, (2018-06-18), doi:10.2307/j.ctv6cfncp.26, ISBN 978-1-57647-332-0, https://doi.org/10.2307/j.ctv6cfncp.26 2021ねん6がつ3にち閲覧えつらん 
  129. ^ Fitzmaurice, Kathryn (17 March 2015). Destiny, rewritten. ISBN 978-0-06-162503-9. OCLC 905090570 
  130. ^ Supplementary file 4. Raw data and R-based analyses. (7 March 2017). doi:10.7554/elife.24102.023. https://doi.org/10.7554/elife.24102.023 2021ねん6がつ3にち閲覧えつらん. 
  131. ^ Adèr 2008a, pp. 345–346.
  132. ^ Adèr 2008a, pp. 346–347.
  133. ^ Adèr 2008a, pp. 349–353.
  134. ^ Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  135. ^ Adèr 2008b, p. 363.
  136. ^ “Exploratory Data Analysis”, Python® for R Users (Hoboken, NJ, USA: John Wiley & Sons, Inc.): pp. 119–138, (2017-10-13), doi:10.1002/9781119126805.ch4, hdl:11380/971504, ISBN 978-1-119-12680-5, https://doi.org/10.1002/9781119126805.ch4 2021ねん6がつ3にち閲覧えつらん 
  137. ^ “Engaging in Exploratory Data Analysis, Visualization, and Hypothesis Testing”, Spatial Analysis (CRC Press): pp. 106–139, (2015-07-28), doi:10.1201/b18808-8, ISBN 978-0-429-06936-9, https://doi.org/10.1201/b18808-8 2021ねん6がつ3にち閲覧えつらん 
  138. ^ “Hypotheses About Categories”, Starting Statistics: A Short, Clear Guide (1 Oliver's Yard, 55 City Road, London EC1Y 1SP United Kingdom: SAGE Publications Ltd): pp. 138–151, (2010), doi:10.4135/9781446287873.n14, ISBN 978-1-84920-098-1, https://doi.org/10.4135/9781446287873.n14 2021ねん6がつ3にち閲覧えつらん 
  139. ^ Sordo, Rachele Del; Sidoni, Angelo (December 2008). “MIB-1 Cell Membrane Reactivity: A Finding That Should be Interpreted Carefully”. Applied Immunohistochemistry & Molecular Morphology 16 (6): 568. doi:10.1097/pai.0b013e31817af2cf. ISSN 1541-2016. PMID 18800001. https://doi.org/10.1097/pai.0b013e31817af2cf. 
  140. ^ Liquet, Benoit; Riou, Jérémie (2013-06-08). “Correction of the significance level when attempting multiple transformations of an explanatory variable in generalized linear models”. BMC Medical Research Methodology 13 (1): 75. doi:10.1186/1471-2288-13-75. ISSN 1471-2288. PMC 3699399. PMID 23758852. https://doi.org/10.1186/1471-2288-13-75. 
  141. ^ a b c Mcardle, John J. (2008). Some ethical issues in confirmatory versus exploratory analysis. doi:10.1037/e503312008-001. https://doi.org/10.1037/e503312008-001 2021ねん6がつ3にち閲覧えつらん. 
  142. ^ Adèr 2008b, pp. 361–362.
  143. ^ Adèr 2008b, pp. 361–371.
  144. ^ Truswell IV, William H., ed. (2009), “3 The Facelift: A Guide for Safe, Reliable, and Reproducible Results”, Surgical Facial Rejuvenation (Stuttgart: Georg Thieme Verlag), doi:10.1055/b-0034-73436, ISBN 978-1-58890-491-1, https://doi.org/10.1055/b-0034-73436 2021ねん6がつ3にち閲覧えつらん 
  145. ^ Supplementary file 1. Cross-validation schema.. (6 December 2018). doi:10.7554/elife.40224.014. https://doi.org/10.7554/elife.40224.014 2021ねん6がつ3にち閲覧えつらん. 
  146. ^ Hsiao, Cheng (2014), “Cross-Sectionally Dependent Panel Data”, Analysis of Panel Data (Cambridge: Cambridge University Press): pp. 327–368, doi:10.1017/cbo9781139839327.012, ISBN 978-1-139-83932-7, https://doi.org/10.1017/cbo9781139839327.012 2021ねん6がつ3にち閲覧えつらん 
  147. ^ Hjorth, J.S. Urban (2017-10-19), “Cross validation”, Computer Intensive Statistical Methods (Chapman and Hall/CRC): pp. 24–56, doi:10.1201/9781315140056-3, ISBN 978-1-315-14005-6, https://doi.org/10.1201/9781315140056-3 2021ねん6がつ3にち閲覧えつらん 
  148. ^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (2019-10-10). “What should we do when a model crashes? Recommendations for global sensitivity analysis of Earth and environmental systems models”. Geoscientific Model Development 12 (10): 4275–4296. Bibcode2019GMD....12.4275S. doi:10.5194/gmd-12-4275-2019. ISSN 1991-9603. https://doi.org/10.5194/gmd-12-4275-2019. 
  149. ^ Wiley, Matt; Wiley, Joshua F. (2019), “Multivariate Data Visualization”, Advanced R Statistical Programming and Data Models (Berkeley, CA: Apress): pp. 33–59, doi:10.1007/978-1-4842-2872-2_2, ISBN 978-1-4842-2871-5, https://doi.org/10.1007/978-1-4842-2872-2_2 2021ねん6がつ3にち閲覧えつらん 
  150. ^ Orduna-Malea, Enrique; Alonso-Arroyo, Adolfo (2018), “A cybermetric analysis model to measure private companies”, Cybermetric Techniques to Evaluate Organizations Using Web-Based Data (Elsevier): pp. 63–76, doi:10.1016/b978-0-08-101877-4.00003-x, ISBN 978-0-08-101877-4, https://doi.org/10.1016/b978-0-08-101877-4.00003-x 2021ねん6がつ3にち閲覧えつらん 
  151. ^ Leen, A.R.. The consumer in Austrian economics and the Austrian perspective on consumer policy. ISBN 90-5808-102-8. OCLC 1016689036 
  152. ^ “Examples of Survival Data Analysis”, Statistical Methods for Survival Data Analysis, Wiley Series in Probability and Statistics, Hoboken, NJ, USA: John Wiley & Sons, Inc., (2003-06-30), pp. 19–63, doi:10.1002/0471458546.ch3, ISBN 978-0-471-45854-8, https://doi.org/10.1002/0471458546.ch3 2021ねん6がつ3にち閲覧えつらん 
  153. ^ “The machine learning community takes on the Higgs”. Symmetry Magazine. (2014ねん7がつ15にち). http://www.symmetrymagazine.org/article/july-2014/the-machine-learning-community-takes-on-the-higgs/ 2015ねん1がつ14にち閲覧えつらん 
  154. ^ Nehme, Jean (2016ねん9がつ29にち). “LTPP International Data Analysis Contest”. Federal Highway Administration. 2017ねん10がつ22にち閲覧えつらん
  155. ^ Data.Gov:Long-Term Pavement Performance (LTPP)” (2016ねん5がつ26にち). 2017ねん11がつ10日とおか閲覧えつらん

参考さんこう文献ぶんけん[編集へんしゅう]

  • Adèr, Herman J. (2008a). “Chapter 14: Phases and initial steps in data analysis”. Advising on research methods : a consultant's companion. Huizen, Netherlands: Johannes van Kessel Pub. pp. 333–356. ISBN 9789079418015. OCLC 905799857 
  • Adèr, Herman J. (2008b). “Chapter 15: The main analysis phase”. Advising on research methods : a consultant's companion. Huizen, Netherlands: Johannes van Kessel Pub. pp. 357–386. ISBN 9789079418015. OCLC 905799857 
  • Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

推薦すいせん文献ぶんけん[編集へんしゅう]

  • Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5英語えいご
  • Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. ISBN 0-534-98052-X英語えいご
  • Fandango, Armando (2017). Python Data Analysis, 2nd Edition. Packt Publishers. ISBN 978-1787127487英語えいご
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. ISBN 0-07-034003-X英語えいご
  • Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, ISBN 0-8039-5772-6英語えいご
  • NIST/SEMATECH (2008) Handbook of Statistical Methods,英語えいご
  • Pyzdek, T, (2003). Quality Engineering Handbook, ISBN 0-8247-4614-7英語えいご
  • Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. ISBN 0-632-01311-7英語えいご
  • Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4英語えいご

関連かんれん項目こうもく[編集へんしゅう]