データレイク 101

現在、データ レイクはホットなコンセプトであり、多くの企業が独自のデータ レイクを構築または構築する計画を立てています。ただし、データ レイクを計画して構築する前に、データ レイクとは何か、なぜ必要なのか、その価値は何か、そしてそのアプリケーション シナリオは何かを明確にする必要があります。この記事では、これらの質問に答えて、よりよく理解できるようにします。

データレイクとは?

データレイクとは?

データレイクとは?

データ レイクは、大量の構造化データ、半構造化データ、および非構造化データを保存、処理、保護するための集中型リポジトリです。サイズの制限に関係なく、データをネイティブ形式で保存し、あらゆる変換形式を処理できます。

企業がオンプレミス、クラウド、またはエッジ コンピューティング システムから任意の速度で任意のシステムから任意のデータを取り込み、完全な忠実度で任意のタイプまたは量のデータを保存し、リアルタイムでデータを処理できるようにする、スケーラブルで安全なプラットフォームを提供します。 SQL、Python、R、またはその他の言語、サードパーティのデータ、または分析アプリケーションを使用してデータを分析します。

なぜそれが必要なのですか?

データからビジネス価値を生み出すことに成功した組織は、同業他社よりも優れた業績を上げます。 Aberdeen の調査によると、データ レイクを実装している組織は、9% の有機的収益成長率で比較対象の企業を上回っています。これらのリーダーは、ログ ファイル、クリックストリームからのデータ、ソーシャル メディア、データ レイクに保存されたインターネット接続デバイスなどの新しいソースからの機械学習など、新しいタイプの分析を可能にします。これにより、顧客を引き付けて維持し、生産性を高め、設備を積極的に維持し、情報に基づいた意思決定を行うことで、ビジネスの成長機会をより迅速に特定して対応することができます。

その価値は何ですか?

一方では、さまざまな種類のデータをまとめることができます。一方、その価値は、事前定義されたモデルなしでデータ分析を実行できることです。今日のビッグ データ アーキテクチャはスケーラブルで、ユーザーにより多くのリアルタイム分析を提供できます。今日、ビジネス インテリジェンス (BI) とデータ ウェアハウスが排除される前に、ビッグ データ分析とビッグ データ レイクは、リアルタイムの意思決定をサポートできる、より多くの種類のリアルタイム インテリジェント サービスに向けて発展しています。

それはどのようにビジネスに利益をもたらしますか?

初め、データ値マイニングのためのより強力な機能を備えています。データ分析、機械学習、データ アクセスと管理などのきめ細かな承認と監査の実現において、データ レイクの価値はより明確になります。

2番、 データサイロの現象が解消されます。データ形式の種類に制限はなく、すべてのデータがデータ レイクに流れ込むことができます。ユーザーのデータが生成された後、データがデータ レイクに流れ込む前にデータを処理または構造化することなく、データの元のコンテンツと属性に従ってデータ レイクに直接保存できます。

三番 ユーザーの大規模なデータ ストレージの弾力的な拡張を満たすことです。リレーショナル データベースのテーブルなどの構造化データ、CSV、JSON、XML、ログなどの半構造化データ、電子メール、ドキュメント、PDF、グラフィックス、オーディオなどの非構造化データを含む、現在のユーザー向けの複雑なデータ型をサポートします。ビデオなど。データレイクは、PB レベルおよび EB レベルでの大規模なストレージ展開を実現できます。

第4、コンピューティングとストレージの分離が実現されます。業界が認識している将来の一般的な方向性を考慮して、ストレージとコンピューティングを分離するアーキテクチャは独立したスケーラビリティを提供し、データがレイクに流れている間に必要に応じてコンピューティング エンジンを拡張できるようにします。さらに重要なことは、ストレージとコンピューティングの分離モードにより、コスト パフォーマンスが向上することです。データ レイクでのコンピューティングとストレージの分離は、データ処理および分析エンジンとディスクが異なるホスト上にあることを意味するのではなく、データ コンテンツ ストレージとデータ処理および分析エンジンの分離を意味することに注意してください。

データレイクが必要かどうかをどのように判断しますか?

会社にデータ レイクが必要かどうかを判断するときは、扱うデータの種類、そのデータで何をしたいのか、データ取得プロセスの複雑さ、データ管理、および データガバナンス 戦略、および組織内の人々が使用するツールとスキル レベル。

今日、企業はデータ レイクの価値を別の視点から見始めています。つまり、データ レイクは完全に忠実なデータを保存するために使用されるだけでなく、ユーザーがビジネス状況をより深く理解するのにも役立ちます。データ レイクはこれまで以上に豊富なコンテキストを提供するため、分析実験のスピードアップに役立ちます。

データレイクは主に大量のビッグデータを処理するために開発されており、企業は多くの場合、生データを変換せずにバッチやストリーミングを介してデータレイクに移動できます。企業は、主に次の目的でそれらに依存しています。

  • 総所有コストの削減。
  • データ管理を簡素化します。
  • 人工知能と機械学習を組み込む準備をしてください。
  • 分析を高速化します。
  • セキュリティとガバナンスを強化します。

その使用シナリオは何ですか?

データ レイクは分析と人工知能の基盤を提供するため、あらゆる業界の企業がそれを使用して、収益を増やし、お金を節約し、リスクを軽減しています。

  1. メディアとエンターテイメント: 音楽、ラジオ、ポッドキャストのオンライン ストリーミングを提供する企業は、レコメンデーション システムを改善することで収益を増やすことができます。これにより、ユーザーはより多くのサービスを利用できるようになり、企業はより多くの広告を販売できるようになります。
  2. 電気通信: 多国籍の電気通信会社は、解約傾向モデルを構築して顧客の解約を減らすことで、費用を節約できます。
  3. 金融業務: 投資会社は、リアルタイムの市場データが利用可能になるとすぐにポートフォリオ リスクを管理できるように、データ レイクを利用して機械学習を強化できます。

結論

この記事をお読みいただきありがとうございます。データ レイクとは何かをよりよく理解していただけることを願っています。詳細を知りたい場合は、訪問することをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析し、データ系統を取得し、視覚的に表示するだけでなく、ユーザーが以下を提供できるようにします。 データ系統 CSV形式でビジュアル表示を行います。 (2022 年 5 月 29 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す