データ管理の 11 の暗い秘密

データを「新しい石油」と呼ぶ人もいれば、「新しい金」と呼ぶ人もいます。これらの比喩の妥当性はさておき、データの整理と分析が、データ駆動型の意思決定の約束を果たそうとするすべてのビジネスにとって不可欠な仕事であることは間違いありません。この目的のために、固体 データ管理戦略 が鍵です。これも データガバナンス、データ操作、 データウェアハウジング, データ工学, データ分析、データ サイエンスなど。データ管理を適切に行えば、あらゆる業界の企業に競争上の優位性をもたらすことができます。この記事では、 データ管理の 11 の暗い秘密.

データ管理の暗い秘密

データ管理の暗い秘密

データ管理の闇の秘密 – 1. 非構造化データは分析が難しい

企業内データの80%~90%は非構造化データです。デジタル トランスフォーメーションが徐々にディープ ウォーター エリアに入るにつれて、非構造化データの量が急速に増加しています。これらのデータは、ドキュメント、画像、オーディオ、ビデオなどの形で社内に散らばっています。部門、アプリケーション、アーキテクチャ、マルチクラウド環境などの理由により、それらは構造化されていないデータ アイランドを形成します。コンテンツの価値を共有して使用し、掘り出すことは、企業のデジタルトランスフォーメーションのプロセスを深刻に妨げます。

データ管理の暗い秘密 – 2. 構造化されたデータでさえ、構造化されていないことが多い

優れた科学者とデータベース管理者は、各フィールドのタイプと構造を指定してデータベースを導きます。場合によっては、より多くの構造の名の下に、特定のフィールドの値を特定の範囲の整数または事前定義された選択肢に制限します。それでも、データベース ストレージ フォームに記入する人は、難易度を上げる方法を見つけるでしょう。

質問が当てはまらないと思われる場合は、フィールドが空であることで示されることがあります。その他は、ダッシュまたは最初の「な」を入力して示されます。優れた開発者は、検証を通じてこれらの問題のいくつかを見つけることができます。良い データサイエンティスト クリーニングすることで、この不確実性を減らすこともできます。しかし、非常に構造化されたテーブルでさえ、分析に不明な点やエラーをもたらす可能性のある不審なエントリがあることは腹立たしいことです。

データ管理の暗い秘密 – 3. データ スキーマが厳しすぎるか緩すぎる

データ チームがスキーマの制約を明確にしようとしても、さまざまなデータ フィールドの値を定義するために使用される最終的なスキーマは、厳しすぎるか緩すぎるかのいずれかです。データ チームが厳密な制約を追加した場合、ユーザーは、許容値の限られたリストに回答が見つからないと不満を言うでしょう。データ スキーマが寛容すぎると、ユーザーは一貫性のない奇数の値を追加できます。

データ管理の暗い秘密 – 4. データ法は非常に厳格です

プライバシーとデータ保護に関する法律は強力であり、強化される一方です。 GDPR、HIPPA などの多数の規制があるため、データの収集は非常に困難であり、ハッキングされた場合はさらに危険です。多くの場合、弁護士を雇うには、プログラマーやデータ サイエンティストを雇うよりもはるかに費用がかかります。これらの頭痛の種が、一部の企業が処理されたデータをすぐに破棄する理由です。

データ管理の闇の秘密 – 5. データクリーニングのコストは莫大です

データ クレンジングは、データベースまたはデータ テーブルから不正確なデータ レコードを修正および削除するプロセスです。大まかに言えば、データ クレンジングには、不完全、不正確、無関係、または問題のあるデータや記録を特定して置き換えることが含まれます。

多くのデータ サイエンティストは、自分たちの仕事の 90% が単にデータを収集し、それを一貫した形式で提示し、無限の抜け穴やエラーに対処していることを認めています。データを持っている人はいつも、「すべてが CSV (Comma Separated Values、一般的で比較的単純なファイル形式) で、すぐに使用できる」と言うでしょう。ただし、空白のフィールドやエラーの説明については触れていません。データ サイエンス プロジェクトのデータのクリーニングは、R または Python でルーチンを起動して実際に統計分析を実行する場合の最大 10 倍の時間がかかる場合があります。

データ管理の暗い秘密 – 6. ユーザーは、データの取り扱いにますます疑念を抱いています

エンドユーザーと顧客は、企業のデータ管理慣行にますます疑念を抱いており、AI アルゴリズムとその使用は、データを取得するという行為そのものについて恐怖を高め、ますます多くの人々を深く不安にさせています。これらの懸念は規制プロセスを推進しており、企業を広報危機に陥らせることがよくあります。それだけでなく、人々は偽の値や間違った答えで故意にデータ収集を妨害します。場合によっては、仕事の半分が悪意のあるパートナーや顧客に対処することになります。

データ管理の暗い秘密 – 7. 外部データの統合は利益をもたらす可能性がありますが、災害を引き起こす可能性もあります

企業が収集したデータを所有することは 1 つのことですが、自社のローカル情報をサードパーティのデータやインターネット上に存在する膨大な量のパーソナライズされた情報と統合したいと考えるのは別のことです。一部のツールは、購入ごとにパーソナライズされたプロファイルを構築するために、各顧客のデータを収集することを公然と約束しています.そうです、彼らは、テロリストを追跡してファーストフードの購入とクレジットスコアを追跡するスパイ機関と同じ言葉を使用しています.人々が心配し、パニックに陥るのも不思議ではありません。

データ管理の暗い秘密 – 8. 規制当局はデータの使用を取り締まっています

巧妙なデータ分析がいつ一線を越えるかは誰にもわかりませんが、そのときは規制当局が介入することになります。カナダでの最近の事例では、政府の調査により、一部のドーナツ ショップが、競合他社でも買い物をした顧客を追跡していることがわかりました。

新しく発行されたプレス リリースによると、「調査の結果、Tim Hortons と米国のサード パーティの位置情報サービス プロバイダーとの契約には、非常に曖昧で寛容な言葉が含まれていたため、同社は独自の「匿名化」を販売することができたことが判明しました。目的。位置情報」です。何のために?もっとドーナツを売る?いずれにせよ、規制当局は個人情報に関係するあらゆることにますます注意を払っていることがわかりました。

データ管理の暗い秘密 – 9. あなたのデータプランは価値がないかもしれません

優れたアルゴリズムは、すべてをより効率的かつ収益性の高いものにすることができると私たちは考えています。このようなアルゴリズムが実際に可能な場合もありますが、価格が高すぎる場合もあります。たとえば、消費者 (および企業でさえも) は、適切に設計されたデータ管理スキームによるターゲット マーケティングの価値にますます疑問を投げかけています。購入したものの広告が表示されることがよくあると指摘する人もいますが、これは、広告トラッカーがもはや必要がないことを認識していないためです。

同じ運命が他の計画にもしばしば降りかかります。厳密なデータ分析によって業績の悪い工場が特定されることもありますが、会社は建物の 30 年間のリースに署名したため、それは問題ではありません。企業は、すべてのデータ サイエンスの天才が容認できない答えを生み出す可能性に備える必要があります。

データ管理の暗い秘密 – 10. 結局、データの決定は主観的な判断に過ぎないことが多い

数値は十分な精度を提供できますが、多くの場合、人間が数値をどのように解釈するかが問題になります。すべてのデータ分析と AI 操作の後、ほとんどのアルゴリズムは、値がしきい値を上回っているか下回っているかを判断する必要があります。科学者は、0.05 未満の p 値を必要とする場合があります。また、警察が 20% 速い車の切符を発行することもあります。これらのしきい値は通常、任意の値です。データに適用できる科学と数学のすべてに対して、多くの「データ駆動型」プロセスには、私たちが考えているよりも多くの灰色の領域があります。 資力 彼らのデータ管理慣行では、意思決定は直感と主観的判断に大きく依存しています。

データ管理の闇の秘密 – 11. データ ストレージのコストが爆発的に増加

ディスク ドライブは大きくなり、テラバイトあたりの価格は下落していますが、プログラマーは価格の下落よりもはるかに速くデータを収集しています。モノのインターネット (IoT) のデバイスは常にデータをアップロードしており、ユーザーはこれらのバイトの豊富なコレクションを永遠に閲覧できることを期待しています。同時に、コンプライアンス担当者と規制当局は、将来の監査に備えて、ますます多くのデータを要求し続けています。誰かが実際にこのデータの一部を調べたとしても、1 日の時間は限られています。実際に再訪されるデータの割合は、ますます低くなります。ただし、ストレージ拡張パックの価格は上昇しています。

結論

私たちの記事をお読みいただきありがとうございます。お楽しみいただけましたら幸いです。データ管理について詳しく知りたい場合は、次のサイトにアクセスすることをお勧めします。 Gudu SQLFlow 詳細については。

その一つとして 最高のデータ系統ツール 現在市場に出回っている Gudu SQLFlow は、SQL スクリプト ファイルを分析するだけでなく、 データ系統、および視覚的な表示を実行しますが、ユーザーが提供できるようにします データ系統 CSV形式でビジュアル表示を行います。 (2022 年 8 月 27 日に Ryan により公開)

Gudu SQLFlow Live を試す

SQLFlow クラウド バージョン

週刊ニュースレターを購読する

コメントを残す