In der Physik entspricht Entropie dem ungeordneten Zustand der Materie. Durch die Reduzierung der Entropie können die am weitesten von den zufälligen Elementen entfernten Elemente organisiert werden. Es ist zu einem wichtigen Thema unserer Zeit geworden, das in direktem Zusammenhang mit der Regulierung menschlicher Aktivitäten steht. Was wäre, wenn wir es auf unsere Datenprojekte anwenden würden? Hier einige konkrete Ideen.
Verlassen Sie das Formular „Mehr Daten = Mehr Wert“
Die menschliche Tendenz, mehr Lebensmittel produzieren und vor allem lagern zu wollen, hat ihren Ursprung im Verhalten unserer Vorfahren, um Knappheiten zu antizipieren. Dieser Trend scheint in unserem Datenmanagement besonders zu gelten! Als Vorsichtsmaßnahme ist es unsere Gewohnheit, so viele Daten wie möglich zu sammeln und zu speichern, um die Wahrscheinlichkeit zu erhöhen, dass Sie nichts verpassen, wenn Sie eine Analyse starten und diese Daten verwenden. Doch vor jeglicher Datenanhäufung kann nun die Frage lauten: Brauchen wir all diese Daten und wozu dienen sie?
Mit anderen Worten, wenn ein Datenelement heute keinen Nutzen mehr hat, ist sein Wert eigentlich negativ, weil es bereits durch seine Sammlung, Speicherung und Verbreitung einen Energieaufwand verursacht.
Daten wissen
Daten werden verschoben, veröffentlicht und an mehrere Ziele kopiert, ohne von ihrem Ursprung zu verschwinden. Somit ist die Tatsache, dass die Daten generiert werden, nur ein Beweis für ihre Kosten und die Möglichkeit, diese Daten zu vervielfachen, und nicht für ihren Wert.
Alle Erfahrungen beruhen jedoch auf Annahmen. Um dies zu überprüfen, ist die Datengenerierung unerlässlich. Sie müssen jedoch nicht zu viel generieren oder verarbeiten!
Untersuchen und bewerten Sie die Nützlichkeit der Daten
Die Fragen zum konkreten Interesse der Daten sind zahlreich:
- Welches Ziel rechtfertigt die Erhebung und Computerisierung dieser Daten?
- Welche Phänomene ermöglichen es, ein Datenelement beizutragen?
- Welche Daten eignen sich am besten, um ein Phänomen besser darzustellen?
- Welche Daten sind durch die Erhebung neuer Daten obsolet geworden?
Daher ist es notwendig, die Relevanz der Daten und ihre Fähigkeit sicherzustellen, ein Phänomen für sie getreu darzustellen, aber auch die geeigneten Metriken von Interesse zu bestimmen: in welcher Häufigkeit, in welchem Format, was sind die Übertragungen, was sind Duplikate oder Mehrfache , und schließlich, welche Infrastruktur maximiert den Nutzen dieser Daten und reduziert gleichzeitig ihre Umweltauswirkungen?
Die Menge an „nützlichen“ Daten sollte vor allem reich an vielfältigen Beobachtungen sein.
Nur weil ich viele Daten in einem bestimmten Bereich habe, heißt das nicht, dass meine Vorhersagen basierend auf diesen Daten besser sind. Um effizientere Modelle zu erhalten, muss ich Situationen wiederholen (um meine Schlussfolgerungen sinnvoll zu machen), aber auch eine Vielzahl von Beobachtungen. Übermäßige Informationen über einen stationären Zustand führen insbesondere zum Phänomen des übermäßigen Lernens. In diesem Fall kann die Qualität der Gesamtprognose durch die Bereitstellung zusätzlicher Daten reduziert werden.
Verteilen Sie Ihr Energiebudget nach Projektpriorität
Die Energiekosten, die mit der Entwicklung und Produktion von Algorithmen für maschinelles Lernen verbunden sind, können besonders energieaufwendig sein. Von einfacher linearer Regression bis hin zu konvolutionellen neuronalen Netzen kann der Ressourcenbedarf leicht verzehnfacht werden, was nicht immer wünschenswert ist. Außerdem sollte die Auswahl des Algorithmus nach den erzielten Genauigkeitsgewinnen, in Bezug auf die benötigten Ressourcen und nach der Prioritätsstufe des Projekts in Betracht gezogen werden.
Modellierung stellt sich manchmal als Ausgleich für die fehlende Kommunikation zwischen Informationssystemen heraus
Wenn viele Daten von Unternehmen erfasst und verarbeitet werden, geschieht dies oft nicht zum Zwecke der statistischen Modellierung, sondern zum Zweck eines dedizierten und direkt angeschlossenen Dienstes. Die Modellierung findet ihr Interesse an der Verallgemeinerung eines Phänomens und sollte nicht mit der direkten Kommunikation von Informationssystemen verwechselt werden.
Nehmen wir ein einfaches Beispiel. Das Gemeinschaftsrestaurant des Bürogebäudes möchte eine möglichst große Anzahl von Gästen für das Mittagessen des Tages und eine Vielzahl von zu planenden Mahlzeiten bieten. Am selben Morgen entlädt er Anzahl, Vielfalt und Zubereitung der geplanten Mahlzeiten inklusive einer Fehlerquote, damit er alle Gäste zufriedenstellen kann, auch solche, deren Verhalten schwer vorhersehbar ist. Um dies zu erreichen, hat das Restaurant zwei Möglichkeiten.
Option 1: Es kann ein oder mehrere Vorhersagemodelle entwickeln, die auf der Beobachtung von historischen Mahlzeiten und Daten, die mit diesen Beobachtungen verbunden sind, wie z. B. dem Wetter, basieren. Er kann auch mit Bauunternehmen vereinbaren, eine bestimmte Menge an Informationen zu sammeln, die sich auf die Anzahl und Art der Gäste auswirken (Anwesenheit der Mitarbeiter am Arbeitsplatz, externe Schulungen usw.) und so die Qualität ihrer Prognose verbessern.
Option 2: Er könnte eine Anwendung entwickeln, die es Mitarbeitern der im Gebäude ansässigen Unternehmen bis heute ermöglicht, ihre Zugänge und Möglichkeiten mitzuteilen.
Somit basiert die erste Option auf probabilistischen statistischen Modellen, deren Genauigkeit je nach der Fähigkeit variiert, aktivitätsbezogene Daten abzurufen. Das heißt, die Möglichkeit, verschiedene Informationssysteme untereinander zu verknüpfen (anonyme Kommunikation von den elektronischen Agenden von Mitarbeitern verschiedener Unternehmen an das Gebäude).
Die zweite Option speist direkt in das Informationssystem des Restaurants ein und sorgt so für eine Optimierung des Bedarfs bei gleichzeitiger Minimierung von Verschwendung. Statistische Modellierungen können dann ihren Platz bei der Prognose des langfristigen Verbrauchs mit dem Ziel der Verbesserung der Bestände finden. Tatsächlich gibt es immer noch selten solche direkten Verbindungen, um das Angebot direkt anhand der Nachfrage zu bewerten. Statistische Modelle kompensieren diesen Mangel an Identifikationsinstrumenten oder Kommunikation zwischen Informationssystemen irgendwie.
Datenstruktur sollte nutzungsorientiert sein
Wenn Daten zur Analyse oder Modellierung verwendet werden, werden sie untersucht, bereinigt und zunächst aufbereitet, um mit anderen Daten kommunizieren zu können. Das gängigste Beispiel für die Vorbereitung ist die Messung eines Datensatzes auf derselben Zeitskala. Nur dann können diese Daten „kommunizieren“ und wir können auf eine Beziehung zwischen diesen Variablen oder Phänomenen schließen.
In vielen Projekten werden jedoch die gleichen Datenquellen gemäß den anderen Quellen und deren Genauigkeit aufbereitet. Daher ist es nicht ungewöhnlich, dass im selben Data Lake die obigen Schritte in derselben Datenquelle dupliziert werden. Tatsächlich kann mehr Arbeit geteilt werden und wir können Redundanzen in einigen Schichten und Geschäften vermeiden.
Die Schlüssel zur Vermeidung dieser Wiederholung basieren auf:
- Pipelines teilen: Die visuellen Zyklen des Ladens, Verarbeitens und Transformierens von Daten, die mit einem Projekt verbunden sind und die die Wiederverwendung aller oder eines Teils dieser Daten ermöglichen.
- Intelligenter Zugriff auf Dokumentationselemente (Smart Search) und Projektvisualisierung.
- Interaktionsanalyse zwischen Projekten kontinuierlich durchgeführt.
Bei richtiger Anwendung können neue Tools für Pipeline-Design, Projektaufbau und Monitoring wie DataOps und MLOps diese Ziele zumindest teilweise erreichen.
Stichproben und Datenerhebungen: Welche Größe vs. Was?
Für jede gestartete Analyse oder jede Modellierungsübung muss man fragen, wie viele Daten erforderlich sind, um eine ausreichende Annäherung an das zu schaffen, was man beweisen möchte. Um eine Entscheidung zu treffen, müssen wir selten sorgfältig auf die nächste Dezimalstelle parsen. Je nach Szenario reichen manchmal 10 % der Daten aus, um die gewünschte Beobachtung zu erstellen und die Entwicklung des Phänomens zu verfolgen.
Auf die Grundgesamtheit angewendete Stichprobenverfahren können auf die Daten angewendet werden: einfache Zufallsziehungen, geschichtet oder in Gruppen. Je nach Situation kann ein Verfahren verwendet werden, um ein Ergebnis entsprechend der gewünschten Genauigkeit abzuschätzen.
Anders als bei politischen Meinungsumfragen sparen auf Daten angewandte Umfragetechniken nicht die Kosten für die Erhebung dieser Daten, sondern einen Teil der Ressourcen für ihre Verarbeitung ein. Wie bei herkömmlichen Erhebungen bestimmt die erforderliche Genauigkeit die dafür erforderliche Stichprobenrate und wird durch das Konfidenzintervall (oder die Fehlerspanne) angegeben.
Nehmen Sie ein Beispiel für die Dashboard-Latenz. Angesichts der Datenmenge, die jetzt für viele Projekte verfügbar ist, ist es nicht ungewöhnlich, dass Dashboards beim Laden „aufgereiht“ sind. Manchmal ist der Fehler der Wunsch, sehr große Datenmengen (aggregiert oder nicht) zu kommunizieren, und deshalb suchen wir auf der Infrastrukturseite nach einer Lösung, die neue IT-Ressourcen mobilisiert, während ein Teil dieser intelligent ausgewählten Daten ausreicht Um dieses Latenzproblem zu lösen, in iso-Ressourcen.
Grenznutzen von Daten
Der Detailgrad einer zusätzlichen Informationseinheit entspricht dem Grenznutzen der Daten. Der Gewinn kann in Bezug auf die zusätzliche Energie, die zu seiner Verarbeitung erforderlich ist, bewertet werden. Für jedes Szenario gibt es eine Grenze, bis zu der der Beitrag zur Genauigkeit der zusätzlichen Daten null, nahe null oder sogar negativ sein kann. Dann besteht kein Interesse mehr an der Erhebung oder Nutzung dieser Daten.
Es gibt mehrere Szenarien für die Anwendung dieses Indikators, um über die Verwendung zusätzlicher Daten zu entscheiden:
- Auf der Ebene der Detailproduktion und Informationsübermittlung: Angenommen, ein IoT-System erzeugt und überträgt jede Sekunde Temperaturinformationen, während die Verwendung dieser Temperatur nur auf Minutenebene festgelegt wird.
- Zum Thema Obsoleszenz: Verbessert oder verringert die Verwendung zusätzlicher Remote-Verlaufsdaten die Qualität meiner Vorhersagen? Dann sprechen wir über die negative Randvorhersagbarkeit der Daten.
- In Bezug auf das Datenvolumen Sie werden entsprechend der geforderten Genauigkeit als notwendig erachtet (siehe vorheriger Absatz über Probenahme und Sondierung).
Somit müssen Datenproduktion, -übertragung und -nutzung immer auf Zweck, Bedarf und erforderliche Genauigkeit kalibriert werden.
Fazit: die Notwendigkeit eines sparsamen Ansatzes
Das Aufkommen von Big Data schafft manchmal Umgebungen, deren Komplexität und Pluralität die Kontrolle über die Struktur und Nutzung von Daten einschränken. Grundstoffe und Energieressourcen sind oft sehr wichtig. Angesichts der verfügbaren Datenmenge ist es notwendig, Techniken zu entwickeln, um die mit der Umsetzung dieser Projekte verbundenen Energiekosten zu senken. Zumal die Ergebnisse dieser Forschung zur Entwicklung neuer Dienste führten, die sehr schnell und massenhaft eingesetzt werden.
Statistische Modellierung, von der wir heute oft indirekt sprechen, wenn wir über Künstliche Intelligenz oder Data Science sprechen, ist vor allem eine Reihe von Näherungsverfahren. Nehmen Sie zum Beispiel die Wettervorhersage. Man kann den zukünftigen meteorologischen Zustand nur abschätzen und nicht genau vorhersagen. Die Größe der Daten, um eine Schätzung zu erreichen, ist sicherlich wichtig, aber ab einem bestimmten Schwellenwert nimmt der durch die zusätzlichen Daten bereitgestellte Gewinn ab. Wir brauchen also einen sparsamen Ansatz, um nicht zu viele Daten zu produzieren.
Neben der traditionellen Dokumentation sollen neue Tools für den Aufbau und die gemeinsame Nutzung von Projektpipelines eine bessere gemeinsame Nutzung von bereits in Informationssystemen erstellten Datentransformationen ermöglichen und Redundanzen beispielsweise bei der Aufbereitung dieser Daten vermeiden.
25. August 2021, 7:22
„Total Social Media Ninja. Introvertiert. Schöpfer. TV-Fan. Preisgekrönter Unternehmer. Web-Nerd. Zertifizierter Leser.“