17.2.2008

Datenkraken 1

(Themenanfang)

Wenn ich bei Google etwas suche, schicke ich zwei Informationen dorthin: den Suchbegriff, und meine IP-Adresse. Dankenswerterweise bekomme ich ca.2,5 Millionen Antworten nach gerade 1,6ms - und zwar kostenlos. Kostenlos? Dahinter steckt ein Geschäftsmodell, das zu erklären den Gründern des Unternehmens einst (bei der Suche nach Investoren) nicht leichtgefallen sein dürfte.

Google speichert eine Suchanfrage in einer Datenbank als Assoziation, ein Pärchen aus "IP-Adresse : Suchbegriff", oder abstrakt: "key : value".

Schon in diesem sehr schlichten Konstrukt steckt ein enormes wirtschaftliches Potential, sofern (und nur dann funktioniert das) man über sehr viele Datensätze verfügt: man kann einem Werbepartner anbieten, bestimmte Suchbegriffe mit seiner Werbung zu verbinden - wenn jemand nach "Suchbegriff" sucht, schalte ich "deine Werbung" (das ist z.Zt. wohl auch das zentrale Geschäftsmodell von Google)

Wenn ich ein zweites Mal bei Google suche, also schon ein Datensatz (oder eine Vielzahl davon) von mir dort vorliegt, kann man dort die Datenbank sortieren: und zwar zunächst schlicht nach allen Suchbegriffen unter meiner IP-Adresse. Damit bekommt man die Möglichkeit, Werbung einzublenden, die mit meinem aktuellen Suchbegriff nichts zu tun hat, jedoch mit Suchen, die ich früher einmal laufen hatte. - Das ist das berühmte Target-Marketing, Amazon betreibt es nicht ungeschickt: man bekommt Werbung, für die man sich tatsächlich interessiert. Eine elegante Lösung des Spam-Problems - könnte man meinen.

Ein wenig abgedrehter (immer noch langweilig für Leute, die sich im Netz ein wenig auskennen) ist die Möglichkeit, "key" und "value" umzudrehen. Der "key" ist die IP-Adresse, das "value" der Suchbegriff, und normalerweise mache ich eine Datenbankabfrage, indem ich alle Values für einen bestimmten Key abrufe. Ich kann das aber auch umdrehen und alle Keys für ein bestimmtes Value erfragen. Bspw. könnte ich alle IP-Adressen einsammeln, die irgendwann nach "Sex" suchten - und wenn das dann strafbare Spielarten betrifft, sage ich dem Staatsanwalt Bescheid.

Noch netter - und jetzt betrete ich wahrscheinlich Programmierer-Territorium - wird es, wenn die Ausgabe der einen Datenbank zum Eingang einer anderen wird. Ich kann z.B. nach dem Value "Sex" suchen, und mit dem ausgegebenen Key "IP-Adresse" in einer Adressensammlung (in der IP-Adresse/Anschrift das "key : value" -Pärchen bilden) nach der zugehörigen Anschrift suchen. Vielleicht interessiert es mich aber auch, ob User, die bei Google nach "Bombe" gesucht haben, auch in der Kundenkartei einer Firma auftauchen, die Pflanzenschutzmittel herstellt. - Man kann das beliebig weiterspinnen: 3, 4, 5...1000 Datenbanken, mit immer verwickelteren "key : value"-Beziehungen (das geht auch rekursiv: man speist eine Datenbank mit ihrer eigenen Ausgabe).

Warum erzähle ich das hier (und ehrlich gesagt würde es mich nicht wundern, wenn kaum ein Leser hier unten landet)? - Mit jedem Piepel Information, das wir in die weltweit vernetzten Datenbanken einspeisen, machen wir uns durchsichtiger. Und zwar nicht etwa so, daß man mit einem Piepel ja eigentlich gar nichts von sich preisgibt (höchstens etwas, was sie ja alle eh schon wissen, die eigene Postleitzahl etwa). Sondern um den Faktor "Gelenkstelle", "Scharnier".

Jede Assoziation, jedes "key : value"-Paar, das man seinem Kontext zuordnen kann , ist von unschätzbarem Wert für seinen Besitzer (sofern er, s.o., über einen ernstzunehmen Datenbestand verfügt): denn er kann es benutzen, um bestehende Datenbestände miteinander zu verknüpfen.

Die Schlußfolgerungen liegen auf der Hand. Allerdings habe ich eine Ahnung, daß es gar nicht einfach wird, zu erklären, warum ich den Teilsatz oben fett gedruckt habe.

Teil 2

(Kommentarfunktion z.Zt. deaktiviert.)