Das schmutzige Geheimnis der KI: Training mit Junk-Daten!

KI-Modelle werden immer leistungsfähiger, aber die Daten, auf denen sie trainiert werden, werden immer schlechter, sagt Billy Luedtke, Gründer von Intuition. 🧠💩

Im Moment konzentrieren sich alle auf die KI-Infrastruktur – GPUs, Energie, Rechenzentren. Unterschätzen die Menschen die Bedeutung der Vertrauensschicht in der KI? Warum ist es wichtig?

Billy Lüdtke: 100 %. Die Leute unterschätzen es definitiv – und das ist aus mehreren Gründen wichtig.

Erstens treten wir in das ein, was ich eine „Slop-in, Slop-out“-Ära nenne. KI ist nur so gut wie die Daten, die sie verbraucht. Aber diese Daten – insbesondere aus dem offenen Internet – sind weitgehend verunreinigt. Es ist nicht sauber. Es spiegelt nicht die menschliche Absicht wider. Ein Großteil davon stammt aus spielerischem Verhalten im Internet: Likes, Bewertungen, Engagement-Hacks – alles gefiltert durch aufmerksamkeitsoptimierte Algorithmen. 🕹️

Wenn also KI das Internet durchsucht, ist das, was sie sieht, kein ganzheitliches Bild davon, wer wir sind. Es geht darum, Leute zu sehen, die auf der Plattform spielen. Ich verhalte mich auf Twitter nicht so wie im wirklichen Leben. Keiner von uns tut es. Wir optimieren für den Algorithmus und drücken keine echten Gedanken aus. 🤡

Es ist auch rekursiv. Die Plattformen trainieren uns, und wir geben noch mehr verzerrtes Verhalten zurück. Dadurch entsteht eine Rückkopplungsschleife – eine Spirale –, die die Wahrnehmung der KI vom Menschen noch mehr verzerrt. Wir lehren es nicht, was wir denken; Wir bringen ihm das bei, was unserer Meinung nach Likes bekommen wird. 👍

Wie können wir das beheben? Wie bauen wir Systeme auf, bei denen Wahrheit und Wert Vorrang vor Engagement haben?

BL: Wir müssen die Anreize umkehren. Diese Systeme sollten den Menschen dienen – nicht Institutionen, nicht Aktionären, nicht Werbetreibenden. Das bedeutet, eine neue Ebene für das Internet aufzubauen: Identitäts- und Reputationsprimitive. Das ist es, was wir bei Intuition tun. 🛠️

Wir brauchen eine überprüfbare Zuordnung: Wer hat was, wann und in welchem ​​Kontext gesagt? Und wir brauchen eine tragbare, dezentrale Reputation, die dabei hilft, zu bestimmen, wie sehr wir einer bestimmten Datenquelle vertrauen können – nicht basierend auf der Stimmung, sondern auf der tatsächlichen kontextuellen Erfolgsbilanz. 🧭

Reddit ist ein perfektes Beispiel. Es ist eine der größten Quellen für Trainingsdaten für Modelle. Aber wenn ein Benutzer sarkastisch sagt: „Töte dich einfach selbst“, kann dies unterschätzt werden und in der Empfehlung eines Models an jemanden auftauchen, der um medizinischen Rat bittet. 🩺

Das ist erschreckend – und es passiert, wenn Modelle keinen Kontext, keine Zuordnung oder keine Reputationsgewichtung haben. Wir müssen wissen: Ist diese Person in der Medizin glaubwürdig? Sind sie im Finanzbereich seriös? Ist das eine vertrauenswürdige Quelle oder nur ein weiterer zufälliger Kommentar? ❓

CN: Wenn Sie über Namensnennung und Reputation sprechen, müssen diese Daten irgendwo gespeichert werden. Wie denken Sie darüber im Hinblick auf die Infrastruktur – insbesondere bei Themen wie Urheberrecht und Entschädigung?

BL: Genau das lösen wir bei Intuition. Sobald Sie über überprüfbare Attributionsprimitive verfügen, wissen Sie, wer welche Daten erstellt hat. Das ermöglicht den tokenisierten Besitz von Wissen – und damit eine Entschädigung. 💰

Ihre Daten liegen also nicht auf den Servern von Google oder den APIs von OpenAI, sondern in einem dezentralen Wissensgraphen. Jeder besitzt, was er beisteuert. Wenn Ihre Daten durchlaufen oder in einer KI-Ausgabe verwendet werden, erhalten Sie einen Anteil an dem Wert, den sie generieren. 🌱

Das ist wichtig, denn im Moment sind wir digitale Leibeigene. Wir investieren unsere wertvollsten Ressourcen – Zeit, Aufmerksamkeit und Kreativität – in die Generierung von Daten, die jemand anderes monetarisiert. YouTube ist nicht wertvoll, weil es Videos hostet; Es ist wertvoll, weil die Leute es kuratieren. Ohne Likes, Kommentare oder Abonnements ist YouTube wertlos. 🧼

Deshalb wollen wir eine Welt, in der jeder an dem Wert, den er generiert, verdienen kann – auch wenn man kein Influencer oder Extrovertierter ist. Wenn Sie beispielsweise stets früh dabei sind, neue Künstler zu finden, ist Ihr Geschmack von Bedeutung. Sie sollten in der Lage sein, darauf aufbauend einen guten Ruf aufzubauen und ihn zu monetarisieren. 🎨

CN: Aber selbst wenn wir Transparenz schaffen, sind diese Modelle immer noch sehr schwer zu interpretieren. OpenAI selbst kann nicht vollständig erklären, wie seine Modelle Entscheidungen treffen. Was passiert dann?

BL: Toller Punkt. Wir können das Modellverhalten nicht vollständig interpretieren – sie sind einfach zu komplex. Aber was wir kontrollieren können, sind die Trainingsdaten. Das ist unser Hebel. 🔧

Ich gebe Ihnen ein Beispiel: Ich habe von einer Forschungsarbeit gehört, in der eine KI von Eulen besessen war und eine andere großartig in Mathe war. Sie trainierten nur gemeinsam mathematisch relevante Aufgaben. Aber am Ende begann auch die Mathe-KI, Eulen zu lieben – einfach dadurch, dass sie das Muster des anderen aufnahm. 🦉

Es ist verrückt, wie unterschwellig und subtil diese Muster sind. Die einzige wirkliche Verteidigung ist also die Absicht. Wir müssen darüber nachdenken, welche Daten wir diesen Modellen zuführen. Wir müssen uns in gewisser Weise „selbst heilen“, um online authentischer und konstruktiver aufzutreten. Denn KI wird immer die Werte und Verzerrungen ihrer Schöpfer widerspiegeln. 🧘‍♀️

CN: Reden wir übers Geschäft. OpenAI verbrennt Geld. Ihre Infrastruktur ist extrem teuer. Wie kann ein dezentrales System wie Intuition finanziell und technisch mithalten?

BL: Es gibt zwei Hauptvorteile, die wir haben: Zusammensetzbarkeit und Koordination. 🤝

Dezentrale Ökosysteme – insbesondere im Kryptobereich – sind unglaublich gut in der Koordination. Wir haben globale, verteilte Teams, die alle an verschiedenen Komponenten desselben größeren Problems arbeiten. Anstelle eines Unternehmens, das Milliarden für den Kampf gegen die Welt verbrennt, haben wir Hunderte von aufeinander abgestimmten Mitwirkenden, die interoperable Tools entwickeln. 🧩

Es ist wie ein Mosaik. Ein Team arbeitet an der Agentenreputation, ein anderes an der dezentralen Speicherung, ein anderes an Identitätsprimitiven – und wir können diese zusammenfügen. 🧵

Das ist die Supermacht.

Wie sieht es mit den Infrastrukturkosten aus? Der Betrieb großer Modelle ist extrem teuer. Sehen Sie eine Welt, in der kleinere Modelle lokal laufen?

BL: Ja, 100 %. Ich glaube tatsächlich, dass wir dorthin unterwegs sind – hin zu vielen kleinen Modellen, die lokal laufen und wie Neuronen in einem verteilten Schwarm verbunden sind. 🧠

Anstelle eines großen monolithischen Rechenzentrums verfügen Sie über Milliarden von Verbrauchergeräten, die zur Rechenleistung beitragen. Wenn wir sie koordinieren können – und darin zeichnet sich Krypto aus – wird daraus eine überlegene Architektur. 🌐

Aus diesem Grund bauen wir auch Reputationsebenen für Agenten auf. Anfragen können an den richtigen spezialisierten Agenten für den Job weitergeleitet werden. Sie brauchen kein riesiges Modell, um alles zu erledigen. Sie benötigen lediglich ein intelligentes System für die Aufgabenweiterleitung – etwa eine API-Schicht über Millionen von Agenten hinweg. 🧩

CN: Was ist mit Determinismus? LLMs eignen sich nicht für Aufgaben wie Mathematik, bei denen Sie genaue Antworten wünschen. Können wir deterministischen Code mit KI kombinieren?

BL: Das ist es, was ich will. Wir müssen den Determinismus wieder in den Kreislauf bringen. 🔁

Wir begannen mit symbolischem Denken – völlig deterministisch – und gingen dann intensiv zum Deep Learning über, das nicht deterministisch ist. Das hat zu der Explosion geführt, die wir jetzt erleben. Aber die Zukunft ist neurosymbolisch – sie vereint das Beste aus beidem. 🧠🧮

Überlassen Sie die KI der unscharfen Argumentation. Lassen Sie es aber auch deterministische Module – Skripte, Funktionen, Logik-Engines – auslösen, wenn Sie Präzision benötigen. Denken Sie: „Welcher meiner Freunde mag dieses Restaurant?“ Das sollte zu 100 % deterministisch sein. 🍽️

CN: Herauszoomen: Wir haben gesehen, dass Unternehmen KI in ihren gesamten Betrieb integrieren. Die Ergebnisse waren jedoch gemischt. Glauben Sie, dass die aktuelle Generation von LLMs die Produktivität wirklich steigert?

BL: Auf jeden Fall. Die Singularität ist bereits vorhanden – sie ist nur ungleichmäßig verteilt. 🌍

Wenn Sie in Ihrem Workflow, insbesondere für Code oder Inhalte, keine KI verwenden, arbeiten Sie mit einem Bruchteil der Geschwindigkeit, mit der andere arbeiten. Die Technologie ist real und die Effizienzgewinne sind enorm. Die Störung ist bereits eingetreten. Die Leute haben es einfach noch nicht ganz erkannt. 🚀

CN: Letzte Frage. Viele Leute sagen, das sei eine Blase. Risikokapital versiegt. OpenAI verbrennt Geld. Nvidia finanziert seine eigenen Kunden. Wie endet das?

BL: Ja, es gibt eine Blase – aber die Technologie ist real. Jede Blase platzt, aber was danach übrig bleibt, sind die grundlegenden Technologien. KI wird einer davon sein. Das dumme Geld – all diese Wrapper-Apps ohne wirkliche Innovation – wird weggespült. Aber tiefe Infrastrukturteams? Sie werden überleben. 💼

Tatsächlich könnte dies auf zwei Arten erfolgen: Wir erhalten eine sanfte Korrektur und kehren zur Realität zurück, aber der Fortschritt geht weiter. Oder die Produktivitätssteigerungen sind so enorm, dass KI zu einer deflationären Kraft für die Wirtschaft wird. Das BIP könnte die Produktionskapazität um das Zehnfache oder Hundertfache steigern. Wenn das passiert, haben sich die Ausgaben gelohnt – wir steigen als Gesellschaft auf. 🚀

Ich bin jedenfalls optimistisch. Ja, es wird Chaos und Arbeitsplatzverlagerungen geben – aber auch das Potenzial für eine Welt im Überfluss nach der Knappheit, wenn wir die richtige Grundlage schaffen. 🌱

Weiterlesen

2025-10-30 23:52