{
  "title": "Ein Kraftakt-MVP für KI-Anwendungen",
  "excerpt": "Erkundung des Konzepts eines Minimum Viable Product (MVP) in KI-Anwendungen, mit Fokus auf Wertschöpfung durch Verständnis und effektive Adressierung von Nutzerbedürfnissen.",
  "content_html": "<p>Ein Minimum Viable Product (MVP) ist eine Version eines Produkts mit gerade genug Funktionen, um von frühen Kunden nutzbar zu sein, die dann Feedback für die zukünftige Produktentwicklung geben können.</p>\n\n<p>Heute möchte ich mich darauf konzentrieren, wie das beim Ausliefern von KI-Anwendungen aussieht. Dafür müssen wir nur 4 Dinge verstehen:</p>\n<ul>\n<li>Was bedeuten 80% eigentlich?</li>\n<li>Welche Segmente können wir gut bedienen?</li>\n<li>Können wir verdoppeln?</li>\n<li>Können wir den Nutzer über die Segmente aufklären, die wir nicht gut bedienen?</li>\n</ul>\n\n<p>Das Pareto-Prinzip, auch bekannt als 80/20-Regel, gilt immer noch, aber auf eine andere Weise als Sie vielleicht denken.</p>\n\n<h3>Was ist ein MVP?</h3>\n<p>Eine Analogie, die ich oft verwende, um dieses Konzept zu verdeutlichen, ist folgende: Sie brauchen etwas, um von Punkt A nach Punkt B zu gelangen. Vielleicht ist die Vision, ein Auto zu haben. Das MVP ist jedoch kein Chassis ohne Räder oder Motor. Stattdessen könnte es wie ein Skateboard aussehen. Sie liefern aus und stellen fest, dass das Produkt Bremsen oder Lenkung braucht. Also liefern Sie einen Scooter aus. Danach stellen Sie fest, dass der Scooter mehr Hebelwirkung braucht, also fügen Sie größere Räder hinzu und erhalten ein Fahrrad. Begrenzt durch die Kraft, die Sie als Mensch aufbringen können, denken Sie über Motoren nach und können sich in Mopeds, E-Bikes und Motorräder verzweigen. Und eines Tages liefern Sie das Auto aus.</p>\n\n<h3>Die 80/20-Regel berücksichtigen</h3>\n<p>Wenn man davon spricht, dass etwas zu 80% fertig oder zu 80% bereit ist, ist das normalerweise im Machine-Learning-Sinne gemeint. In diesem Kontext ist jede Komponente deterministisch, was bedeutet, dass 80% sich in 8 von 10 fertigen Features übersetzen. Sobald die verbleibenden 2 Features fertig sind, können wir das Produkt ausliefern. Wenn wir jedoch der 80/20-Regel folgen wollen, könnten wir das Produkt möglicherweise mit 80% der Features ausliefern und dann die verbleibenden 20% später hinzufügen, wie ein Auto ohne Radio oder Klimaanlage. Die Bedeutung von 80% kann jedoch erheblich variieren, und diese Definition gilt möglicherweise nicht für eine KI-gestützte Anwendung.</p>\n\n<h4>Das Problem mit zusammenfassenden Statistiken</h4>\n<img src=\"/assets/images/anscombes_quartet.png\" alt=\"Anscombe's quartet\" class=\"post-img\" width=\"1200\" height=\"873\" />\n<p>Das obige Bild ist ein Beispiel für Anscombes Quartett. Es ist eine Reihe von vier Datensätzen, die nahezu identische einfache deskriptive Statistiken aufweisen, aber sehr unterschiedliche Verteilungen und Erscheinungsbilder haben. Dies ist eine klassische Erklärung dafür, warum zusammenfassende Statistiken irreführend sein können.</p>\n\n<p>Betrachten Sie das folgende Beispiel:</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>score</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>0.8</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>0.0</td>\n        </tr>\n        <tr>\n            <td>6</td>\n            <td>0.0</td>\n        </tr>\n    </tbody>\n</table>\n\n<p>Der durchschnittliche Score beträgt 0,58. Wenn wir jedoch die Anfragen innerhalb von Segmenten analysieren, könnten wir feststellen, dass wir die Mehrheit der Anfragen außergewöhnlich gut bedienen!</p>\n\n<blockquote>\n<p><strong>Zugeben, worin man schlecht ist</strong></p>\n<p>Ehrlich zu sein, worin man schlecht ist, ist eine großartige Möglichkeit, Vertrauen bei den Nutzern aufzubauen. Wenn Sie genau erkennen können, wann etwas schlecht funktionieren wird, und es selbstbewusst ablehnen können, dann sind Sie möglicherweise bereit, ein großartiges Produkt auszuliefern und gleichzeitig Ihre Nutzer über die Einschränkungen Ihrer Anwendung aufzuklären.</p>\n</blockquote>\n\n<p>Es ist sehr wichtig, die Grenzen Ihres Systems zu verstehen und in der Lage zu sein, die Eigenschaften Ihres Systems über zusammenfassende Statistiken hinaus sicher zu verstehen. Dies liegt daran, dass nicht alle Systeme gleich sind. Das Verhalten eines probabilistischen Systems könnte sich sehr vom vorherigen Beispiel unterscheiden. Betrachten Sie den folgenden Datensatz:</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>Score</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>.59</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>.58</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>.59</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>.57</td>\n        </tr>\n    </tbody>\n</table>\n<p>Ein solches System hat ebenfalls einen durchschnittlichen Score von 0,58, aber es ist nicht so einfach, eine Teilmenge von Anfragen abzulehnen...</p>\n\n<h3>Lernen, Nein zu sagen</h3>\n<p>Betrachten Sie eine RAG-Anwendung, bei der ein großer Teil der Anfragen Zeitleisten-Anfragen betrifft. Wenn unsere Suchmaschinen diese Zeitbeschränkung nicht unterstützen, werden wir wahrscheinlich nicht gut abschneiden können.</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>Score</th>\n            <th>Query Type</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>0.9</td>\n            <td>text search</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>0.8</td>\n            <td>text search</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>0.9</td>\n            <td>news search</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>0.9</td>\n            <td>news search</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>0.0</td>\n            <td>timeline</td>\n        </tr>\n        <tr>\n            <td>6</td>\n            <td>0.0</td>\n            <td>timeline</td>\n        </tr>\n    </tbody>\n</table>\n\n<p>Wenn wir unter Zeitdruck stehen, könnten wir einfach ein Klassifikationsmodell erstellen, das erkennt, ob diese Fragen Zeitleisten-Fragen sind oder nicht, und eine Warnung ausgeben. Anstatt ständig zu versuchen, den Algorithmus zu verbessern, können wir den Nutzer aufklären, indem wir die Art und Weise ändern, wie wir das Produkt gestalten.</p>\n\n<blockquote>\n<p><strong>Segmente erkennen</strong></p>\n<p>Das Erkennen dieser Segmente könnte auf verschiedene Weise erreicht werden. Wir könnten einen Klassifikator konstruieren oder ein Sprachmodell verwenden, um sie zu kategorisieren. Zusätzlich können wir Clustering-Algorithmen mit den Embeddings nutzen, um gemeinsame Gruppen zu identifizieren und möglicherweise die mittleren Scores innerhalb jeder Gruppe zu analysieren. Das einzige Ziel ist es, Segmente zu identifizieren, die unser Verständnis der Aktivitäten innerhalb bestimmter Untergruppen verbessern können.</p>\n</blockquote>\n\n<p>Eines der schlimmsten Dinge, die Sie tun können, ist, Monate damit zu verbringen, eine Funktion zu entwickeln, die Ihre Produktivität nur geringfügig erhöht, während Sie ein wichtigeres Segment Ihrer Nutzerbasis ignorieren.</p>\n\n<p>Indem wir unsere Anwendung neu gestalten und ihre Grenzen erkennen, können wir die Leistung unter bestimmten Bedingungen potenziell verbessern, indem wir die Arten von Aufgaben identifizieren, die wir ablehnen können. Wenn wir diese Segmentdaten in eine Art In-System-Observability einbringen können, können wir sicher überwachen, welcher Anteil der Fragen abgelehnt wird, und unsere Arbeit priorisieren, um die Abdeckung zu maximieren.</p>\n\n<h3>Herausfinden, was Sie eigentlich tun wollen, bevor Sie es tun</h3>\n<p>Eine der gefährlichen Dinge, die mir bei der Arbeit mit Startups aufgefallen sind, ist, dass wir oft denken, dass die KI überhaupt funktioniert... Infolgedessen wollen wir in der Lage sein, eine große allgemeine Anwendung zu bedienen, ohne viel darüber nachzudenken, was genau wir erreichen wollen.</p>\n\n<p>Meiner Meinung nach sollten sich die meisten dieser Unternehmen darauf konzentrieren, ein oder zwei bedeutende Bereiche zu fokussieren und eine gute Nische zu identifizieren, die sie ansprechen können. Wenn Ihre App in einer oder zwei Aufgaben gut ist, gibt es keine Möglichkeit, dass Sie nicht hundert oder zweihundert Nutzer finden könnten, um Ihre Anwendung zu testen und schnell Feedback zu erhalten. Wenn Ihre Anwendung hingegen in nichts gut ist, wird es schwer sein, in Erinnerung zu bleiben und etwas zu bieten, das wiederholt genutzt wird. Sie könnten etwas Viralität bekommen, aber sehr schnell werden Sie das Vertrauen Ihrer Nutzer verlieren und sich in einer Position wiederfinden, in der Sie versuchen, die Abwanderung zu reduzieren.</p>\n\n<p>Wenn wir von vornherein die Fähigkeit haben, GPT-4 für Vorhersagen zu nutzen, ist die Zeit bis zum Feedback sehr wichtig. Wenn wir schnell Feedback erhalten können, können wir schnell iterieren. Wenn wir schnell iterieren können, können wir ein besseres Produkt entwickeln.</p>\n\n<h3>Abschließende Gedanken</h3>\n<p>Das MVP für eine KI-Anwendung ist nicht so einfach wie das Ausliefern eines Produkts mit 80% der Features. Stattdessen erfordert es ein tiefes Verständnis der Segmente Ihrer Nutzer, die Sie gut bedienen können, und die Fähigkeit, Ihre Nutzer über die Segmente aufzuklären, die Sie nicht gut bedienen. Indem Sie die Grenzen Ihres Systems verstehen und sich auf eine Nische konzentrieren, können Sie ein Produkt entwickeln, das in Erinnerung bleibt und etwas bietet, das wiederholt genutzt wird. Dies ermöglicht es Ihnen, schnell Feedback zu erhalten und schnell zu iterieren, was letztendlich zu einem besseren Produkt führt, indem Sie Ihre Kraftakte identifizieren.</p>",
  "source_hash": "sha256:628188f6afb27695d03e01274d59eb0b52134258149bbac07bab13c678413b93",
  "model": "claude-sonnet-4-5-20250929",
  "generated_at": "2026-01-15T20:07:27.839698+00:00"
}