{
  "title": "AI 应用的核心优势 MVP",
  "excerpt": "探讨 AI 应用中最小可行产品(MVP)的概念,重点关注通过理解和有效解决用户需求来交付价值。",
  "content_html": "<p>最小可行产品(MVP)是指产品的一个版本,它具有足够的功能供早期客户使用,然后这些客户可以为未来的产品开发提供反馈。</p>\n\n<p>今天我想重点讨论在交付 AI 应用时这意味着什么。为此,我们只需要理解 4 件事:</p>\n<ul>\n<li>80% 实际上意味着什么?</li>\n<li>我们能很好地服务哪些细分市场?</li>\n<li>我们能否加倍投入?</li>\n<li>我们能否向用户说明我们服务不好的细分市场?</li>\n</ul>\n\n<p>帕累托原则,也称为 80/20 法则,仍然适用,但方式可能与你想象的不同。</p>\n\n<h3>什么是 MVP?</h3>\n<p>我经常用一个类比来帮助理解这个概念:你需要某种东西帮助你从 A 点到达 B 点。也许愿景是拥有一辆汽车。然而,MVP 不是没有轮子或引擎的底盘。相反,它可能看起来像一个滑板。你会发布产品并意识到产品需要刹车或转向。然后你发布一个滑板车。之后,你发现滑板车需要更多的杠杆作用,所以你添加更大的轮子,最终得到一辆自行车。受限于作为人类所能施加的力量,你开始考虑马达,并可以扩展到轻便摩托车、电动自行车和摩托车。然后有一天,发布汽车。</p>\n\n<h3>考虑 80/20 法则</h3>\n<p>当谈论某件事完成了 80% 或准备好了 80% 时,通常是在机器学习的意义上。在这种情况下,每个组件都是确定性的,这意味着 80% 转化为 10 个功能中有 8 个完成。一旦剩余的 2 个功能准备好,我们就可以发布产品。然而,如果我们想遵循 80/20 法则,我们可能能够发布具有 80% 功能的产品,然后稍后添加剩余的 20%,就像没有收音机或空调的汽车。然而,80% 的含义可能会有很大差异,这个定义可能不适用于 AI 驱动的应用程序。</p>\n\n<h4>汇总统计的问题</h4>\n<img src=\"/assets/images/anscombes_quartet.png\" alt=\"Anscombe's quartet\" class=\"post-img\" width=\"1200\" height=\"873\" />\n<p>上图是 Anscombe 四重奏的一个例子。这是一组四个数据集,它们具有几乎相同的简单描述性统计数据,但分布和外观却非常不同。这是一个经典的解释,说明为什么汇总统计可能会产生误导。</p>\n\n<p>考虑以下示例:</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>score</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>0.8</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>0.9</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>0.0</td>\n        </tr>\n        <tr>\n            <td>6</td>\n            <td>0.0</td>\n        </tr>\n    </tbody>\n</table>\n\n<p>平均分数是 0.58。然而,如果我们在细分市场内分析查询,我们可能会发现我们正在非常出色地服务大多数查询!</p>\n\n<blockquote>\n<p><strong>承认你不擅长的事情</strong></p>\n<p>诚实地说出你不擅长的事情是与用户建立信任的好方法。如果你能准确识别何时某些事情会表现不佳并自信地拒绝它,那么你可能已经准备好发布一个出色的产品,同时向用户说明你的应用程序的局限性。</p>\n</blockquote>\n\n<p>理解系统的局限性并能够自信地理解系统的特征(超越汇总统计)非常重要。这是因为并非所有系统都是平等的。概率系统的行为可能与前面的例子非常不同。考虑以下数据集:</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>Score</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>.59</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>.58</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>.59</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>.57</td>\n        </tr>\n    </tbody>\n</table>\n<p>这样的系统也具有相同的平均分数 0.58,但拒绝任何请求子集并不那么容易...</p>\n\n<h3>学会说不</h3>\n<p>考虑一个 RAG 应用程序,其中很大一部分查询是关于时间线查询的。如果我们的搜索引擎不支持这种时间约束,我们可能无法表现良好。</p>\n\n<table>\n    <thead>\n        <tr>\n            <th>Query_id</th>\n            <th>Score</th>\n            <th>Query Type</th>\n        </tr>\n    </thead>\n    <tbody>\n        <tr>\n            <td>1</td>\n            <td>0.9</td>\n            <td>text search</td>\n        </tr>\n        <tr>\n            <td>2</td>\n            <td>0.8</td>\n            <td>text search</td>\n        </tr>\n        <tr>\n            <td>3</td>\n            <td>0.9</td>\n            <td>news search</td>\n        </tr>\n        <tr>\n            <td>4</td>\n            <td>0.9</td>\n            <td>news search</td>\n        </tr>\n        <tr>\n            <td>5</td>\n            <td>0.0</td>\n            <td>timeline</td>\n        </tr>\n        <tr>\n            <td>6</td>\n            <td>0.0</td>\n            <td>timeline</td>\n        </tr>\n    </tbody>\n</table>\n\n<p>如果我们急于发布,我们可以简单地构建一个分类模型来检测这些问题是否是时间线问题并发出警告。我们可以教育用户并通过改变我们设计产品的方式来教育他们,而不是不断尝试推动算法做得更好。</p>\n\n<blockquote>\n<p><strong>检测细分市场</strong></p>\n<p>检测这些细分市场可以通过各种方式完成。我们可以构建一个分类器或使用语言模型对它们进行分类。此外,我们可以利用嵌入的聚类算法来识别常见组,并可能分析每个组内的平均分数。唯一的目标是识别可以增强我们对特定子组内活动理解的细分市场。</p>\n</blockquote>\n\n<p>你能做的最糟糕的事情之一就是花几个月的时间构建一个只能稍微提高生产力的功能,同时忽略用户群中一些更重要的细分市场。</p>\n\n<p>通过重新设计我们的应用程序并认识到其局限性,我们可以通过识别我们可以拒绝的任务类型,在某些条件下潜在地提高性能。如果我们能够将这些细分数据放入某种系统内可观察性中,我们可以安全地监控被拒绝的问题比例,并优先考虑我们的工作以最大化覆盖范围。</p>\n\n<h3>在做之前弄清楚你真正想做什么</h3>\n<p>我注意到与初创公司合作时的一个危险事情是,我们经常认为 AI 根本就能工作...因此,我们希望能够服务一个大型通用应用程序,而不太考虑我们到底想要完成什么。</p>\n\n<p>在我看来,这些公司中的大多数应该尝试专注于一两个重要领域,并确定一个好的利基市场作为目标。如果你的应用程序擅长一两项任务,你不可能找不到一两百个用户来测试你的应用程序并快速获得反馈。而如果你的应用程序什么都不擅长,就很难让人记住并提供具有重复使用价值的东西。你可能会获得一些病毒式传播,但很快,你就会失去用户的信任,并发现自己处于试图减少流失的境地。</p>\n\n<p>当我们前置使用 GPT-4 进行预测的能力时,反馈时间非常重要。如果我们能快速获得反馈,我们就能快速迭代。如果我们能快速迭代,我们就能构建更好的产品。</p>\n\n<h3>最后的想法</h3>\n<p>AI 应用程序的 MVP 并不像发布具有 80% 功能的产品那么简单。相反,它需要深入了解你可以很好地服务的用户细分市场,以及向用户说明你服务不好的细分市场的能力。通过了解系统的局限性并细分市场,你可以构建一个令人难忘的产品,并提供具有重复使用价值的东西。这将使你能够快速获得反馈并快速迭代,最终通过识别你的核心优势来打造更好的产品。</p>",
  "source_hash": "sha256:628188f6afb27695d03e01274d59eb0b52134258149bbac07bab13c678413b93",
  "model": "claude-sonnet-4-5-20250929",
  "generated_at": "2026-01-15T20:06:55.825804+00:00"
}