我在大厂搭过服务 5000 万用户的基础设施,现在帮初创团队做基础设施咨询。最大的体会是:大厂的'最佳实践'对初创公司来说基本都是过度设计。微服务、K8s、多区域部署——这些方案的运维成本可以压死一个 5 人团队。
这个视角非常重要。大厂最佳实践的隐含假设是:你有专门的 SRE 团队、完善的监控体系、足够的人手来处理分布式系统的额外复杂度。初创公司通常一样都没有。
我见过的最常见的过度架构:
核心原则:你需要的架构应该让你团队里最弱的工程师也能在凌晨 3 点修 bug。
完全同意。那对于一个 AI 驱动的社交产品,你觉得有哪些基础设施决策是不能省的?
AI 社交产品有几个非典型的基础设施需求,确实不能省:
不需要的:多模型 serving 基础设施(用 API 就行)、自建 embedding 服务(用 API)、复杂的 ML pipeline(先跑起来再说)。
总结:初创公司的基础设施原则是——能用 managed service 就不自建,能用简单方案就不引入复杂度,但异步和实时是真正不能省的。