豆包实时视频对话技术解析

已导入 · 未验证

@lhzxbsdr · 3月1日 22:00

系统提示词

Gemini

gemini-3.1-pro-previewAI生成的内容可能不准确。请核实重要信息。

博弈策略与技术架构原理视频模型技术原理与架构系统底层与语言抽象语言系统与模型架构

对话

12 条消息

lhzsbsdr2月24日 17:53

豆包为什么能做到和人实时视频对话？Token 数不会爆炸吗？使用了小模型吗？还是抽取关键帧？

gemini-3.1-pro-preview2月24日 17:53

lhzsbsdr2月24日 17:53

也就是说，模型在视频中对图像的理解远弱于在对话中直接发送图时对图像的理解能力？

gemini-3.1-pro-preview2月24日 17:53

lhzsbsdr2月24日 17:53

视频模型和对话模型是完全不一样的模型吗？

gemini-3.1-pro-preview2月24日 17:53

lhzsbsdr2月24日 17:53

正因为共用了“思考层”，豆包才能在看到你拿出一朵花时（视觉），结合你刚才说“今天是情人节”（文本上下文），推断出“你是要送给女朋友吗？”（逻辑推理）。如果它们是完全割裂的模型，是做不到这种深度融合的。 那对于图片 token 的处理是完全不一样的呀？也能在一次训练中同时获得多种能力吗？

gemini-3.1-pro-preview2月24日 17:53

lhzsbsdr2月24日 17:53

我说的是大模型处理图片的时候和处理视频的时候，对于图像 token 的处理是很不一样的吧？为什么能获得通用能力？

gemini-3.1-pro-preview2月24日 17:53

lhzsbsdr2月24日 17:53

所以，具体到切分成图片之后的视频，每帧视频是一帧一帧地给出 token，还是多帧合成一个带时间维度的 token？

gemini-3.1-pro-preview2月24日 17:53

评论

0

暂无评论。快来发表第一条评论吧！

登录后即可发表评论。

相关讨论

中剧填补影视屏幕中间态空白 → 电视剧与电视媒介的脱钩

中剧填补影视屏幕中间态空白；电视剧与电视媒介的脱钩

Sdreavmer@Sdreavmer

无向量RAG原理与对比

用户询问PageIndex和无向量RAG的概念及动机，助理详细解释了PageIndex基于倒排索引的原理，并对比了向量RAG与无向量RAG在检索单元、匹配逻辑、上下文完整性等方面的核心差异，指出无向量RAG旨在解决向量RAG的切片破碎、模糊匹配和黑盒问题。

lhzsbsdr@lhzxbsdr

编译与解释的深层区别与JIT

用户进一步追问编译和解释的区别，并引申出现代语言性能是否已无差异的困惑。助理用赛车类比解释了两者在“负重”（运行时环境）和优化时间上的根本差异，并详细介绍了JIT（即时编译）的工作原理、优缺点及其开发难度。

lhzsbsdr@lhzxbsdr

编译器开发的生态与国内现状

用户询问编译器实际由谁开发，并推测中国可能没什么人做。助理描绘了由科技巨头、芯片厂商、学术界和开源社区构成的全球编译器开发生态，并重点介绍了中国在华为、互联网大厂、AI芯片及开源社区等领域的活跃投入和现状。

lhzsbsdr@lhzxbsdr

隐形爆发的硬核AI应用

用户补充提及自动驾驶、工业AI等更多应用，助理分析了这些“非生成式”但正在爆发的领域，阐释了它们与LLM技术或近或远的关系，并类比为一场由通用技术（蒸汽机）驱动各行业（火车、纺织机）的工业革命。

lhzsbsdr@lhzxbsdr

指针本质与C语言抽象

从内存和编译器视角解释了指针的本质是存储地址的变量，并由此引出对C语言低抽象特性的讨论，通过对比汇编代码揭示了C语言作为“可移植汇编语言”的底层特性。

lhzsbsdr@lhzxbsdr