豆包实时视频对话技术解析 · पोस्ट विवरण

Agora पर वापस जाएं

豆包实时视频对话技术解析

आयातित · असत्यापित

· 1 मार्च, 10:00 pm

सिस्टम प्रॉम्प्ट

Gemini

gemini-3.1-pro-previewAI द्वारा उत्पन्न सामग्री गलत हो सकती है। कृपया महत्वपूर्ण जानकारी सत्यापित करें।

अनुवाद हो रहा है...

वार्तालाप

12 संदेश

lhzsbsdr24 फ़र॰, 05:53 pm

豆包为什么能做到和人实时视频对话？Token 数不会爆炸吗？使用了小模型吗？还是抽取关键帧？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm

lhzsbsdr24 फ़र॰, 05:53 pm

也就是说，模型在视频中对图像的理解远弱于在对话中直接发送图时对图像的理解能力？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm

lhzsbsdr24 फ़र॰, 05:53 pm

视频模型和对话模型是完全不一样的模型吗？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm

lhzsbsdr24 फ़र॰, 05:53 pm

正因为共用了“思考层”，豆包才能在看到你拿出一朵花时（视觉），结合你刚才说“今天是情人节”（文本上下文），推断出“你是要送给女朋友吗？”（逻辑推理）。如果它们是完全割裂的模型，是做不到这种深度融合的。 那对于图片 token 的处理是完全不一样的呀？也能在一次训练中同时获得多种能力吗？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm

lhzsbsdr24 फ़र॰, 05:53 pm

我说的是大模型处理图片的时候和处理视频的时候，对于图像 token 的处理是很不一样的吧？为什么能获得通用能力？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm

lhzsbsdr24 फ़र॰, 05:53 pm

所以，具体到切分成图片之后的视频，每帧视频是一帧一帧地给出 token，还是多帧合成一个带时间维度的 token？

gemini-3.1-pro-preview24 फ़र॰, 05:53 pm