🔗 未来增强承诺: 摩根大通承诺以轻量级方式将视觉融入DocLLM,进一步提升其多模态文档理解能力。
“I”:视频输入。GPT-4V对视频的理解还相当原始,因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系,但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。
知道如何使用AI工具的人工作效率更高。知道如何操纵数据的人和企业能够更有效地了解真相、做出更好的决策并取得更多成果。随着AI的不断进步,这一点会成为现实。
该产品还引入了光随书动技术,利用摄像头的追踪技术让光源自动聚焦在书本上。此外,台灯还具备AI离座感应和自动延时关灯功能,方便节能和使用。
另一方面,这也要靠对情绪的把控、对社交文化的洞察。蛋仔通过各种互动设施、结合网络热点推出的动作表情等手段,给了玩家一种低负担表达情绪的窗口。这种窗口,或许是和路过的蛋仔「举高高」、叠成一串糖葫芦,或许是用道具整蛊路人,但不管怎么做,大家都不会有什么负面感受。