如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多模态指令微调的方式,统一到
2023-08-31 15:29
本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。
2022-08-23 09:12
深度压缩感知(DCS)框架通过联合训练生成器和通过元学习优化重建过程,显著提高了信号恢复的性能和速度。作者探索了针对不同目标的测量训练,并给予最小化测量误差推导出
2019-05-25 09:25
检测前跟踪(Track-Before-Detect,TBD)技术是一种有效的雷达微弱目标检测方法,并且在多个领域有着广泛的应用。这种技术不对单帧的数据做
2018-06-21 09:09
对象跟踪问题一直是计算机视觉的热点任务之一,简单的可以分为单目标跟踪与多目标
2022-09-14 16:20
现在比较先进的目标跟踪方法采用了“分而治之”的策略,即将跟踪问题解耦成多个子任务,例如中心点预测、前景/背景二分类、边界框回归、角点预测等。尽管在各个
2023-05-16 16:00
目前主流的目标跟踪算法都是基于Tracking-by-Detecton策略,即基于目标检测的结果来进行目标跟踪。Deep
2023-08-07 15:37
单模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
2024-01-17 10:03
其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。在这些方法之外,文章也进一步讨论了
2023-09-26 16:42