1
反向聚焦细粒度多模态语义对齐的视频字幕模型
Reverse-focus fine-grained multimodal semantic alignment for video captioning
优先出版
2025年第7期 :
doi:10.19734/j.issn.1001-3695.2024.11.0492