A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification

Wang, Qing; Du, Jun; Zheng, Siyuan; Li, Yunqing; Wang, Yajian; Wu, Yuzhong; Hu, Hu; Yang, Chao-Han Huck; Siniscalchi, Sabato Marco; Wang, Yannan; Lee, Chin-Hui

Computer Science > Multimedia

arXiv:2203.04114 (cs)

[Submitted on 7 Mar 2022 (v1), last revised 1 Sep 2022 (this version, v3)]

Title:A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification

Authors:Qing Wang, Jun Du, Siyuan Zheng, Yunqing Li, Yajian Wang, Yuzhong Wu, Hu Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui Lee

View PDF

Abstract:In this paper, we propose two techniques, namely joint modeling and data augmentation, to improve system performances for audio-visual scene classification (AVSC). We employ pre-trained networks trained only on image data sets to extract video embedding; whereas for audio embedding models, we decide to train them from scratch. We explore different neural network architectures for joint modeling to effectively combine the video and audio modalities. Moreover, data augmentation strategies are investigated to increase audio-visual training set size. For the video modality the effectiveness of several operations in RandAugment is verified. An audio-video joint mixup scheme is proposed to further improve AVSC performances. Evaluated on the development set of TAUえーゆー Urban Audio Visual Scenes 2021, our final system can achieve the best accuracy of 94.2% among all single AVSC systems submitted to DCASE 2021 Task 1b.

Comments:	5 pages, 1 figure
Subjects:	Multimedia (cs.MM); Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Audio and Speech Processing (eess.AS)
Cite as:	arXiv:2203.04114 [cs.MM]
	(or arXiv:2203.04114v3 [cs.MM] for this version)
	https://doi.org/10.48550/arXiv.2203.04114

Submission history

From: Qing Wang [view email]
[v1] Mon, 7 Mar 2022 07:29:55 UTC (100 KB)
[v2] Thu, 31 Mar 2022 04:09:12 UTC (99 KB)
[v3] Thu, 1 Sep 2022 03:28:17 UTC (477 KB)

Computer Science > Multimedia

Title:A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Multimedia

Title:A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators