Enhancing OCR-based Engineering Diagram Analysis by Integrating Diverse External Legends with VLMs
Artikel i vetenskaplig tidskrift, 2025
diagrams
information extraction
vision language models
optical character recognition
multimodal prompt engineering
legends
Författare
Vasil Shteriyanov
Technische Universiteit Eindhoven
McDermott
Rimman Dzhusupova
Technische Universiteit Eindhoven
McDermott
Jan Bosch
Göteborgs universitet
Technische Universiteit Eindhoven
Chalmers, Data- och informationsteknik, Interaktionsdesign och Software Engineering
Helena Holmström Olsson
Malmö universitet
Journal of Software: Evolution and Process
2047-7481 (eISSN)
Vol. 37 12 e70072Ämneskategorier (SSIF 2025)
Datorgrafik och datorseende
DOI
10.1002/smr.70072