Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments