如何判断一个网页中是否存在视频?
我在做一个网页视频抓取的爬虫,目前遇到的瓶颈是无法迅速确认该网页中是否含有视频。
请教有什么好办法去解决这个问题?如果对HTML文件进行解析的话,正确率是100%,不过效率太低。
目前我采用的几个办法
1.对视频门户网站URL进行定制(如youku),这样可以不必检查源码,速度很快,但必须人工定制。
2.检查如<embed type="application/x-shockwave-flash"的HTML标签,可是适用范围有限,漏检很多。
我想从Javascript入手,分析有没有视频或播放器载入的操作或类似可以表示出现视频的线索。
先谢谢大家!