请教大牛:搜索引擎是如何抓取网页中特定元素或者内容的呢?
比如说我需要针对几个不同的购物网站抓取产品进行比较搜索。
网站一
产品名称:olay洗面奶
产品价格:120元
网站二
名称:玉兰油洗面奶
优惠价:125.00元/个
网站数量不定,后期可能会追加,现在比较疑惑的是,比如说这个价格,一来中文叫法可能不同,导致我无法前期判断出网页中应该分析什么文字,二来网页中可能会出现类似相关产品这样的板块,如果里面也有价格怎么办?三来价格的格式,写法可能都不太一样,也会导致信息抽取的失败。
不知道做过搜索引擎的大哥门,这样得问题一般都是从什么方向上考虑,希望能给个思路。