使用Octoparse工具,抓取和分析印尼Tokopedia的产品价格和评级信息(图)

蓝海亿观网2020年07月21日 989

Tokopedia是2009年创立的一家印尼电商平台,根据iPrice Group的一份报告,2019年7月至9月间,Tokopedia是印

Tokopedia2009年创立的一家印尼电商平台,根据iPrice Group的一份报告,2019年7月至9月间,Tokopedia是印尼访问量最大的跨境电商平台,月平均访问量达到659.53万人次。

本文以USB产品为例,使用Octoparse抓取Tokopedia产品名称、价格、评级、图片、URL等详细信息。蓝海亿观网了解到,要完成这些,需要USB产品的链接:https: // www .tokopedia.com /search?st =product&q=usb

使用Octoparse收集TokopediaUSB产品信息步骤

1.首先打开目标网页,即要收集信息的产品页面,使用“Advanced Mode”创建任务。将URL粘贴到提取URL"Extraction URL"框中,点击保存URL"Save URL"继续下一步。

2.创建分页循环pagination loop),从多个页面中,抓取所有数据。接着向下滚动,点击网页上的下一页“Next Page”按钮,在操作提示“Action Tips”中,点击循环点击下一页“Loop click next page”。

Tokopedia将AJAX技术应用于分页按钮(pagination button)。因此,在单击分页“Click to paginate”步骤中,要设置 AJAX Load。

取消选择无响应自动重试“Auto retry when no response”。

勾选用AJAX加载页面“Load the page with AJAX”。

设置“AJAX Timeout”。

3.建立一个循环项目“Loop Item”,循环点击进入每个产品的list。

当创建一个“Loop Item”时,需要从第一页第一项开始。

在工作流程中,点击“Go To Web Page”。

选择工作流程中的分页循环“pagination loop”。

这么做是为了让Octoparse决定执行顺序,并在工作流程中的适当位置,生成Loop Item。

当创建一个产品的list,以刮取(scrape)一个网站时,有时list可能包括了几个广告“Ads”产品。为了在本例中排除广告促销产品,可以从该页的第三行开始构建Loop Item。

点击第三行的第一个产品标题。

点击操作提示“Action Tips”中的全选“Select All”。

选择循环点击每个元素“Loop click each element”。

4.提取数据,在页面上点击卖家需要的信息,在“Action Tips”中选择提取数据“Extract data”

从预定义(pre-defined)list中选择,或自己输入,来重命名字段。

5.通过修改XPath定制数据字段,提高某个数据字段的准确性(可选)。

蓝海亿观网获悉,在本例中,price元素,并不总是位于不同细节页面的相同位置。因此,为了避免这种不规则位置问题,而导致的数据丢失,则需要修改Octoparse中的XPath,以确保能够准确地检测到每个页面上的price元素。

修改后的price字段XPath是//span[text()='Rp']/following-sibling::span

点击自定义数据字段“Customize data field”。

选择自定义XPath“Customize XPath”。

将修改后的XPath,粘贴到匹配的(Matching)XPath文本框中。

点击“OK”保存结果。

6.运行任务并获取数据。

点击开始提取“Start Extraction”。

选择本地提取“Local Extraction”在计算机上运行任务。

下图是示例输出:

(跨境电商新媒体-蓝海亿观网egainnews)文末扫码Tokopedia运营交流群,对接跨境电商优质资源。CoupangWayfair MercadoLibre等平台入驻品牌文案策划及全网推广、电商培训和孵化等服务,请联系我们。不得擅自改写、转载、复制、裁剪和编辑全部或部分内容。

版权说明:蓝海亿观网倡导尊重与保护知识产权,未经许可不得用于商业活动。如当前文章存在版权问题,请联系客服申诉处理。

分享至:

蓝海亿观网跨境卖家交流群!

跨境24H头条资讯,关注跨境平台最新政策推送行业最新动态。

全球跨境市场分析、电商政策及选品思维逻辑解读。

知名跨境大卖财报分析,真实案例分析站内站外引流促单实操技巧!

扫码入群,与同行共赢

留点想法

评论列表(0条)