从客户需求到 API 落地:淘宝商品详情批量爬取与接口封装实践

admin1周前API技术分享18

在电商数据分析、竞品监控等场景中,批量获取商品详情数据是高频需求。本文将完整还原一次技术落地过程 —— 从接收客户 “传商品 ID 即得详情” 的需求,到用 Python 实现爬虫核心逻辑,最终封装成可直接调用的 API,为类似需求提供可复用的技术方案。

一、需求拆解:明确核心目标与约束

客户是一家电商代运营公司,需要批量获取淘宝商品的标题、价格、库存、规格、详情图等信息,核心诉求有三个:

  1. 易用性:无需关心技术细节,仅传入商品 ID(如淘宝商品链接中的id=xxxxxx)即可返回数据;

  2. 稳定性:避免频繁被反爬拦截,确保批量请求时数据获取成功率;

  3. 结构化:返回 JSON 格式数据,方便直接导入 Excel 或接入客户内部系统。

同时需注意淘宝的反爬规则,避免使用高频请求、固定 IP 等易触发拦截的操作,这是技术实现的核心约束。

二、技术选型:轻量且高效的工具组合

针对需求特点,选择 “爬虫 + 后端框架” 的轻量组合,兼顾开发效率与运行稳定性,具体选型如下:

技术模块 工具 / 框架 选型理由
网络请求 Requests + Playwright Requests 处理接口请求,Playwright 应对动态渲染页面
数据解析 BeautifulSoup + JSON 解析 HTML 静态内容,直接处理接口返回的 JSON 数据
后端 API FastAPI 高性能、支持自动生成接口文档,开发效率远超 Flask
数据存储(可选) SQLite 轻量级文件数据库,无需部署,适合小批量数据缓存
反爬应对 随机 User-Agent + 延时 降低请求特征,避免触发淘宝反爬机制

三、核心实现:从爬虫到数据结构化

3.1 第一步:分析淘宝商品页面数据来源

淘宝商品详情页分为 “静态渲染” 和 “动态加载” 两部分,直接爬取页面 HTML 会丢失部分数据,需先通过浏览器抓包定位真实数据接口:

  1. 打开淘宝商品页(如https://item.taobao.com/item.htm?id=123456),按 F12 打开 “开发者工具”;

  2. 切换到 “Network” 标签,刷新页面,筛选 “XHR” 类型请求,查找包含 “item_get”“detail” 等关键词的接口;

  3. 分析接口请求参数(如id为商品 ID)和返回结果,确认该接口包含标题、价格、库存等核心字段(返回格式为 JSON)。

关键提醒:淘宝接口需携带登录后的 Cookie(包含用户身份信息),否则会返回登录拦截页,需提前获取并在请求头中配置。

3.2 第二步:编写爬虫核心代码

核心逻辑分为 “请求数据”“解析数据”“异常处理” 三部分,代码如下(含关键注释):

import requestsimport randomimport timefrom typing import Dict, Optional# 1. 配置请求头(模拟浏览器,避免被识别为爬虫)def get_headers() -> Dict:
    user_agents = [        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Firefox/115.0"
    ]    return {        "User-Agent": random.choice(user_agents),        "Cookie": "你的淘宝登录Cookie(从浏览器复制)",  # 需替换为真实Cookie
        "Referer": "https://item.taobao.com/"
    }# 2. 爬取单个商品详情def crawl_taobao_item(item_id: str) -> Optional[Dict]:    # 淘宝商品详情接口(示例,实际需抓包确认最新接口)
    url = f"https://h5api.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/?id={item_id}"
    headers = get_headers()    
    try:        # 加随机延时(1-3秒),降低反爬风险
        time.sleep(random.uniform(1, 3))
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # 触发HTTP错误(如403、500)
        
        # 解析JSON数据,提取核心字段(字段名需按实际接口调整)
        data = response.json()
        item_info = data["data"]["itemInfoModel"]["itemInfo"]        
        # 结构化返回结果(只保留客户需要的字段)
        return {            "item_id": item_id,            "title": item_info["title"],            "price": item_info["price"],            "stock": item_info["totalStock"],            "sales_count": item_info["sellCount"],            "shop_name": data["data"]["sellerInfoModel"]["sellerName"],            "detail_images": [img["url"] for img in data["data"]["itemImageModel"]["largeImages"]]
        }    
    except Exception as e:        print(f"爬取商品{item_id}失败:{str(e)}")        return None

3.3 第三步:数据存储(可选)

若客户需要批量爬取后重复使用数据,可将结果存入 SQLite,避免重复请求触发反爬。示例代码如下:

import sqlite3# 初始化数据库表def init_db():
    conn = sqlite3.connect("taobao_items.db")
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS items (
            item_id TEXT PRIMARY KEY,
            title TEXT,
            price TEXT,
            stock INTEGER,
            sales_count INTEGER,
            shop_name TEXT,
            detail_images TEXT,
            crawl_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        )
    ''')
    conn.commit()
    conn.close()# 存储商品数据到数据库def save_to_db(item_data: Dict):
    conn = sqlite3.connect("taobao_items.db")
    cursor = conn.cursor()    # 将图片列表转为字符串存储(取出时需用json.loads解析)
    detail_images_str = ",".join(item_data["detail_images"])
    cursor.execute('''
        INSERT OR REPLACE INTO items 
        (item_id, title, price, stock, sales_count, shop_name, detail_images)
        VALUES (?, ?, ?, ?, ?, ?, ?)
    ''', (
        item_data["item_id"],
        item_data["title"],
        item_data["price"],
        item_data["stock"],
        item_data["sales_count"],
        item_data["shop_name"],
        detail_images_str
    ))
    conn.commit()
    conn.close()

四、API 封装:用 FastAPI 实现 “传 ID 得数据”

完成爬虫逻辑后,需将其封装成 API 接口,让客户无需运行代码,直接通过 HTTP 请求获取数据。

4.1 编写 API 核心代码

from fastapi import FastAPI, HTTPExceptionfrom pydantic import BaseModel  # 用于参数校验import json# 初始化FastAPI应用app = FastAPI(title="淘宝商品详情API", version="1.0")# 初始化数据库(若使用存储功能)init_db()# 定义请求参数模型(校验商品ID格式,可选)class ItemRequest(BaseModel):
    item_id: str# 定义API接口:获取商品详情@app.post("/taobao/item/detail", summary="根据商品ID获取淘宝详情")def get_item_detail(request: ItemRequest):
    item_id = request.item_id    # 1. 先查数据库,有缓存则直接返回(减少爬虫请求)
    conn = sqlite3.connect("taobao_items.db")
    cursor = conn.cursor()
    cursor.execute("SELECT * FROM items WHERE item_id = ?", (item_id,))
    db_data = cursor.fetchone()
    conn.close()    
    if db_data:        # 数据库数据转为JSON格式(处理图片列表)
        return {            "item_id": db_data[0],            "title": db_data[1],            "price": db_data[2],            "stock": db_data[3],            "sales_count": db_data[4],            "shop_name": db_data[5],            "detail_images": db_data[6].split(","),            "source": "数据库缓存"
        }    
    # 2. 数据库无缓存,调用爬虫获取数据
    crawl_data = crawl_taobao_item(item_id)    if not crawl_data:        raise HTTPException(status_code=400, detail=f"商品ID {item_id} 爬取失败,请检查ID有效性或稍后重试")    
    # 3. 存储到数据库(更新缓存)
    save_to_db(crawl_data)
    crawl_data["source"] = "实时爬取"
    return crawl_data# 启动API服务(需安装uvicorn:pip install uvicorn)if __name__ == "__main__":    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

4.2 API 使用说明

  1. 启动服务:运行上述代码,执行命令uvicorn main:app --host 0.0.0.0 --port 8000main为代码文件名);

  2. 测试接口:访问http://localhost:8000/docs,FastAPI 自动生成的接口文档中,可直接输入商品 ID 测试请求;

  3. 客户调用:通过 Postman、Python requests 或客户系统,向http://你的服务器IP:8000/taobao/item/detail发送 POST 请求,请求体如下:

    json

    {
        "item_id": "123456789012"  // 替换为真实淘宝商品ID
    }

  4. 返回结果:接口会返回结构化 JSON 数据,包含商品所有核心字段,客户可直接解析使用。

五、落地优化:稳定性与可维护性提升

  1. 反爬策略升级:若频繁被拦截,可增加 “IP 代理池”(如使用阿布云、芝麻代理),替换固定 IP;

  2. 接口监控:添加日志记录(如用 loguru),记录请求成功 / 失败次数,方便排查问题;

  3. 批量请求支持:新增/taobao/item/batch_detail接口,支持传入多个商品 ID(如{"item_ids": ["123", "456"]}),批量返回数据;

  4. Cookie 自动更新:通过 Playwright 模拟登录,定期自动更新 Cookie,避免手动替换的麻烦。

总结

从客户需求到 API 落地,核心是 “以易用性为目标,以稳定性为基础”。通过 “爬虫逻辑模块化 + FastAPI 轻量封装”,既解决了淘宝反爬与数据结构化问题,又让客户无需关心技术细节,仅通过商品 ID 即可快速获取数据。这种方案不仅可复用于淘宝,稍作调整后也适用于京东、拼多多等其他电商平台的商品数据爬取。


相关文章

为什么有API大家还是需要用爬虫

为什么有API大家还是需要用爬虫

API和爬虫都是获取数据的技术手段,其核心差别在于访问控制、数据定制性、成本效率和使用途径。尽管API提供一种官方、规范和高效的获取数据方式,但仍有许多场景中由于API的访问限制、数据种类和格式的局限...

爬虫 API:从技术架构到实战落地的全维度解析

在数据驱动的时代,高效、合规地获取网络数据成为企业与开发者的核心需求。传统爬虫面临反爬拦截、数据解析混乱、扩展性差等问题,而爬虫 API(Crawler API) 作为封装化、服务化的解决方案,正逐步...

电商数据分析避坑指南:为什么 API 才是数据获取的最优解?

电商数据分析避坑指南:为什么 API 才是数据获取的最优解?

 编辑在电商行业深耕的朋友都知道,数据分析是驱动业务增长的核心引擎。无论是选品策略调整、营销活动优化,还是用户体验升级,都离不开精准、及时的数据分析支持。但在实际操作中,很多团队却卡在了 “...

第三方电商数据 API 的数据来源解析:合规性与可靠性背后的逻辑

第三方电商数据 API 的数据来源解析:合规性与可靠性背后的逻辑

 编辑在电商数据分析领域,第三方数据公司提供的 API 接口已成为许多企业获取数据的重要选择。但不少朋友会好奇:这些 API 接口的数据究竟来自哪里?为什么它们能提供比自建爬虫更稳定、更全面...

淘宝京东拼多多爬虫实战:反爬对抗、避坑技巧与数据安全要点

一、先搞懂:电商爬虫的 3 大核心挑战(比普通爬虫更复杂的原因)做电商爬虫前,必须先明确「为什么难」—— 淘宝、京东、拼多多的反爬体系是「多层级、动态化、行为导向」的,绝非简单的 UA 验证或 IP...

科普:电商数据API的实现途径

电商数据 API(应用程序接口)是连接电商系统与外部应用(如 ERP、数据分析工具、第三方平台等)的桥梁,用于实现商品、订单、用户、库存等数据的交互与共享。其实现途径可根据技术能力、需求场景分为以下几...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。