Scrapling – 现代化Python爬虫框架，自动处理动态网页-壹联网络

Scrapling是一个现代化的Python网页爬虫框架，专为应对如今复杂的JavaScript渲染页面而设计。它基于Playwright构建，提供了简洁而强大的API，能够自动处理动态加载内容、反爬机制和复杂页面结构。目前在GitHub上已获得超过3.6万颗星标，受到全球爬虫开发者的青睐。

核心特点

自动等待：无需手动设置sleep，Scrapling会自动等待元素出现
CSS/XPath选择器：灵活的节点选择方式
自动检测编码：能准确处理各种字符编码
支持Tor网络：内置Tor代理支持
AI Agent支持：提供OpenClaw智能体技能，可被AI调用
多语言文档：提供中文在内的多语言文档

安装Scrapling

pip install scrapling

# 安装浏览器驱动
playwright install

快速使用

import asyncio
from scrapling import Scraper

async def main():
    async with Scraper() as browser:
        page = await browser.page_from_url('https://example.com')
        
        # 获取页面标题
        title = page.find('h1').text()
        print(f"标题: {title}")
        
        # 获取所有链接
        links = page.find_all('a')
        for link in links:
            print(link.text, link.attrs.get('href'))

asyncio.run(main())

高级用法

# 使用Tor代理
async with Scraper(tor_proxy='http://localhost:8050') as browser:
    page = await browser.page_from_url('https://example.com')
    
# 使用XPath选择器
elements = page.xpath('//div[@class="content"]//p')
for el in elements:
    print(el.text)

# 获取JSON数据
data = page.get_json()
print(data['key'])

# 截图保存
page.screenshot('page.png')