Scrapling是一个现代化的Python网页爬虫框架,专为应对如今复杂的JavaScript渲染页面而设计。它基于Playwright构建,提供了简洁而强大的API,能够自动处理动态加载内容、反爬机制和复杂页面结构。目前在GitHub上已获得超过3.6万颗星标,受到全球爬虫开发者的青睐。
核心特点
- 自动等待:无需手动设置sleep,Scrapling会自动等待元素出现
- CSS/XPath选择器:灵活的节点选择方式
- 自动检测编码:能准确处理各种字符编码
- 支持Tor网络:内置Tor代理支持
- AI Agent支持:提供OpenClaw智能体技能,可被AI调用
- 多语言文档:提供中文在内的多语言文档
安装Scrapling
pip install scrapling
# 安装浏览器驱动
playwright install
快速使用
import asyncio
from scrapling import Scraper
async def main():
async with Scraper() as browser:
page = await browser.page_from_url('https://example.com')
# 获取页面标题
title = page.find('h1').text()
print(f"标题: {title}")
# 获取所有链接
links = page.find_all('a')
for link in links:
print(link.text, link.attrs.get('href'))
asyncio.run(main())
高级用法
# 使用Tor代理
async with Scraper(tor_proxy='http://localhost:8050') as browser:
page = await browser.page_from_url('https://example.com')
# 使用XPath选择器
elements = page.xpath('//div[@class="content"]//p')
for el in elements:
print(el.text)
# 获取JSON数据
data = page.get_json()
print(data['key'])
# 截图保存
page.screenshot('page.png')
适用场景
- 电商网站数据采集
- 社交媒体内容监控
- 新闻资讯聚合
- 竞品价格监控
- 搜索引擎优化分析
- AI训练数据获取
注意事项
使用爬虫工具时,请务必遵守目标网站的robots.txt规则和服务条款,不要进行过于频繁的请求,以免对服务器造成负担或被封禁。爬虫仅供学习和合法用途。
开源协议
Scrapling采用MIT开源许可证,可以免费商用。项目提供详细的多语言文档,支持Python 3.8+。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END








暂无评论内容