url管理器:管理待抓取url集合 和已抓取url集合 已抓取url集合:防止重复抓取和循环抓取 url管理器功能 添加新URL到待爬取集合中判断待添加url是否在容器中获取待爬取url判断是否还有待爬取url将url从待爬取移到已爬取集合 实现方式 将url集合存储在内容中 python内存待爬取集合:set()已爬取集合:set() 关系数据库中 mysqlurls(url,is_crawled) nosql redis set