网站地图生成,一个功能强大的网站地图生成工具,使用PyQt5制作界面,支持快速深度抓取并导出多种格式的网站地图。
功能特点
🕷️ 深度爬取整个网站的所有页面
📊 支持导出 XML、TXT、HTML 三种格式的网站地图
⚡ 异步并发爬取,速度快效率高
⏱️ 智能延迟机制,防止频繁请求被屏蔽

配置参数
网站URL: 输入要爬取的网站首页地址(必须以 http:// 或 https:// 开头)
并发数: 同时爬取的页面数量,建议 10-50(默认20,数值越大速度越快)
延迟范围: 每次请求之间的随机延迟时间(秒),防止被封(默认0-1秒,可设为0以提升速度)
开始爬取
1. 点击"开始爬取"按钮
2. 程序会自动深度遍历网站的所有页面
3. **实时显示**每个页面的抓取状态和发现的URL
4. 可随时点击"停止"按钮**优雅停止**爬取
5. 停止后仍可导出已爬取的URL
4. 导出网站地图
爬取完成后,选择导出格式和分割选项:
导出格式:
XML格式 - 标准sitemap.xml格式,符合搜索引擎规范
TXT格式 - 纯文本URL列表,每行一个URL
HTML格式- 美观的HTML页面,可直接在浏览器中查看
文件分割:
不分割 - 所有URL导出到单个文件
自动分割 - 按指定数量自动分割成多个文件
- 可设置每个文件最多包含的URL数量(建议10000个)
- 例如:100000个URL,设置10000/文件,将生成10个文件
- 文件命名:sitemap_1.xml, sitemap_2.xml, sitemap_3.xml...
点击"导出"按钮选择保存位置即可。
⚠️ 使用建议
首次使用建议设置较小的并发数(5-10)
大型网站建议增加延迟时间(2-5秒)
确保网络连接稳定
遵守目标网站的 robots.txt 规则
⚠️ 声明
- 本工具仅供学习和合法用途使用
- 请遵守目标网站的服务条款和爬虫协议
- 请勿用于恶意爬取或攻击网站
- 使用本工具造成的任何后果由使用者自行承担
常见问题
Q: 爬取速度慢怎么办?
A: 可以适当增加并发数,但要注意不要设置过高以免被封。
Q: 为什么有些页面没有爬取到?
A: 可能是动态加载的内容(JavaScript渲染),本工具目前只支持静态HTML页面。
Q: 导出的sitemap.xml能直接用于SEO吗?
A: 可以,导出的XML格式符合搜索引擎标准,可以直接提交给百度、Google等搜索引擎。
Q: 会被目标网站封禁吗?
A: 工具已实现延迟和User-Agent优化,但仍需合理设置参数。建议首次使用时保持默认设置。
祝您使用愉快!*🎉

