SEO、GEO
与个人思考

Python

BeautifulSoup4最常用的5个函数【孙吉】

本文介绍BeautifulSoup4在网页抓取中的五个核心函数。通过实战案例,详解find()定位唯一标签、extract()移除并提取内容、select()属性精确匹配、get_text()获取文本及后续方法,帮助开发者高效解析HTML结

2016年04月27日 3 分钟阅读
Python

Selenium+PhantomJS+Xpath抓取网页JS内容

文章介绍使用Selenium配合PhantomJS抓取含动态JS内容的网页。针对requests无法渲染JS的痛点,该方法能静默运行浏览器、执行脚本并提取数据。

2015年09月21日 3 分钟阅读
Python

Python BeautifulSoup4安装与简单应用

本文介绍Python库BeautifulSoup4的安装方法,涵盖Linux与Windows环境。通过代码示例演示如何解析HTML获取结构化数据,并详解find_all和find搜索技巧。

2015年07月29日 3 分钟阅读
Python

Python用Envelopes发送邮件和附件

本文介绍使用Python的Envelopes库便捷发送邮件及附件。该库封装了smtplib,操作更简单。文章详述了安装方法、核心参数设置(如发件人、正文、抄送)及添加附件代码,并展示了通过SMTP服务器或Gmail发送的具体示例。

2015年04月28日 3 分钟阅读
Python

Scrapy数据保存为excel

针对Scrapy默认CSV保存的局限,本文介绍利用Pipeline和OpenPyxl库将数据直接导出为Excel的方法。通过编写自定义Pipeline处理抓取数据并写入xlsx文件,有效解决编码与格式问题,实现数据的一键友好存储。

2015年03月04日 3 分钟阅读
Python

[翻]使用requests和lxml进行web抓取

本文介绍使用Python的Requests和lxml库进行Web抓取。通过Requests获取网页,利用lxml解析HTML并借助XPath定位数据,高效提取结构化信息。该方法能保留数据格式,便于后续分析与存储,是学习网络爬虫的基础实践。

2015年02月03日 3 分钟阅读
Python

Django1.6自定义markdown过滤器

针对Django1.6取消原生markdown标签且第三方库存在HTML转码问题,本文介绍自定义模板过滤器的解决方案。通过创建templatetags目录并编写djangomarkdown.py脚本,利用markdown2库实现Markdo

2014年11月20日 3 分钟阅读
Python

Python读取大文件

文章针对Python处理几十G大文件内存占用高的问题,介绍了两种高效读取方法:一是使用with语句逐行迭代,自动管理缓冲与异常;二是利用fileinput模块。作者推荐第一种方法,因其更Pythonic且无需额外导入。

2014年11月12日 2 分钟阅读
Python

用Python简单实现Google Analytics API

本文介绍如何用Python调用Google Analytics API自动获取网站数据。文章详述了创建Google开发者项目、配置环境、安装依赖库及下载示例代码的步骤,并解决了VPS环境下浏览器验证的难题,帮助开发者实现GA数据的自动化采集

2014年09月17日 3 分钟阅读
Python

django-crontab实现Django定时任务

文章对比了三种 Django 定时任务方案,指出 celery 复杂、原生 command 在虚拟环境部署困难。最终推荐并演示了使用 django-crontab 库,通过配置 settings.py 和运行管理命令,轻松实现自定义命令或函

2014年08月20日 4 分钟阅读
Python

Django1.6的markdown利器:django-markdown-deux

Django 1.6 移除了内置 Markdown 支持,本文推荐 django-markdown-deux 库。通过 pip 安装、配置 INSTALLED_APPS 及在模板中加载标签和过滤器三步,即可轻松实现 Markdown 语法到

2014年05月14日 3 分钟阅读
Python

Python smtplib发送邮件

本文介绍Python使用smtplib发送HTML邮件的方法。核心仅需三行代码:连接服务器、登录并发送邮件,需注意SSL端口配置差异。作者还分享了将功能封装为函数的技巧,并附常用邮箱服务器及端口对照表,便于快速集成自动化监控场景。

2014年03月31日 3 分钟阅读
Python

Python你必须知道的十个库【翻】

本文整理了Python开发者必须掌握的十个核心库。包括用于命令行解析的Docopt、HTTP请求的Requests、XML处理的lxml、轻量级框架Bottle、进程调用工具sh、日志记录Structlog、文件监控Watchdog及时间处

2013年11月27日 3 分钟阅读
Python

Python多线程简易版 - 线程池threadpool

作者分享Python多线程简易库threadpool,仅需四行代码即可构建线程池并控制并发数。该方案虽不如原生threading精确,但极大简化了批量任务处理流程,适合查询收录等独立脚本,有效解决单线程执行慢的问题。

2013年10月30日 3 分钟阅读
Python

python百度排名批量查询工具【7月17日改良版】

本文介绍一款改良版Python百度排名批量查询工具。相比旧版,新版本增加了随机User-Agent防封、显示着陆页URL及标题等实用功能。文章提供了完整代码,演示了如何构建搜索请求、解析搜索结果并提取域名对应的排名信息。

2013年07月16日 3 分钟阅读
Python

Python requests的安装与简单运用

本文介绍Python HTTP库requests的安装与基础用法。相比标准库urllib2,requests API更简洁直观。

2013年07月09日 3 分钟阅读