自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

肖朋伟

Stay hungry,stay foolish!

原创 Python爬虫教程-28-Selenium 操纵 Chrome

Python爬虫教程-28-Selenium 操纵 Chrome 我觉得本篇是很有意思的,闲着没事来看看!PhantomJS 幽灵浏览器,无界面浏览器,不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不...

2018-08-31 21:16:07

阅读数 12238

评论数 0

原创 Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表

我们使用Selenium+Chrome时,版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接:http://npm.taobao.org/mirrors/chromedriver/2.39/ 请根据下面表格下载支持自己 Chrome 的版本 ...

2018-08-31 19:46:18

阅读数 12067

评论数 0

原创 Python爬虫教程-26-Selenium + PhantomJS

Python爬虫教程-26-Selenium + PhantomJS 动态前端页面 : JavaScript: JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言...

2018-08-31 11:52:35

阅读数 10739

评论数 0

原创 Python爬虫教程-25-数据提取-BeautifulSoup4(三)

Python爬虫教程-25-数据提取-BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器 使用 soup.select 返回一个列表 通过标签名称:soup.select(“title”) 通过类名:soup.select(“.c...

2018-08-31 10:37:56

阅读数 10876

评论数 0

原创 Python爬虫教程-24-数据提取-BeautifulSoup4(二)

Python爬虫教程-24-数据提取-BeautifulSoup4(下) 本篇介绍 bs 如何遍历一个文档对象 遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节点以迭代器形式返回 descendants:所有子孙节点 string:用string...

2018-08-30 20:57:46

阅读数 10995

评论数 0

原创 Python爬虫教程-23-数据提取-BeautifulSoup4(一)

Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Python爬虫教程-23-数据提取-BeautifulSoup4 Beau...

2018-08-30 10:45:52

阅读数 11221

评论数 0

原创 Python爬虫教程-22-lxml-etree和xpath配合使用

Python爬虫教程-21-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器 官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 功能: 1.解析HTML:使用 etree.HTML(text) 将字符串格式的 html...

2018-08-29 20:26:25

阅读数 16958

评论数 0

原创 Python爬虫教程-21-xpath简介

本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn/xpath/index.asp Python爬虫教程-21-xpath 什么是 XPat...

2018-08-29 18:59:02

阅读数 11250

评论数 0

原创 Python爬虫教程-20-xml简介

本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.asp Python爬虫教程-19-数据提取-xml ...

2018-08-29 18:23:43

阅读数 10886

评论数 0

原创 Python爬虫教程-19-数据提取-正则表达式(re)

本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式:一套规则,可以在字符串文本中进行搜查替换等 正则的常用方法: match:从开始位置开始...

2018-08-29 12:06:04

阅读数 15233

评论数 0

原创 Python爬虫教程-18-页面解析和数据提取

本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取 结构化数据:先有的结构,再谈数据 json数据 1.处理此类数据,通常使用JSON Path 2.转换成python类型的...

2018-08-29 12:05:53

阅读数 11012

评论数 0

原创 TensorFlow笔记-07-神经网络优化-学习率,滑动平均

TensorFlow 笔记-06-神经网络优化-交叉熵,学习率 交叉熵 交叉熵(Cross Entropy):表示两个概率分布之间的距离,交叉熵越大,两个概率分布距离越远,两个概率分布越相异;交叉熵越小,两个概率分布距离越近,两个概率分布越相似 交叉熵计算公式:H(y_, y) = -Σy_ ...

2018-08-28 21:48:07

阅读数 11568

评论数 0

原创 Python爬虫教程-17-ajax爬取实例(豆瓣电影)

Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: 1.一定会有 url,请求方法(get, post),可能有数据 2.一般使用 json ...

2018-08-26 13:07:39

阅读数 11153

评论数 1

原创 Python爬虫教程-16-破解js加密实例(有道在线翻译)

python爬虫教程-16-破解js加密 在爬虫爬取网站的时候,经常遇到一些反爬虫技术,比如: 加cookie,身份验证UserAgent 图形验证,还有很难破解的滑动验证 js签名验证,对传输数据进行加密处理 对于js加密 经过加密传输的就是密文,但是加密函数或者过程一定是在浏览器完成...

2018-08-26 12:40:41

阅读数 15886

评论数 9

原创 TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数,交叉熵

TensorFlow笔记-06-神经网络优化-损失函数,自定义损失函数 神经元模型:用数学公式比表示为:f(Σi xi*wi + b), f为激活函数 神经网络 是以神经元为基本单位构成的 激活函数:引入非线性激活因素,提高模型的表达能力 常用的激活函数有relu、sigmoid、tanh等...

2018-08-24 14:57:39

阅读数 12145

评论数 0

原创 怎么在markdown中使用上标、下标?

怎么在markdown中使用上标、下标 markdown中如何加入上标、下标? 如指数,下标,商标等等。 解决方法 Markdown一个套兼容HTML的语法,所以使用HTML中下标下标的语法即可。 写法 H<sub&...

2018-08-24 10:51:08

阅读数 16211

评论数 3

原创 TensorFlow笔记-05-反向传播,搭建神经网络的八股

TensorFlow笔记-05-神经网络的实现过程(代码),反向传播 先回顾神经网络的实现过程 神经网络的实现过程 1.准备数据,提取特征,作为输入喂给神经网络 2.搭建NN结构,从输入到输出(先搭建计算图,再用会话执行) (NN前向传播算法===&am...

2018-08-23 21:38:18

阅读数 10112

评论数 0

原创 TensorFlow笔记-04-神经网络的实现过程,前向传播

TensorFlow笔记-03-神经网络的实现过程 基于TensorFlow的NN:用张量表示数据,用计算图搭建神经网络,用会话执行计算图,优化线上的权重(参数),得到模型 张量(tensor):多维数组(列表) 阶:张量的维数 计算图(Graph):搭建神经网络的计算过程,只搭建,不运算 ...

2018-08-20 20:08:54

阅读数 10707

评论数 0

原创 TensorFlow笔记-03-张量,计算图,会话

TensorFlow笔记-02-张量,计算图,会话 搭建你的第一个神经网络,总结搭建八股 基于TensorFlow的NN:用张量表示数据,用计算图搭建神经网络,用会话执行计算图,优化线上的权重(参数),得到模型 张量(tensor):多维数组(列表) 阶:张量的维数 ···维数···...

2018-08-20 18:22:09

阅读数 8167

评论数 0

原创 TensorFlow笔记-02-使用PyCharm搭建TensorFlow环境(win版非虚拟机)

Windows下TensorFlow环境的搭建(非虚拟机) 本篇介绍的是在windows系统下,使用Anaconda+PyCharm,不使用虚拟机安装Linux 安装Anaconda 这个相信有很多人都在用,所以简单说一下 如果没有安装可以直接去Anaconda官网下载:https://w...

2018-08-20 12:14:47

阅读数 11133

评论数 0

原创 TensorFlow笔记-01-开篇概述

人工智能实践:TensorFlow笔记-01-概述 什么是人工智能? 人工智能:机器模拟人的意识和思维 艾伦·麦席森·图灵(1912/06–1954/06),美国数学家,逻辑学家,“计算机科学之父”,“人工智能之父” 人工智能助理 谷歌 Assistant,微软 Cortana,苹果Sir...

2018-08-19 11:37:41

阅读数 10127

评论数 2

原创 Python爬虫教程-15-读取cookie(人人网)和SSL(12306官网)

Python爬虫教程-15-爬虫读取cookie文件 上一篇写道关于存储cookie文件,本篇介绍怎样读取cookie文件 cookie的读取 案例v16ssl文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py16loadcookie....

2018-08-19 10:54:42

阅读数 8877

评论数 2

原创 TensorFlow笔记-00-开篇

人工智能实践:TensorFlow笔记 从今天开始,从零开始学习TensorFlow,有相同兴趣的同志,可以互相学习笔记 TensorFlow笔记-章节介绍 人工智能概述 1.概述 2.windows系统下的安装 python高级语法 1.函数、模块、包 2.类、对象、面向对象的编程 ...

2018-08-19 09:50:06

阅读数 8037

评论数 0

原创 Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)

Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件 上一篇介绍了利用CookieJar访问人人网,本篇将使用filecookiejar将cookie以文件形式保存 自动使用cookie登录,使用步骤: 1.打开登录页面后,通过用户名密码登录 2.自动提取反馈...

2018-08-18 18:26:30

阅读数 10468

评论数 1

原创 Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)

Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie,向传出的http请求添加cookie...

2018-08-16 20:02:37

阅读数 11326

评论数 1

原创 python写入html文件中文乱码-解决办法

python写入html文件中文乱码问题 使用open函数将爬虫爬取的html写入文件,有时候在控制台不会乱码,但是写入文件的html中的中文是乱码的 案例分析 看下面一段代码: # 爬虫未使用cookie from urllib import request if __name__...

2018-08-16 18:05:29

阅读数 13070

评论数 0

原创 Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)

Python爬虫教程-12-爬虫使用cookie(上) ·爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cookie和session机制。 Python爬虫爬取登录后的页面 所以怎样让爬虫使用验证用户身份...

2018-08-16 14:34:16

阅读数 11833

评论数 1

原创 Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影)

Python爬虫教程-11-proxy代理IP,隐藏地址 ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP,但是我们使用代理IP就不怕它封了我们的IP了 获取代理IP的的网站: www.goub...

2018-08-16 11:48:31

阅读数 12216

评论数 2

原创 Python爬虫教程-10-UserAgent和常见浏览器UA值

Python爬虫教程-10-UserAgent和常见浏览器UA值 有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份, UserAgent 包含浏览器信息,用户身份,设备系统信息 UserAgent:用户代理,简称UA,属于headers的一部分,服务器通过UA来判断访问者...

2018-08-15 20:07:57

阅读数 12464

评论数 0

原创 Python爬虫教程-09-error模块

Python爬虫教程-09-error模块 今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError 产生的原因: 1.无网络连接 2.服务器连接失败 3.找不到指定的服务器 4.URLEr...

2018-08-15 18:20:39

阅读数 8281

评论数 1

原创 Python爬虫教程-08-post介绍(百度翻译)(下)

Python爬虫教程-08-post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类 构造Request 实例 req = request.Request(url=baseurl,data=data,headers=...

2018-08-15 11:18:46

阅读数 8269

评论数 1

原创 Python爬虫教程-35-编程常见问题解决方法

Python爬虫编程常见问题解决方法: 1.通用的解决方案:【按住Ctrl键不送松】,同时用鼠标点击【方法名】,查看文档 2.TypeError: POST data should be bytes, an iterable of bytes, or a file object. It can...

2018-08-14 20:17:55

阅读数 8871

评论数 0

原创 Python爬虫教程-07-post介绍(百度翻译)(上)

Python爬虫教程-07-post介绍(上) 访问网络两种方法 get: 利用参数给服务器传递信息 参数为dict,使用parse编码 post :(今天给大家介绍的post) 一般向服务器传递参数使用 post是把信息自动加密处理 使用post传递信息,需要用到data参数 使用po...

2018-08-14 20:02:09

阅读数 10825

评论数 1

原创 CentOS6最常用命令及快捷键整理

初学CentOS6最常用命令及快捷键整理 常用命令: 文件和目录: cd /home 进入 ‘/home’ 目录 cd .. 返回上一级目录 cd ../.. ...

2018-08-12 19:51:15

阅读数 12996

评论数 0

原创 Python爬虫教程-06-爬虫实现百度翻译(requests)

使用python爬虫实现百度翻译(requests) python爬虫 上一篇介绍了怎么使用浏览器的【开发者工具】获取请求的【地址、状态、参数】以及使用python爬虫实现百度翻译功能【urllib】版 上一篇链接:https://blog.csdn.net/qq_40147863/arti...

2018-08-11 21:15:21

阅读数 11225

评论数 2

原创 Python爬虫教程-05-python爬虫实现百度翻译

使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器【模拟浏览器】,发送【post请求】,传入待【翻译的内容】作为参数,获取【百度翻译的结果】 通过开发者工具,获取发送请求的地址 提示: 翻译内容发送的请求地址,绝对不是打开百度翻译的那个地址,想要抓取地址...

2018-08-11 20:48:39

阅读数 11813

评论数 9

原创 Python爬虫教程-04-response简介

Spider-04-response简介 本小节介绍urlopen的返回对象,和简单调试方法 案例v3 研究request的返回值,输出返回值类型,打印内容 geturl:返回请求对象的url info:请求返回对象的meta信息 getcode:返回的http code py04v3.p...

2018-08-06 20:11:56

阅读数 11182

评论数 1

原创 Python爬虫教程-03-使用chardet

Spider-03-使用chardet 继续学习python爬虫,我们经常出现解码问题,因为所有的页面编码都不统一,我们使用chardet检测页面的编码,尽可能的减少编码问题的出现 网页编码问题解决 使用chardet 可以自动检测页面文件的编码格式,但是也有可能出错 需要安装charde...

2018-08-06 11:20:41

阅读数 11982

评论数 6

原创 Python爬虫教程-02-使用urlopen

Spider-02-使用URLopen 做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOM urllib 包含模块 urllib.request:打开和读取urls urllib.error:包含urllib.request产生的常见错误,使用try捕捉 urlli...

2018-08-05 20:22:19

阅读数 13050

评论数 7

原创 Python爬虫教程-01-爬虫介绍

Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所有对应变能力有些要求 爬虫准备工作 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 基础知识 url, http web前端,html,css...

2018-08-05 11:58:16

阅读数 13885

评论数 1

提示
确定要删除当前文章?
取消 删除