技术标签: python
步骤一:
寻找想爬取数据的来源网站(即12306),直接进入官网就可以了https://kyfw.12306.cn
步骤二:
因为我们是爬取车票信息,所以直接点击单程车票查询就可了
F12
启动chrome
开发者模式,然后按照下面图片里的步骤操作
步骤三:
然后就会发现一个请求,接下来,我们点击这条请求,查看请求信息,可以发现包括Headers
,Proview
,Responsr
,Cookies
,Timing
等信息,以及GET
请求的url
下面是请求网络路径(url
),经过多次,不同车站的搜索,我们可以发现,里面参数发生改变的只有,始发地、终点站、出发时间等(但是地名都是大写字母简称)
步骤四:
接下来,我们就部署链接,先把站点简称爬取到本都(我是爬取到本地,然后顺便转存到tomcat服务器,为后面检索关键词、制作词云图做准备)
'''
文件名:_get_station.py
如果先复制我的代码,请命名与我一致,因为后面文件里要引用这个模块
'''
#引用request模块 -- 网络请求模块
import requests
#引用re模块 -- 正则表达式
import re
#引用shutil模块,进行文件复制转存,直接存储在tomcat服务器中
import shutil
#引用esayGui模块,制作弹窗
import easygui as ea
#Function() -- 获取12306站点信息
def get_station():
'''
@url:12306站点信息存储文件地址(即网络服务器文件目录)
:return: station
'''
url = 'https://www.gn720.com/file/station_name.js'
#爬取数据,并以txt问本形式返回
response = requests.get(url).text
#用正则表达式匹配出name和referred(站点列表和简称列表)
name = re.findall(r'.*?\|(.*?)\|.*?\|.*?\|.*?\|.*?',response)
referred = re.findall(r'.*?\|.*?\|(.*?)\|.*?\|.*?\|.*?',response)
#用zip打包信息,将信息打包成由元组构成的列表,在转成字典存储到本地文件里
'''
@zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
'''
station = dict(zip(name,referred))
'''
1.以二进制形式打开新的文件,本地有文件就打开,没有就创建一个新的
2.向文件写入获取内容
3.关闭文件流
'''
file = open('station.txt','w',encoding='utf-8')
file.write(str(station))
file.close()
#将文件转存到tomcats服务器中
returnString = shutil.move('C:\\Desktop\\Desktop\\实训\\Demo\\_Python_12306\\station.txt','G:\\tomcat8\\apache-tomcat-8.5.38\\webapps\\_localhostServer_')
#弹窗提示:站点信息爬取完成,并且已经存储在本地
ea.msgbox(msg='----------------12306站点信息已经爬取完成----------------\n\n'
'---------------------成功上传tomcat---------------------\n\n'
'Path:http://127.0.0.1:9999/_localhostServer_/station.txt\n\n\n'
'-----------------稍后可查看关键词、词云图----------------\n\n',title='运行提示!',ok_button='查看关键字检索')
#@return:
return station
这段代码可以直接复制运行,因为不涉及到其他模块、文件的引用,如果你只想存储到本地,或者没有tomcat,记得把转存到服务器部分的代码注释掉~
运行上面代码,在当前文件夹里面应该会出现一个文本文件station.txt
,打开,里面是所有站点名称,以及简称构成的字典key
为站点中文名称,value
为简称,像这样子:
'''
这个station.txt文件的作用:
1.稍后,我们会用这个字典,匹配出我们输入的汉字站点,转成简称,作为请求参数;
2.拿到响应数据,由于站点信息是我们看不懂的英文简称,用其转成中文,再做回显;
'''
步骤五:
下面我们就可以构造链接了,要一下这个请求的响应结果:
可以发现响应结果的形式是这样的:(如下)
步骤六:
构造链接,抓数据
'''
文件名:_get_tickets.py
'''
#以用request模块
import requests
#引用json模块
import json
#取得编码模块
from urllib.parse import urlencode
'''
@headers:request请求的请求头
请求信息:
F12,启动开发者模式,在参数里就可以找到请求头信息
'''
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
'Cookie': 'JSESSIONID=85ABACBDDEC5EF0D3F4390E49C235DCD; BIGipServerotn=569377290.24610.0000; BIGipServerpool_passport=183304714.50215.0000; RAIL_EXPIRATION=1584746738988; RAIL_DEVICEID=c_HPEh5qqB0-onW7FlqB5a2T-w9tiHZ95ePILEBaXLQ3Nj84j7a4PV1ezmRs7O57oEVHFp3JcbAEi_s3qJb_bqey5sGYiQ-RmKrzrZ0wzbndDLKGidKjF1l5UZ4FjwqSTdhbaSx8ds-5RgV-KxQrm0mINenavAb3; route=c5c62a339e7744272a54643b3be5bf64; _jc_save_fromStation=%u5317%u4EAC%2CBJP; _jc_save_fromDate=2020-03-17; _jc_save_toDate=2020-03-17; _jc_save_wfdc_flag=dc; _jc_save_toStation=%u5929%u6D25%2CTJP'
}
'''
@data_dict:key_value:
经过多次的请求测试,发现get参数改变的都是出发地,到达地,出发时间
所以确定字典有三个键值对
即:fromwhere,towhere,startime
'''
def get_tickets(fromwhere,towhere,startime):
#数据字典
data = {
'leftTicketDTO.train_date': startime,
'leftTicketDTO.from_station': fromwhere,
'leftTicketDTO.to_station': towhere,
'purpose_codes': 'ADULT',
}
#构造请求链接:地址 + 参数 (startime,fromwhere,wowhere)
request_url = 'https://kyfw.12306.cn/otn/leftTicket/query?' + urlencode(data)
#利用json.loads()将其他(这里是文本类型)类型的数据转化成Python类型(这里是转成字典)
response = json.loads(requests.get(request_url,headers=headers).text)
#构造结果字典
result = response['data']['result']
#创建新的字典,并且遍历字典,除去列车停运数据
new_list = []
for item in result:
if not '列车停运' in item:
new_list.append(item)
else:
pass
#@return:dict{}
return new_list
别慌!!! 有些小伙伴们看到代码是不是有点懵,我来说一下这里面乱七八糟的东西怎么来的,走着~!
解释1:headers :这个是网络请求的请求头,这里面大致包括'User-Agent'
和'Cookie'
,这东西在这:
User-Agent:
Cookie:
解释2:urlencode()方法
接受参数形式为:[(key1, value1), (key2, value2),...] 和 {'key1': 'value1', 'key2': 'value2',...}
返回的是形如key2=value2&key1=value1
字符串。
解释3:下面字典中键的名字怎么来的
data = {
'leftTicketDTO.train_date': startime,
'leftTicketDTO.from_station': fromwhere,
'leftTicketDTO.to_station': towhere,
'purpose_codes': 'ADULT',
}
把鼠标悬停在这,你就看见了~
步骤七:
这个_get_tickets.py
写完,打印一下返回值:
乍一看有点懵,仔细看,在“预定”
之后其实就是我们想要的东西
所以接下来,我们直接用正则表达式,把我们想要的东西搞下来
'''
文件名:Decrypt.py
'''
#对数据进行解码
#引用re模块 -- 正则表达式
import re
def decrypt(string):
#指定匹配规则
reg = re.compile('.*?\|预订\|.*?\|(.*?)\|(.*?)\|(.*?)\|.*?\|.*?\|(.*?)\|(.*?)\|(.*?)\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|.*?\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|(.*?)\|.*?\|.*?\|.*?\|.*')
'''
正则匹配
[0]:匹配所有数据
'''
result = re.findall(reg,string)[0]
#返回匹配结果
return result
步骤八:
最后一步就是通过main方法,按照一定的逻辑,调用上面的三个函数,或者再加上一下回显修饰
这里其实可以有很多信息,如:各种座位的余票,可不可以预定等;但这里我解码出六项数据,做回显,【车次】,【始发地】,【终点站】,【出发时间】,【到达时间】,【历时】,如果你需要其他的,可以自己加上去。
这里代码简单,不解释啦,直接贴上~
'''
文件名:mian.py
'''
from _get_station import get_station
from _get_tickets import get_tickets
from GUI import inputInfo
from Decrypt import decrypt
from texttable import Texttable
import easygui as g
import sys
import datetime
#获取信息函数
def get_message():
_inputInfo = inputInfo()
fw = _inputInfo[0]
tw = _inputInfo[1]
st = _inputInfo[2]
if st == '':
#如果没有输入时间,则当前日期为默认时间
st = datetime.date.today()
#锁定参数
return fw,tw,st
else:
today = datetime.date.today()
date = str(today).split('-')
list = st.split('-')
if int(list[0]) < int(date[0]) or int(list[0]) > int(date[0]):
exit("输入的年份不在我的查询范围之内")
else:
if int(list[1]) < int(date[1]) or int(list[1]) > int(date[1])+1:
exit("你输入的月份不在我的查询范围之内")
else:
if int(list[2]) < int(date[2]):
exit("你输入的日期不在我的查询范围之内")
else:
if int(list[1]) < 10 and int(list[1][0]) != 0:
list[1] = '0' + list[1]
if int(list[2]) < 10 and int(list[2][0]) != 0:
list[2] = '0' + list[2]
return fw,tw,list[0] + '-' + list[1] + '-' + list[2]
message = get_message()
def run():
#获取站点信息
station_name = get_station()
g.msgbox(msg='request Static : request success.\n\n'
'数据表生成成功',title='运行提示',ok_button='打印数据表')
try:
#result_list = []
fromwhere = station_name[message[0]]
towhere = station_name[message[1]]
startime = message[2]
#get_tickets()获得车票信息列表
tickets = get_tickets(fromwhere,towhere,startime)
print('===============================================================================')
print('carNum'.center(8, '-'), end='')
print('{0:{1}^9}'.format('始发站', chr(12288)), end='')
print('{0:{1}^9}'.format('目的地', chr(12288)), end='')
print('{0:{1}^9}'.format('sTime', chr(12288)), end='')
print('{0:{1}^9}'.format('aTime', chr(12288)), end='')
print('{0:{1}^9}'.format('bTime', chr(12288)))
print('===============================================================================')
for item in tickets:
#利用decrypt()函数解码result(网络请求里的result),解码后生成列表,存储到result中
result = list(decrypt(item))
#遍历站点信息字典,存储到new_dict新字典里
new_dict = {
v: k for k, v in station_name.items()}
# ----------result_test-----------#
#结果:
#list列表:
#['G102', 'AOH', 'VNP', '06:26', '12:29', '06:03', '有', '有', '13']
#print(result)
#-----------new_dict_test----------#
#结果:
#dict字典:
#{'VAP': '北京北', 'BOP': '北京东'...}
#print(new_dict)
'''
将出发地、到达地的简称转换成中文
'''
#result列表准备就绪:
result[1] = new_dict[result[1]]
result[2] = new_dict[result[2]]
rightWidth = 8
print(result[0].center(rightWidth, '-'),end = '')
print('{0:{1}^9}'.format(result[1], chr(12288)),end = '')
print('{0:{1}^9}'.format(result[2], chr(12288)),end = '')
print('{0:{1}^9}'.format(result[3], chr(12288)),end = '')
print('{0:{1}^9}'.format(result[4], chr(12288)),end = '')
print('{0:{1}^9}'.format(result[5], chr(12288)))
print('-------------------------------------------------------------------------------')
except KeyError as k:
print("I can't find the city %s"%k)
if __name__ == '__main__':
run()
按照我的步骤一步一步,肯定是可以运行的,亲测有效
文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib
文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang
文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些
文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器
文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距
文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器
文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn
文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios
文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql
文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...
文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120
文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数