python微信公众号文章爬虫(上)_倚东的博客-程序员秘密_公众号爬虫

技术标签: 爬虫  python  python爬虫  微信  

 微信公众号爬虫关键是获取请求地址。这篇文章是方法之一。

登录自己的公众号后台,微信公众平台,进入图文消息编辑界面,输入超链接,选择公众号文章,

搜索公众号,比如人民日报,然后会弹出最新的文章列表。此时可以找到相应的请求,通过公众号文章翻页,可以找到请求的参数规律。

注意:请求是需要cookies参数,可以拷贝浏览器访问的cookies。代码如下:(cookies中的关键参数已经脱敏成“??????”)

''' the key is to use cookies'''

import requests
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','referer':'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=77&createType=0&token=2101561850&lang=zh_CN'}
cookies={'appmsglist_action_3207019504': 'card', ' pgv_info': 'ssid', ' pgv_pvid': '4778161886', ' RK': '1KphnCSeRK', ' ptcz': '4a3ad775ddc10f3d9f50479110d37c6f7d5c7e8b38ebdb1e90207808173ad942', ' rewardsn': '', ' wxtokenkey': '777', ' _ga': 'GA1.2.1040497363.1629278077', ' o_cookie': '???????', ' pac_uid': '1_???????', ' tvfe_boss_uuid': 'a1a981cb70609f6e', ' vversion_name': '8.2.95', ' user_id': 'null', ' session_id': 'null', 
' ua_id': 'ZpH4w1C3ipVIqGlHAAAAANiI5kknP2NeaIGodK9Opus', ' wxuin': '32385700599949', ' mm_lang': 'zh_CN', ' ptui_loginuin': '???????', ' verifysession': 'h014382c87bb4d29015296cbadb898e8e19aed8e594f786d35bf732285d003ed4c300f3ad957b8e52bf', ' video_omgid': '', ' uin': 'o0???????', ' iip': '0', ' mmad_session': 'db8fbb73a2b0a4c41bc175f34a6ad7d79d7245bbd1ba1a04ed6f116b38c7c8b6c4a209839bd7378c4da98642d25827cce39f657a4b128eb2c6658eb64dad90d50adf1bdf73a0fae947e3047a489efcc4cd503f920e2c7f38ac8e4728189d5c2711de1c56c245721266e7088080fefde3', ' ts_uid': '8844190317', ' sig': 'h01ac912472130166d03e296461b8fba0d24e1a2bbe362cbae1470395802352c863c771017587fdabdb', ' uuid': '5d8752d7b10e69ca60b82d934f101a8c', ' rand_info': 'CAESIK4WkEF7objSg84LpN/56kispUPwx5XIFkZWGhEmjYpM', ' slave_bizuin': '3207019504', ' data_bizuin': '3226019316', ' bizuin': '3207019504', ' data_ticket': 'DaBODpqknEMzImuPqc7tT2ZR07to0GCNXX9WR2+lfcCOvPl/ZUTGnX5wAkd2yzQn', ' slave_sid': 'eFkzZVJOeXg5aHRIdHFuMlcyaUplT2JBbXVQZk5jYzB1aXM0bENQdFZUMmlwQWFvODVvX0V0MEM4cTdjWGN1NmJsYzFaTXI2YnpQZWNQNHluNjV6N1BMT3B1MWNHYU1kUWVPQU5oYTJ1eTJvb2dpU09oNG5rYk5JMGgyRFV0TnlYUFFMTDRabllhc0RLTXlL', ' slave_user': 'gh_90314c99dc76', ' xid': 'cb00dd5d681ce20868e0ffd778c1863f'}
url='https://mp.weixin.qq.com/cgi-bin/appmsg'
for page in range(0,5):
    page=page*5
    #fakeid 为公众号账号,此处为人民日报账号;page实现翻页
    data={'action': 'list_ex', 'begin': page, 'count': '5', 'fakeid': 'MjM5MjAxNDM4MA==', 'type': '9', 'query': '', 'token': '2101561850', 'lang': 'zh_CN', 'f': 'json', 'ajax': '1'}
    res=requests.get(url,headers=headers,params=data,cookies=cookies)
    print(res.status_code)
    app_msg_list=res.json()['app_msg_list']
    # print(app_msg_list)
    for message in app_msg_list:
        link=message['link']
        title=message['title']
        print(title,link)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_45387160/article/details/121295736

智能推荐

[C++算法] - 树形dp套路_Snoopy_Dream的博客-程序员秘密

树形dp套路 树形dp套路使用前提: 如果题目求解目标是S规则,则求解流程可以定成以每一个节点为头节点的子树在S规则下的每一个答案,并且最终答案一定在其中https://www.cnblogs.com/mhpp/p/6628548.html这其中是一些其他的例子,抽空可以看看。目录1. 树形dp套路题目一 :二叉树节点间的最大距离问题题目二 :派对的最大快乐值 ...

Linux那些事儿 之 戏说USB(15)设备_zhqh100的博客-程序员秘密

struct usb_device结构冗长而又杂乱include/linux/usb.hstruct usb_device { int devnum; char devpath[16]; u32 route; enum usb_device_state state; enum usb_device_speed speed; struct usb_tt *tt; i

线性表的链式存储及基本操作_是小崔崔崔崔崔的博客-程序员秘密

线性表的链式存储1、结构体typedef struct LNode{ ElemType data; //节点的数据域 struct LNode *next; //节点的指针域,指针的类型为LNode,即指向节点}LNode, *LinkList; //LNode为结构体的名称2、初始化bool InitList(LinkList &L){ L = (LNode *) malloc(sizeof(LNode)); //申请空间 if(L==NUL

java中Long类型转化为int类型_美好的未来在于把握今天的博客-程序员秘密_long类型转化为int

Java中数据转换很常见,提供两种方法,不推荐强制转化类型,亲测无用!第一种:int returnId=new Long(a).intValue();第二种:int returnId=Integer.parseInt(String.valueOf(a));以上这两种方法是平常经常遇见的!很方便使用!

DCE/MS RPC旁窥_iiprogram的博客-程序员秘密

目录:    ☆ DCE/MS RPC架构简介    ☆ BIND操作简介        1) "BIND Over TCP"简介        2) "BIND Over Transaction"简介        3) "BIND Over Write AndX"简介        4) "BIND Over ..."扩展        5) SMB_COM_TRANSACTION2与SMB_

随便推点

SpringCloudAlibaba_古月日月衣羊的博客-程序员秘密_springcloudalibaba

文章目录SpringCloudAlibaba一、微服务介绍1.1 系统架构演变1.1.1 单体应用架构1.1.2 垂直应用架构1.1.3 分布式架构1.1.4 SOA架构1.1.5 微服务架构1.2 微服务架构介绍1.2.1 微服务架构的常见问题1.2.2 微服务架构的常见概念1.2.2.1 服务治理SpringCloudAlibaba一、微服务介绍1.1 系统架构演变 随着互联网的发展,网站应用的规模也在不断的扩大,进而导致系统架构也在不断的进行变化。

signature=a24d396d1918ff066e8922b1ceea9cb0,A Digital Signature Scheme on ID-Based Key-Sharing Infras..._乖巧是我姓名的博客-程序员秘密

摘要:ID-based key sharing scheme is one of the important topics in Key management, and the Key Predistribution System (KPS) is one of the major divisions of such key sharing schemes. In KPS, in order to...

账龄新说_番茄风控的博客-程序员秘密

vintage虽然是老生常谈的话题。但是今天所用的数据、图表、内容都跟以往不一样,而且是由从事车贷拥有丰富行业经验同学的分享,值得研究。

设有一线性表(a1, a2,…,an-1)用单链表存储,写算法实现将其就地逆置的操作。(“就地”是指辅助空间应为O(1))_编程=头发+代码的博客-程序员秘密

设有一线性表(a1, a2,…,an-1)用单链表存储,写算法实现将其就地逆置的操作。(“就地”是指辅助空间应为O(1))将头指针赋给指针变量 q=L;将头指针下一个变量赋给另一个指针变量 p=L->next;开始单链表头插法过程 p->next=q->next; q->next=p; p=k->next;void Reverser(LinkList *L){LinkList *p,*q;p=L->next; q=L; L->next=null

2022新前端面试题(中高级)_前端技术栈的博客-程序员秘密_中高级前端面试题

前言关于前端面试,及面试题目,我之前有很多文章总结过,可以在右侧搜索面试,进行查找。其实面试中可以问的问题很多,最近几年,我也面试过很多工作2-4年的前端,我一般会抓住他们做的项目,进行更详细的追问。所以,初中级前端面试的时候,除了掌握基础知识之外,项目中用到的技术要理清楚,假如你项目中用到的技术,问的时候却一问三不知,那么,基本上就会pass掉了。针对比较资深或者高级的前端面试,可能和初中级面试会有些不一样,当然,针对资深的前端,可能聊得东西更深,更广一些!这篇文章简单聊聊针对中高级前端我们要聊的话题。

序列化理解_ailuyi的博客-程序员秘密

Java序列化Java提供了一种对象序列化的机制,在该机制中,一个对象可以被表示为一个字节序列,该字节序列包含对象的数据、有关对象的类的信息和存储在对象中数据的类型。将序列化对象写入文件后,可以从文件中读取出来,对且对其进行反序列化,就是说对象的类型信息、对象的数据和对象中的数据类型都可以用来在内存中新建对象。整个过程都是在JAVA虚拟机(JVM)独立的,也就是说,在一个平台上序列化的对象可以在另一个完全不同的平台上反序列化该对象,因为JAVA虚拟机是跨平台的。类ObjectIn..

推荐文章

热门文章

相关标签