技术标签: 网络爬虫 爬虫 python selenium Python相关 开发语言
Selenium 是一个用于自动化 web 浏览器的工具,它提供了一套用于测试 web 应用程序的工具和库。Selenium 最初是用于测试 web 应用程序的,但它也被广泛用于进行网络数据采集、自动化任务和网页操作等。
Selenium 支持多种编程语言,包括 Python、Java、JavaScript、C# 等,但最为常用的是使用 Python 进行 Selenium 测试和自动化。使用 Selenium,您可以编写代码来模拟用户在 web 浏览器中的操作,例如打开网页、填写表单、点击按钮、提取网页内容等。
Selenium 提供了多个工具和库,其中最常用的是 Selenium WebDriver,它允许您控制各种不同的 web 浏览器,如 Chrome、Firefox、Edge 等。通过 Selenium WebDriver,您可以编写代码来与浏览器进行交互,模拟用户在浏览器中的行为,并对 web 应用程序进行测试、数据采集和自动化任务。
(1)linux 安装 Chrome 方法:
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
# 如果这一步报错,直接执行下一步
sudo dpkg -i ./google-chrome*.deb
sudo apt-get install -f
判断是否安装成功
google-chrome --version
(2)Windows 和 Mac,安装Chrome 浏览器即可
ChromeDriver 的下载方式参考这里,注意 ChromeDriver 和 Chrome 内核的版本匹配即可。
pip install selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
WEB_DRIVER_PATH = "/xxx/xx/chromedriver"
chrome_options = Options()
driver = webdriver.Chrome(service=Service(WEB_DRIVER_PATH), options=chrome_options)
以下是启动一些常见应用场景的 ChromeOptions 配置示例:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
# 创建ChromeOptions实例
chrome_options = Options()
# 1. 隐身模式启动
chrome_options.add_argument("--incognito")
# 2. 大窗口启动
chrome_options.add_argument("--start-maximized")
# 3. 禁用GPU渲染
chrome_options.add_argument('--disable-gpu')
# 4. 添加浏览器启动参数,例如禁用安全警告
chrome_options.add_argument('--unsafely-treat-insecure-origin-as-secure="http://example.com"')
chrome_options.add_argument('--ignore-certificate-errors')
# 5. 添加扩展程序
# 注意:extension_path应指向本地的.crx扩展程序文件
extension_path = '/path/to/your/extension.crx'
chrome_options.add_extension(extension_path)
# 6. 更改下载目录
prefs = {
"download.default_directory": "/path/to/download/folder",
"download.prompt_for_download": False,
"plugins.always_open_pdf_externally": True # 例如,总是外部打开PDF文件
}
chrome_options.add_experimental_option("prefs", prefs)
# 7. 启动无头模式(无界面运行)
chrome_options.add_argument('--headless')
# 创建Chrome浏览器实例,使用上述配置
driver = webdriver.Chrome(options=chrome_options)
# 执行网页导航或者其他操作...
driver.get('http://example.com')
# 使用完毕后关闭浏览器
driver.quit()
(1)用 id 查找
from selenium.webdriver.common.by import By
try:
ele = driver.find_element(By.ID, "id name")
except Exception as e:
pass
(2)用 class 查找
from selenium.webdriver.common.by import By
try:
# 查找第一个class名字匹配的元素
ele = driver.find_element(By.CLASS_NAME, "class name") # 替换 "class_name" 为实际Class名
# 查找所有class名字匹配的元素
eles = driver.find_elements(By.CLASS_NAME, "class name")
except Exception as e:
pass
(3)用 css 查找
from selenium.webdriver.common.by import By
try:
# 通过CSS选择器定位单个元素
element = driver.find_element(By.CSS_SELECTOR, "#element_id" or ".class_name" or "tag_name[attr=value]"...) # 使用实际的CSS选择器
# 通过CSS选择器定位一组元素
elements = driver.find_elements(By.CSS_SELECTOR, "your_css_selector")
except Exception as e:
pass
(4)查找其他元素
from selenium.webdriver.common.by import By
try:
# 查找所有div标签
ele = driver.find_elements(By.TAG_NAME, "div")
# 查找第一个a标签
ele = driver.find_element(By.TAG_NAME, "a")
# 查找第一个span标签
ele = driver.find_element(By.TAG_NAME, "span")
except Exception as e:
pass
有时页面加载需要等待一定时间,如果显式的 sleep,不够灵活,可以借助selenium 的 WebDriverWait。
WebDriverWait 是 Selenium WebDriver 中用于实现隐式等待和显式等待的一种机制,它能够根据提供的条件等待元素变为可用或满足特定条件。显式等待允许你在执行下一步操作之前强制等待某个条件成立,这样可以避免因为页面元素加载不完全而导致的找不到元素或操作元素失败的问题。
使用 WebDriverWait 的基本步骤如下:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 初始化WebDriver对象,这里以Chrome为例
driver = webdriver.Chrome()
# 访问某个URL
driver.get("http://www.example.com")
# 创建WebDriverWait对象,通常需要传入WebDriver实例和超时时长
wait = WebDriverWait(driver, 10) # 这里的10表示最长等待10秒
# 使用WebDriverWait等待某个条件满足
# 例如,等待页面上某个id为'element_id'的元素可见
element = wait.until(EC.presence_of_element_located((By.ID, 'element_id')))
# 此时,element变量已经被赋值为找到的元素,可以对其进行后续操作
element.click()
# 或者等待页面标题包含特定文字
wait.until(EC.title_contains("Example"))
# 最后,关闭浏览器
driver.quit()
expected_conditions
模块提供了多种内置条件:
presence_of_element_located((By.ID, 'element_id'))
:等待元素存在visibility_of_element_located((By.ID, 'element_id'))
:等待元素可见element_to_be_clickable((By.ID, 'element_id'))
:等待元素可见且可点击title_is("Page Title")
:等待页面标题为特定值title_contains("Partial Title")
:等待页面标题包含特定部分通过这种方式,WebDriverWait 可以帮助我们在执行自动化脚本时更加稳定可靠,确保在进行操作之前目标元素已经准备好。
文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态
文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境
文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn
文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker
文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机
文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk
文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入
文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。 Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。
文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动
文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计
文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图
文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法