当网页加密或js太多,或加载复杂时,用selenium+pdfkit+wkhtmltopdf保存pdf的方法
from selenium import webdriver
import pdfkit
import time
driver = webdriver.Chrome() # 设置引擎为Chrome,真实地打开一个Chrome浏览器
#————————————打开浏览器并获取所有网页代码—————————————
driver.get('https://www.kancloud.cn/rhinostudio/ghuse100/1665412') # 访问页面
time.sleep(2) # 暂停两秒,等待浏览器缓冲
pageSource = driver.page_source # 获取完整渲染的网页源代码
#——————————————————保存为pdf——————————————————
exe=pdfkit.configuration(wkhtmltopdf=r'D:\ProgramData\Anaconda3\wkhtmltopdf\bin\wkhtmltopdf.exe') #指定wkhtmltopdf.exe的路径
path=r'C:\Users\kw196515\Desktop\grasshopper100个电池讲解'+'\\' #文件夹路径
name=path+'1'+'.pdf' #文件保存路径名称
pdfkit.from_string(pageSource,output_path=name,configuration=exe) #字符串保存为pdf的操作
|