本文主要是介绍Java+Selenium3方法篇18-获取当前页的源码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本篇介绍webdriver中获取当前页面的源码,driver.getPageSource()的功能就类似,你打开一个网页,然后右键,选择查看源码一样效果。这个获取网页的源码,在网络爬虫中百分百是需要用到的。先来了解下,我们通过获取百度新闻首页的源码,打印到eclipse,看看效果。
相关脚本代码如下:
package lessons;import java.util.concurrent.TimeUnit;import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;public class ElementOpration {public static void main(String[] args) throws Exception { System.setProperty("webdriver.chrome.driver", ".\\Tools\\chromedriver.exe"); WebDriver driver = new ChromeDriver(); driver.manage().window().maximize(); driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);driver.get("https://www.baidu.com"); Thread.sleep(1000);WebElement news_link = driver.findElement(By.linkText("新闻"));news_link.click();Thread.sleep(1000);// 打印当前页面的源码System.out.println(driver.getPageSource());}
}
获取当前页源码就介绍到这里,至于如何拿到源码,如何去查找我们需要的信息,这里就不介绍。因为需要一点前端知识,和正则匹配的内容。
这篇关于Java+Selenium3方法篇18-获取当前页的源码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!