在做页面自动化(以使用selenium为例)的时候,很常见的一个场景就是输入密码。往往对于输入框都使用webelement的sendkeys(charsequence... keystosend)的方法。
java代码
1./**
use this method to simulate typing into an element, which may set its value.
*/
void sendkeys(charsequence... keystosend);
一般情况下这个方法是可以胜任的,但是现在很多网站为了安全性的考虑都会对密码输入框做特殊的处理,而且不同的浏览器也不同。例如支付宝。
支付宝输入密码控件在chrome浏览器下
支付宝输入密码控件在firefox浏览器下
支付宝输入密码控件在ie(ie8)浏览器下
可见在不同的浏览器下是有差异的。那么现在存在两个问题。首先,selenium的sendkeys方法无法操作这样特殊的控件;其次,不同浏览器又存在差异,搞定了chrome,在ie下又不能用,这样又要解决浏览器兼容性问题。
如何解决这两个问题呢?
我们可以发现平时人工使用键盘输入密码的时候是没有这些问题的,那么我们是否可以模拟人工操作时的键盘输入方式呢?答案是肯定的,使用操作系统的api,模拟键盘发送消息事件给操作系统,可以避免所有浏览器等差异和安全性带来的问题。
系统api映射关系在jna的文章中有描述,如下:
本文中以windows为例演示下如何在支付宝的密码安全控件中输入密码。
jna中关于windows平台的是com.sun.jna.platform.win32包中user32这个接口。这里映射了很多windows系统api可以使用。但是我们需要用到的sendmessage却没有。所以需要新建一个接口,映射sendmessage函数。代码如下:
1.import com.sun.jna.native;
2.import com.sun.jna.platform.win32.user32;
3.import com.sun.jna.win32.w32apioptions;
5.public interface user32ext extends user32 {
user32ext user32ext = (user32ext) native.loadlibrary("user32", user32ext.class, w32apioptions.default_options);
/**
查找窗口
@param lpparent 需要查找窗口的父窗口
@param lpchild 需要查找窗口的子窗口
@param lpclassname 类名
@param lpwindowname 窗口名
@return 找到的窗口的句柄
hwnd findwindowex(hwnd lpparent, hwnd lpchild, string lpclassname, string lpwindowname);
获取桌面窗口,可以理解为所有窗口的root
@return 获取的窗口的句柄
hwnd getdesktopwindow();
发送事件消息
@param hwnd 控件的句柄
@param dwflags 事件类型
@param bvk 虚拟按键码
@param dwextrainfo 扩展信息,传0即可
@return
int sendmessage(hwnd hwnd, int dwflags, byte bvk, int dwextrainfo);
@param msg 事件类型
@param wparam 传0即可
@param lparam 需要发送的消息,如果是点击操作传null
int sendmessage(hwnd hwnd, int msg, int wparam, string lparam);
发送键盘事件
@param bscan 传 ((byte)0) 即可
@param dwflags 键盘事件类型
@param dwextrainfo 传0即可
void keybd_event(byte bvk, byte bscan, int dwflags, int dwextrainfo);
激活指定窗口(将鼠标焦点定位于指定窗口)
@param hwnd 需激活的窗口的句柄
@param falttab 是否将最小化窗口还原
void switchtothiswindow(hwnd hwnd, boolean falttab);
61.}
系统api映射好以后,利用这个接口写了如下的工具类,包含点击和输入各种操作。代码如下:
1.import java.util.concurrent.callable;
2.import java.util.concurrent.executorservice;
3.import java.util.concurrent.executors;
4.import java.util.concurrent.future;
5.import java.util.concurrent.timeunit;
7.import com.sun.jna.native;
8.import com.sun.jna.pointer;
9.import com.sun.jna.platform.win32.windef.hwnd;
10.import com.sun.jna.platform.win32.winuser.wndenumproc;
12./**
window组件操作工具类
@author sunju
18.public class win32util {
private static final int n_max_count = 512;
private win32util() {
}
从桌面开始查找指定类名的组件,在超时的时间范围内,如果未找到任何匹配的组件则反复查找
@param classname 组件的类名
@param timeout 超时时间
@param unit 超时时间的单位
@return 返回匹配的组件的句柄,如果匹配的组件大于一个,返回第一个查找的到的;如果未找到或超时则返回<code>null</code>
public static hwnd findhandlebyclassname(string classname, long timeout, timeunit unit) {
return findhandlebyclassname(user32ext.getdesktopwindow(), classname, timeout, unit);
从桌面开始查找指定类名的组件
@return 返回匹配的组件的句柄,如果匹配的组件大于一个,返回第一个查找的到的;如果未找到任何匹配则返回<code>null</code>
public static hwnd findhandlebyclassname(string classname) {
return findhandlebyclassname(user32ext.getdesktopwindow(), classname);
从指定位置开始查找指定类名的组件
@param root 查找组件的起始位置的组件的句柄,如果为<code>null</code>则从桌面开始查找
public static hwnd findhandlebyclassname(hwnd root, string classname, long timeout, timeunit unit) {
if(null == classname || classname.length() <= 0) {
return null;
long start = system.currenttimemillis();
hwnd hwnd = findhandlebyclassname(root, classname);
while(null == hwnd && (system.currenttimemillis() - start < unit.tomillis(timeout))) {
hwnd = findhandlebyclassname(root, classname);
return hwnd;
public static hwnd findhandlebyclassname(hwnd root, string classname) {
hwnd[] result = new hwnd[1];
findhandle(result, root, classname);
return result[0];
private static boolean findhandle(final hwnd[] target, hwnd root, final string classname) {
if(null == root) {
root = user32ext.getdesktopwindow();
return user32ext.enumchildwindows(root, new wndenumproc() {
@override
public boolean callback(hwnd hwnd, pointer pointer) {
char[] winclass = new char[n_max_count];
user32ext.getclassname(hwnd, winclass, n_max_count);
if(user32ext.iswindowvisible(hwnd) && classname.equals(native.tostring(winclass))) {
target[0] = hwnd;
return false;
} else {
return target[0] == null || findhandle(target, hwnd, classname);
}, pointer.null);
模拟键盘按键事件,异步事件。使用win32 keybd_event,每次发送keyeventf_keydown、keyeventf_keyup两个事件。默认10秒超时
@param hwnd 被键盘操作的组件句柄
二维数组第一维中的一个元素为一次按键操作,包含组合操作,第二维中的一个元素为一个按键事件,即一个虚拟按键码
@return 键盘按键事件放入windows消息队列成功返回<code>true</code>,键盘按键事件放入windows消息队列失败或超时返回<code>false</code>
public static boolean simulatekeyboardevent(hwnd hwnd, int[][] keycombination) {
if(null == hwnd) {
user32ext.switchtothiswindow(hwnd, true);
user32ext.setfocus(hwnd);
for(int[] keys : keycombination) {
for(int i = 0; i < keys.length; i++) {
user32ext.keybd_event((byte) keys[i], (byte) 0, keyeventf_keydown, 0); // key down
for(int i = keys.length - 1; i >= 0; i--) {
user32ext.keybd_event((byte) keys[i], (byte) 0, keyeventf_keyup, 0); // key up
return true;
模拟字符输入,同步事件。使用win32 sendmessage api发送wm_char事件。默认10秒超时
@param hwnd 被输入字符的组件的句柄
@param content 输入的内容。字符串会被转换成<code>char[]</code>后逐个字符输入
@return 字符输入事件发送成功返回<code>true</code>,字符输入事件发送失败或超时返回<code>false</code>
public static boolean simulatecharinput(final hwnd hwnd, final string content) {
try {
return execute(new callable() {
public boolean call() throws exception {
for(char c : content.tochararray()) {
thread.sleep(5);
user32ext.sendmessage(hwnd, wm_char, (byte) c, 0);
});
} catch(exception e) {
public static boolean simulatecharinput(final hwnd hwnd, final string content, final long sleepmillisprecharinput) {
thread.sleep(sleepmillisprecharinput);
模拟文本输入,同步事件。使用win32 sendmessage api发送wm_settext事件。默认10秒超时
@param hwnd 被输入文本的组件的句柄
@param content 输入的文本内容
@return 文本输入事件发送成功返回<code>true</code>,文本输入事件发送失败或超时返回<code>false</code>
public static boolean simulatetextinput(final hwnd hwnd, final string content) {
user32ext.sendmessage(hwnd, wm_settext, 0, content);
模拟鼠标点击,同步事件。使用win32 sendmessage api发送bm_click事件。默认10秒超时
@param hwnd 被点击的组件的句柄
@return 点击事件发送成功返回<code>true</code>,点击事件发送失败或超时返回<code>false</code>
public static boolean simulateclick(final hwnd hwnd) {
user32ext.sendmessage(hwnd, bm_click, 0, null);
private static t execute(callable callable) throws exception {
executorservice executor = executors.newsinglethreadexecutor();
future task = executor.submit(callable);
return task.get(10, timeunit.seconds);
} finally {
executor.shutdown();
240.}
其中用到的各种事件类型定义如下:
1.public class win32messageconstants {
public static final int wm_settext = 0x000c; //输入文本
public static final int wm_char = 0x0102; //输入字符
public static final int bm_click = 0xf5; //点击事件,即按下和抬起两个动作
public static final int keyeventf_keyup = 0x0002; //键盘按键抬起
public static final int keyeventf_keydown = 0x0; //键盘按键按下
13.}
下面写一段测试代码来测试支付宝密码安全控件的输入,测试代码如下:
1.import java.util.concurrent.timeunit;
3.import static org.hamcrest.core.is.is;
4.import static org.junit.assert.assertthat;
6.import static org.hamcrest.core.isnull.notnullvalue;
7.import org.junit.test;
9.import com.sun.jna.platform.win32.windef;
10.import com.sun.jna.platform.win32.windef.hwnd;
12.public class alipaypasswordinputtest {
@test
public void testalipaypasswordinput() {
string password = "your password";
hwnd alipayedit = findhandle("chrome_renderwidgethosthwnd", "edit"); //chrome浏览器,使用spy++可以抓取句柄的参数
assertthat("获取支付宝密码控件失败。", alipayedit, notnullvalue());
boolean issuccess = win32util.simulatecharinput(alipayedit, password);
assertthat("输入支付宝密码["+ password +"]失败。", issuccess, is(true));
private windef.hwnd findhandle(string browserclassname, string alieditclassname) {
windef.hwnd browser = win32util.findhandlebyclassname(browserclassname, 10, timeunit.seconds);
return win32util.findhandlebyclassname(browser, alieditclassname, 10, timeunit.seconds);
27.}
测试一下,看看是不是输入成功了!
最后说下这个方法的缺陷,任何方法都有不可避免的存在一些问题,完美的事情很少。
1、sendmessage和postmessage有很多重载的函数,不是每种都有效,从上面的win32util中就能看出,实现了很多个方法,需要尝试下,成本略高;
2、输入时需要注意频率,输入太快可能导致浏览器中安全控件崩溃,支付宝的安全控件在firefox下输入太快就会崩溃;
3、因为是系统api,所以mac、unix、windows下都不同,如果只是在windows环境下运行,可以忽略;
4、从测试代码可以看到,是针对chrome浏览器的,因为每种浏览器的窗口句柄不同,所以要区分,不过这个相对简单,只是名称不同;
5、如果你使用selenium的remotedriver,并且是在远程机器上运行脚本,这个方法会失效。因为remotedriver最终是http操作,对操作系统api的操作是客户端行为,不能被翻译成http command,所以会失效。