Java正则表达式 url和email并进行分割

2023-05-21 05:22:40

首先说明，本人研一新生，编程开发经历较少，如有不对，还望各位大神多多指教！

最近在做关于英文PDF翻译为中文PDF的项目。其中，机器翻译接口不能识别url和Email，需要本地将URL和Email进行提取，之后将内容分割，把非URL和Email送入机器翻译的接口中。

在识别URL和Email上，我选择的是正则表达式，其中匹配的URL和Email如下：

识别Email ：(-|(\\w)|(\\.))[email protected][a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+

识别URL：(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]

具体实例代码如下：

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public boolean url(String url){

Pattern pattern = Pattern.compile("^(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]$");

Matcher matcher = pattern.matcher(url);

if(matcher.find()){

return true;

}

else {

return false;

}

其中\w是匹配[a-zA-Z0-9_]，即英文大小写，数字，和下划线

补充：.匹配除\n以外的任意字符

\s匹配包括\n在内的任意字符

好了，介绍完基础部分，想说一说关于对URL和Email的提取分割，即：

输入：This is my email [email protected],and if you have something wrong ,please connect me in time.And It's very useful website http://www.csdn.net.

输出：This is my email

[email protected]

,and if you have something wrong ,please connect me in time.And It's very useful website

http://www.csdn.net.

想要实现以上，首先得清楚Matcher中的group

matcher.group(int index) , index表示第几个括号，默认值为0，即整个句子内容，1代表第一个括号，matcher.start(int index)和matcher.end(int index)分别表示第index括号内第一个字符的位置，和最后一个字符的位置。

以email为中间，进行分割的代码如下：

public List<String> regexEmail(String email){

List<String> groups = new ArrayList<String>();

Pattern pattern = Pattern.compile("^(.*)( (-|(\\w)|(\\.))[email protected][a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+)(.*)$");

Matcher matcher = pattern.matcher(email);

if(matcher.find()){

int start = matcher.start(2);

int end = matcher.end(2);

groups.add(email.substring(0 , start));

groups.add(email.substring(start, end));

groups.add(email.substring(end , email.length()));

}

return groups;

}

这样，根据递归我们就可以对任意字符串进行url和email的分割，代码如下：

public void regex(String text){

List<String> temp = new ArrayList<>();

//啥都没有

if(regexEmail(text).size() == 0 && regexURL(text).size() == 0){

ans.add(text);

}

//只有email

else if (regexEmail(text).size() > 0 && regexURL(text).size() == 0) {

temp = regexEmail(text);

ans.add(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

//只有url

else if (regexEmail(text).size() == 0 && regexURL(text).size() > 0){

temp = regexURL(text);

ans.add(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

//email和url都有

else {

temp = regexEmail(text);

regex(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

Java正则表达式 url和email并进行分割

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method