天天看点

DOM4J介绍与代码示例

DOM4J是dom4j.org出品的一个开源XML解析包。Dom4j是一个易用的、开源的库,用于XML,XPath和XSLT。它应用于Java平台,采用了Java集合框架并完全支持DOM,SAX和JAXP。

DOM4J下载jar包:http://downloads.sourceforge.net/dom4j/dom4j-1.6.1.jar

JAXEN(对XPath的支持):http://dist.codehaus.org/jaxen/distributions/jaxen-1.1.1.zip

<b>1.DOM4J</b><b>主要接口</b><b></b>

DOM4J主要接口都在org.dom4j这个包里定义。

-Node为所有的dom4j中XML节点定义了多态行为;

-Branch为能够包含子节点的节点如XML元素(Element)和文档(Docuemnts)定义了一个公共的行为;

|-Element 定义XML 元素;

|-Document定义了XML文档;

-DocumentType 定义XML DOCTYPE声明;

-Entity定义 XML entity;

-Attribute定义了XML的属性;

-ProcessingInstruction 定义 XML 处理指令;

-CharacterData是一个标识借口,标识基于字符的节点。如CDATA,Comment, Text;

|- CDATA 定义了XML CDATA 区域;

|-Text 定义XML 文本节点;

|- Comment 定义了XML注释的行为;

<b>2.</b><b>创建</b><b>XML</b><b>文档</b><b></b>

示例xml:students.xml

&lt;?xml version="1.0" encoding="UTF-8"?&gt;

&lt;?xml-stylesheet type="text/xsl" href="students.xsl"?&gt;

&lt;students&gt;

    &lt;!--A Student Catalog--&gt;

    &lt;student sn="01"&gt;

       &lt;name&gt;sam&lt;/name&gt;

       &lt;age&gt;18&lt;/age&gt;

    &lt;/student&gt;

    &lt;student sn="02"&gt;

       &lt;name&gt;lin&lt;/name&gt;

       &lt;age&gt;20&lt;/age&gt;

&lt;/students&gt;

下面是用dom4j创建上述文档,通过两种方式创建,一种是调用dom4j提供的方法,一种是通过字符串转换。

XmlGen.java

<b>import</b> java.io.File;

<b>import</b> java.io.FileWriter;

<b>import</b> java.io.IOException;

<b>import</b> java.util.HashMap;

<b>import</b> java.util.Map;

<b>import</b> org.dom4j.Document;

<b>import</b> org.dom4j.DocumentException;

<b>import</b> org.dom4j.DocumentHelper;

<b>import</b> org.dom4j.Element;

<b>import</b> org.dom4j.io.XMLWriter;

<b>public</b> <b>class</b> XmlGen {

    <b>public</b> Document generateDocumentByMethod() {

       Document document = DocumentHelper.createDocument();

       // ProcessingInstruction

       Map&lt;String, String&gt; inMap = <b>new</b> HashMap&lt;String, String&gt;();

       inMap.put("type", "text/xsl");

       inMap.put("href", "students.xsl");

       document.addProcessingInstruction("xml-stylesheet", inMap);

       // root element

       Element studentsElement = document.addElement("students");

       studentsElement.addComment("An Student Catalog");

       // son element

       Element stuElement = studentsElement.addElement("student");

       stuElement.addAttribute("sn", "01");

       Element nameElement = stuElement.addElement("name");

       nameElement.setText("sam");

       Element ageElement = stuElement.addElement("age");

       ageElement.setText("18");

       Element anotherStuElement = studentsElement.addElement("student");

       anotherStuElement.addAttribute("sn", "02");

       Element anotherNameElement = anotherStuElement.addElement("name");

       anotherNameElement.setText("lin");

       Element anotherAgeElement = anotherStuElement.addElement("age");

       anotherAgeElement.setText("20");

       <b>return</b> document;

    }

    <b>public</b> Document generateDocumentByString() {

       String text = "&lt;?xml version=\"1.0\" encoding=\"UTF-8\"?&gt;" +

              "&lt;?xml-stylesheet type=\"text/xsl\" href=\"students.xsl\"?&gt;" +

              "&lt;students&gt;&lt;!--An Student Catalog--&gt;   &lt;student sn=\"01\"&gt;" +

              "&lt;name&gt;sam&lt;/name&gt;&lt;age&gt;18&lt;/age&gt;&lt;/student&gt;&lt;student sn=\"02\"&gt;" +

              "&lt;name&gt;lin&lt;/name&gt;&lt;age&gt;20&lt;/age&gt;&lt;/student&gt;&lt;/students&gt;";

       Document document = <b>null</b>;

       <b>try</b> {

           document = DocumentHelper.parseText(text);

       } <b>catch</b> (DocumentException e) {

           e.printStackTrace();

       }

    <b>public</b> <b>void</b> saveDocument(Document document, File outputXml) {

           // 美化格式

           OutputFormat format = OutputFormat.createPrettyPrint();

           /*// 缩减格式

           OutputFormat format = OutputFormat.createCompactFormat();*/

           /*// 指定XML编码

            format.setEncoding("GBK");*/

           XMLWriter output = <b>new</b> XMLWriter(<b>new</b> FileWriter(outputXml), format);

           output.write(document);

           output.close();

       } <b>catch</b> (IOException e) {

           System.out.println(e.getMessage());

    <b>public</b> <b>static</b> <b>void</b> main(String[] argv) {

       XmlGen dom4j = <b>new</b> XmlGen();

       // document=dom4j.generateDocumentByMethod();

       document = dom4j.generateDocumentByString();

       dom4j.saveDocument(document, <b>new</b> File("output.xml"));

}

方法generateDocumentByMethod()通过调用方法构建xml文档:

1.使用DocumentHelper得到Document实例

Document document = DocumentHelper.createDocument();

2.创建Processing Instruction

document.addProcessingInstruction("xml-stylesheet", inMap);

3.创建元素Element

Element studentsElement = document.addElement("students");

4.为元素添加注释Comment

studentsElement.addComment("An Student Catalog");

5.为元素添加属性

6.为元素添加文本值Text

ageElement.setText("18");

方法generateDocumentByString()通过字符串转换直接构建xml文档,使用DocumentHelper.parseText()来实现.

document = DocumentHelper.parseText(text);

方法saveDocument(Document document, File outputXml)将文档输出到文件保存,可指定字符编码,可指定格式化输出。

<b>3.</b><b>修改</b><b>XML</b><b>文档</b><b></b>

这里使用xpath来定位待修改的元素和属性,需要jaxen的支持。

示例中将students-gen.xml的第一个student元素的sn属性改为001,其子元素name内容改为jeff。

XmlMod.java

<b>import</b> java.util.Iterator;

<b>import</b> java.util.List;

<b>import</b> org.dom4j.Attribute;

<b>import</b> org.dom4j.io.SAXReader;

<b>public</b> <b>class</b> XmlMod {

    <b>public</b> <b>void</b> modifyDocument(File inputXml) {

           SAXReader saxReader = <b>new</b> SAXReader();

           Document document = saxReader.read(inputXml);

           List list = document.selectNodes("//students/student/@sn");

           Iterator iter = list.iterator();

           <b>while</b> (iter.hasNext()) {

              Attribute attribute = (Attribute) iter.next();

              <b>if</b> (attribute.getValue().equals("01"))

                  attribute.setValue("001");

           }

           list = document.selectNodes("//students/student");

           iter = list.iterator();

              Element element = (Element) iter.next();

              Iterator iterator = element.elementIterator("name");

              <b>while</b> (iterator.hasNext()) {

                  Element nameElement = (Element) iterator.next();

                  <b>if</b> (nameElement.getText().equals("sam"))

                     nameElement.setText("jeff");

              }

           XMLWriter output = <b>new</b> XMLWriter(<b>new</b> FileWriter(<b>new</b> File(

                  "students-modified.xml")));

       <b>catch</b> (DocumentException e) {

       XmlMod dom4jParser = <b>new</b> XmlMod();

       dom4jParser.modifyDocument(<b>new</b> File("students-gen.xml"));

1.使用File定位文件资源,并基于此获得Document实例

SAXReader saxReader = <b>new</b> SAXReader();

Document document = saxReader.read(inputXml);

2.Document实例的selectNodes方法可以传入xpath,并返回一个List实例,基于此使用迭代器,完成特定的应用

List list = document.selectNodes("//students/student/@sn");

<b>4.</b><b>遍历</b><b>XML</b><b>文档</b><b></b>

这里提供两种遍历方法,一种是基于迭代的遍历,一种是基于Visitor模式的遍历。

XmlTra.java

<b>import</b> org.dom4j.ProcessingInstruction;

<b>import</b> org.dom4j.VisitorSupport;

<b>public</b> <b>class</b> XmlTra {

    <b>private</b> File inputXml;

    <b>public</b> XmlTra(File inputXml) {

       <b>this</b>.inputXml = inputXml;

    <b>public</b> Document getDocument() {

       SAXReader saxReader = <b>new</b> SAXReader();

           document = saxReader.read(inputXml);

    <b>public</b> Element getRootElement() {

       <b>return</b> getDocument().getRootElement();

    <b>public</b> <b>void</b> traversalDocumentByIterator() {

       Element root = getRootElement();

       // 枚举根节点下所有子节点

       <b>for</b> (Iterator ie = root.elementIterator(); ie.hasNext();) {

           System.out.println("======");

           Element element = (Element) ie.next();

           System.out.println(element.getName());

           // 枚举属性

           <b>for</b> (Iterator ia = element.attributeIterator(); ia.hasNext();) {

              Attribute attribute = (Attribute) ia.next();

              System.out.println(attribute.getName() + ":"

                     + attribute.getData());

           // 枚举当前节点下所有子节点

           <b>for</b> (Iterator ieson = element.elementIterator(); ieson.hasNext();) {

              Element elementSon = (Element) ieson.next();

              System.out.println(elementSon.getName() + ":"

                     + elementSon.getText());

    <b>public</b> <b>void</b> traversalDocumentByVisitor() {

       getDocument().accept(<b>new</b> MyVisitor());

    /**

     * 定义自己的访问者类

     */

    <b>private</b> <b>static</b> <b>class</b> MyVisitor <b>extends</b> VisitorSupport {

       /**

        * 对于属性节点,打印属性的名字和值

        */

       <b>public</b> <b>void</b> visit(Attribute node) {

           System.out.println("attribute : " + node.getName() + " = "

                  + node.getValue());

        * 对于处理指令节点,打印处理指令目标和数据

       <b>public</b> <b>void</b> visit(ProcessingInstruction node) {

           System.out.println("PI : " + node.getTarget() + " "

                  + node.getText());

        * 对于元素节点,判断是否只包含文本内容,如是,则打印标记的名字和 元素的内容。如果不是,则只打印标记的名字

       <b>public</b> <b>void</b> visit(Element node) {

           <b>if</b> (node.isTextOnly())

              System.out.println("element : " + node.getName() + " = "

                     + node.getText());

           <b>else</b>

              System.out.println("--------" + node.getName() + "--------");

       XmlTra dom4jParser = <b>new</b> XmlTra(<b>new</b> File("students-gen.xml"));

       // dom4jParser.traversalDocumentByIterator();

       dom4jParser.traversalDocumentByVisitor();

方法traversalDocumentByIterator()提供一种基于迭代的遍历实现,每个Element通过elementIterator()和attributeIterator()取代其子元素和属性的迭代器。

Visitor是GOF设计模式之一。其主要原理就是两种类互相保有对方的引用,并且一种作为Visitor去访问许多Visitable。DOM4J中的Visitor模式只需要自定一个类实现Visitor接口即可。

<b>public</b> <b>class</b> MyVisitor <b>extends</b> VisitorSupport {

    <b>public</b> <b>void</b> visit(Element element) {

       System.out.println(element.getName());

    <b>public</b> <b>void</b> visit(Attribute attr) {

       System.out.println(attr.getName());

调用:  root.accept(new MyVisitor())

    Visitor接口提供多种Visit()的重载,根据XML不同的对象,将采用不同的方式来访问。上面是给出的Element和Attribute的简单实现,一般比较常用的就是这两个。VisitorSupport是DOM4J提供的默认适配器,Visitor接口的Default Adapter模式,这个模式给出了各种visit(*)的空实现,以便简化代码。

    注意,这个Visitor是自动遍历所有子节点的。如果是root.accept(MyVisitor),将遍历子节点。我第一次用的时候,认为是需要自己遍历,便在递归中调用Visitor,结果可想而知。

<b>5.</b><b>使用</b><b>ElementHandler</b>

XmlHandler.java

<b>import</b> org.dom4j.ElementHandler;

<b>import</b> org.dom4j.ElementPath;

<b>public</b> <b>class</b> XmlHandler {

    <b>public</b> <b>static</b> <b>void</b> main(String[] args) {

       File file = <b>new</b> File("students.xml");

           // 添加一个ElementHandler实例。

           saxReader.addHandler("/students/student", <b>new</b> StudentHandler());

           saxReader.read(file);

     * 定义StudentHandler处理器类,对&lt;student&gt;元素进行处理。

    <b>private</b> <b>static</b> <b>class</b> StudentHandler <b>implements</b> ElementHandler {

       <b>public</b> <b>void</b> .Start(ElementPath path) {

           Element elt = path.getCurrent();

           System.out.println("Found student: " + elt.attribut.ue("sn"));

           // 添加对子元素&lt;name&gt;的处理器。

           path.addHandler("name", <b>new</b> NameHandler());

       <b>public</b> <b>void</b> .End(ElementPath path) {

           // 移除对子元素&lt;name&gt;的处理器。

           path.removeHandler("name");

     * 定义NameHandler处理器类,对&lt;student&gt;的&lt;name&gt;子元素进行处理。

    <b>private</b> <b>static</b> <b>class</b> NameHandler <b>implements</b> ElementHandler {

           System.out.println("path : " + path.getPath());

           // 输出&lt;name&gt;元素的名字和它的文本内容。

           System.out.println(elt.getName() + " : " + elt.getText());

<b>6.</b><b>使用</b><b>XSLT</b><b>转换</b><b>XML</b>

这里必须使用JAXP的支持。

<b>import</b> javax.xml.transform.Transformer;

<b>import</b> javax.xml.transform.TransformerFactory;

<b>import</b> org.dom4j.io.DocumentResult;

<b>import</b> org.dom4j.io.DocumentSource;

    ……

    <b>public</b> Document styleDocument(Document document, String stylesheet)

           <b>throws</b> Exception {

       // load the transformer using JAXP

       TransformerFactory factory = TransformerFactory.newInstance();

       Transformer transformer = factory.newTransformer(<b>new</b> StreamSource(stylesheet));

       // now lets style the given document

       DocumentSource source = <b>new</b> DocumentSource(document);

       DocumentResult result = <b>new</b> DocumentResult();

       transformer.transform(source, result);

       // return the transformed document

       Document transformedDoc = result.getDocument();

       <b>return</b> transformedDoc;

……

本文转自zhangjunhd51CTO博客,原文链接:http://blog.51cto.com/zhangjunhd/126310,如需转载请自行联系原作者