Child pages
  • HTML parsing
Skip to end of metadata
Go to start of metadata
Hy!
Van egy kis problémám a JAVA HTML parse-olójával (jó magyaros lett :D)... Ha egy horgony (anchor, A) taget keresek és kérem annak az atribútumát, simán kiszedi a dokumentumból, viszont ha META taget szeretnék keresni, NullPointerException-t dob... Pedig a kérdéses dokumentum 100%-osan tartalmazza a META taget...
A másik problémám, hogy csak az ISO kódolású weblapokat szedi le, ha UTF-re van állítva az oldal karakterkészlete CharsetChangedException-t dob és kilép...
Van vkinek vmilyen 5lete?
      
      
Page viewed times
#trackbackRdf ($trackbackUtils.getContentIdentifier($page) $page.title $trackbackUtils.getPingUrl($page))
  • No labels

4 Comments

  1. Unknown User (gericop)

    Nincs senkinek 5lete?
  2. Például így :)
    if (it.getAttributes() instanceof javax.swing.text.html.HTMLDocument.RunElement)
    {                   
      HTMLDocument.RunElement runElement = (HTMLDocument.RunElement)it.getAttributes();
      String link=(String)runElement.getAttribute(HTML.Attribute.NAME);
      if (link != null) {
        result.add(link);
      }
    }
    else
    {
      SimpleAttributeSet s = (SimpleAttributeSet)it.getAttributes();   
      [...]
    Tehát már a class, figyelj rá.
  3. Unknown User (gericop)

    Még mindig NullPointerException:
    HTMLDocument.Iterator itMETA = doc.getIterator(HTML.Tag.TABLE);
    while(itMETA.isValid()){
      if (itMETA.getAttributes() instanceof javax.swing.text.html.HTMLDocument.RunElement)
      {                  
        HTMLDocument.RunElement runElement = (HTMLDocument.RunElement)itMETA.getAttributes();
        String link=(String)runElement.getAttribute(HTML.Attribute.BORDER);
        if (link != null) {
          System.out.println(link);
        }
      }
      else
      {
        AttributeSet sas = itMETA.getAttributes();
        String link = (String)sas.getAttribute(HTML.Attribute.BORDER);
        if (link != null) {
          System.out.println(link);
        }
      }
      itMETA.next();
    }
  4. Unknown User (frimen)

    Ha csak annyit akarsz, hogy kiszedni valami attributumot, esetleg használhatod a regex csomagot is, ha végképp nem jutsz előbbre.