Semantische Auszeichnung von RTF Texten

Aufgabe: Automatisierung eines Prozesses zur semantischen Auszeichnung von Texten

Kunde: Dienstleister

Branche: Pharma

Umfang: 1 Mannmonat

Für die Umwandlung von Texten im RTF Format in ein semantisch ausgezeichnetes HTML5 Format wurde ein mehrstufiger Prozess entwickelt. Im ersten Schritt wurde das RTF mit Hilfe von Word nach XML umgewandelt und die Bilder extrahiert. Anschließend wurde das XML mit XSLT Transformationen aufbereitet.
Der nächste Schritt bestand aus dem Aufruf eines Open Source Werkzeugs, welches HTML5 aus XML erzeugt. Danach erfolgt die semantische Auszeichnung von Überschriften verschiedener Ebenen und einer inhaltlichen Kategoriersierung. Für die semantische Auszeichnung haben wir ein Tool auf der Basis eines statistischen Verfahrens entwickelt, das auf dem Prinzip der Spamfilter basiert. Für die Automatisierung des Prozesses wurde das Integrationsframework Apache Camel eingesetzt. Die Ansteuerung von Word in Java erfolgte über Office Automation.

Verwendete Tools:

  • Apache Camel
  • Microsoft Word
  • HTML5 Konverter
  • Semantischer Auszeichner
  • Texte im RTF Format