Techniken für WCAG 2.0

Zum Inhalt springen (Eingabetaste drücken)

PDF-Techniken für WCAG 2.0


PDF7: Durchführung der OCR-Erkennung in einem gescannten PDF-Dokument, um echten Text bereitzustellen

Anwendbarkeit

Gescannte PDF-Dokumente

Die Technik bezieht sich auf:

Anmerkungen zur Unterstützung durch Benutzeragenten und assistierende Techniken

Siehe Anmerkungen zur PDF-Technik für Informationen zur Unterstützung von Benutzeragenten und assistierenden Techniken.

Beschreibung

Die Absicht dieser Technik ist es sicherzustellen, dass visuell gerenderter Text so dargestellt wird, dass er wahrgenommen werden kann, ohne dass dessen visuelle Darstellung dessen Lesbarkeit beeinträchtigt.

Ein Dokument, das aus gescannten Bilder von Text besteht, ist grundsätzlich nicht barrierefrei, da der Inhalt des Dokumentes Bilder sind und nicht durchsuchbarer Text. Assistierende Techniken können die Worte nicht lesen oder extrahieren; Benutzer können weder den Text auswählen, editieren, in der Größe verändern oder neu umbrechen lassen noch können Sie Text- und Hintergrundfarben ändern; und Autoren können das PDF nicht im Sinne der Barrierefreiheit ändern.

Aus diesen Gründen sollten Autoren echten Text statt Bilder eines Textes benutzen und ein Autorenwerkzeug wie beispielsweise Microsoft Word oder Oracle Open Office verwenden, um Inhalte zu erstellen und in ein PDF zu konvertieren.

Wenn Autoren keinen Zugriff auf die Quell-Datei und das Autorenwerkzeug haben, dann kann man gescannte Bilder eines Textes in ein PDF konvertieren, indem man eine Texterkennungssoftware (OCR) benutzt. Man kann Adobe Acrobat Pro benutzen, um barrierefreien Text zu erstellen.

Beispiele

Beispiel 1: Generierung von tatsächlichen Text statt von Bildern eines Textes, indem man Adobe Acrobat 9 Pro benutzt

Dieses Beispiel wird mit Adobe Acrobat Pro gezeigt. Es gibt andere Software-Werkzeuge, die ähnliche Funktionen ausführen. Die Liste mit anderen Software-Werkzeugen finden Sie in PDF-Autorenwerkzeuge, die die Barrierefreiheit unterstützen.

Dieses Beispiel verwendet ein einfaches, einseitiges, gescanntes Bild eines Textes. Führen Sie die folgenden Schritte aus um sicherzustellen, dass tatsächlicher Text in dem Dokument gespeichert wird:

  1. Scannen Sie das Dokument indem Sie die größtmögliche Auflösung benutzen, um das OCR-Ergebnis zu verbessern.

  2. Laden Sie das gescannte Dokument in Acrobat Acrobat Pro. Wählen Sie Dokument > OCR-Texterkennung > Text mit OCR erkennen...

  3. Wählen Sie im nächsten Dialog die Schaltfläche „Alle Seiten“ unter „Seiten“ (oder „Aktuelle Seite“, wenn Sie nur eine Seite konvertieren) und wählen Sie dann OK.

  4. Wählen Sie „Bearbeiten“ unter der Liste „Einstellungen“. Wählen Sie im nächsten Dialog „Formatted Text and Graphics“ im Aufklappmenü „PDF-Ausgabestil“. Dies ist wichtig, um die Barrierefreiheit sicherzustellen.

  5. Abhängig von der Auflösung und davon, wie deutlich der Text war, konvertiert OCR Bilder von Worten und Buchstaben in echten Text. Text, der von Acrobat Pro nicht erkannt wird oder ein Text-Element, von dem Acrobat vermutet, dass es nicht korrekt erkannt wurde, wird als „OCR-Problemstelle“ aufgelistet .

  6. Um die Problemstellen in Ordnung zu bringen, wählen Sie Dokument > OCR-Texterkennung > Erste OCR-Problemstelle suchen. Acrobat Pro zeigt jede Problemstelle einzeln; diese können mit den Acrobat Pro Touchup-Werkzeugen korrigiert werden.

  7. Wählen Sie Erweitert > Ein-/Ausgabehilfe > Tags zu Dokument hinzufügen

  8. Test auf Barrierefreiheit: Erweitert > Ein-/Ausgabehilfe > Vollständige Prüfung...

Anmerkung: Alternativ können Sie für eine schnellere Bearbeitung Dokument > OCR-Texterkennung > Alle OCR-Problemstellen suchen benutzen, um alle OCR-Problemstellen gleichzeitig anzeigen zu lassen.

Das folgende Bild zeigt ein gescanntes einseitiges Dokument in Adobe Acrobat Pro.

Eine gescannte Seite in Acrobat Pro aus der Suppenrezepte gezeigt werden.

Das nächste Bild zeigt den konvertierten Inhalt, nachdem Tags zu dem Dokument hinzugefügt wurden. Es wird wahrscheinlich nötig sein, das TouchUp-Leserichtungwerkzeug und das Navigationsfenster „Tags“ zu benutzen, um den Inhalt korrekt für das beabsichtigte finale Dokument mit Tags zu versehen. Für dieses Beispiel wurde das Bild mit der Spiralbindung in der Konvertierung mit Tags versehen. Das TouchUp-Leserichtungwerkzeug wurde benutzt, um das Bild als (dekoratives) Hintergrundbild zu verstecken (siehe dazu auch PDF4: Ausblenden dekorativer Bilder mit dem Artifact-Tag in PDF-Dokumenten). Die Rezept-Überschriften wurden mit Tags für Überschriften der ersten Ebene ausgezeichnet.

Eine mit Tags versehene konvertierte Seite in Acrobat Pro, auf der Suppenrezepte gezeigt werden. Der Name jeder einzelnen Suppe in eine Überschrift der ersten Ebene. Das Bild der Spiralbindung wurde als dekoratives Bild versteckt.

Anmerkung: Es kann sein, dass Acrobat Pro automatisch Tags hinzufügt, wenn man die Datei durch eine Texterkennung laufen lässt.

Dieses Beispiel wird im Einsatz gezeigt im funktionierenden Beispiel von „generating actual text“ (Generierung vom echtem Text) und das „result of performing OCR“ (Ergebnis der Durchführung einer Texterkennung).

Ressourcen

Ressourcen sind nur zu Informationszwecken und keine offizielle Empfehlung.

Tests

Vorgehensweise

  1. Stellen Sie für jede Seite, die per OCR in Text konvertiert wurde, sicher, dass das daraus entstehende PDF korrekt konvertiert wurde, indem Sie eine der folgenden Vorgehensweisen nutzen:

    • Lesen Sie das PDF-Dokument mit einem Screenreader oder einem Werkzeug, das laut vorliest, und achten Sie darauf,ob der ganze Text korrekt und in der richtigen Reihenfolge gelesen wird.

    • Sichern Sie das Dokument als Text und prüfen Sie, ob der konvertierte Text komplett und in der richtigen Lesereihenfolge ist.

    • Benutzen Sie ein Werkzeug, das in der Lage ist, den konvertierten Inhalt zu zeigen, um das PDF-Dokument zu öffnen und verifizieren Sie, dass der gesamte Text konvertiert wurde und in der richtigen Lesereihenfolge ist.

    • Benutzen Sie ein Werkzeug, das das Dokument durch das Accessibility API zeigt und verifizieren Sie, dass der gesamte Text konvertiert wurde und in der richtigen Lesereihenfolge ist.

Erwartete Ergebnisse

  • #1 ist wahr.

Wenn dies eine ausreichende Technik für ein Erfolgskriterium ist, dann bedeutet das Scheitern an diesem Testverfahren nicht zwangsläufig, dass das Erfolgskriterium nicht auf irgendeine andere Art und Weise erfüllt wurde, sondern nur, diese Technik nicht erfolgreich implementiert wurde und nicht benutzt werden kann, um die Konformität zu erklären.