OpenSpeech Browser PIK

OpenSpeech Browser PIK Architektur


Der OpenSpeech Browser PIK ist ein OpenSource basiertes Toolkit, welches die Auszeichnungssprache von VoiceXML interpretieren kann. Es wurde extra dafür entwickelt, um ein Plattform-Integrations-Toolkit für Systemintegratoren und Plattform Anbieter, die die Funktionen von VoiceXML in Ihre Plattform intergrerieren wollen. Es ist zwar auf Desktop Systemen problemlos anwendbar, jedoch wurde es speziell für Telefonie-Systeme entworfen.

Einleitung

Ein Browser ist ein Programm (Client), welches ein oder mehrere Anweisungen auf einer Plattform ausführen kann, die ein oder mehrere Dokumente auf Servern interpretieren und darstellen kann. Im Falle von VoiceXML arbeitet die Applikation mit der sogenannten "Call Flow"-Logik, die Befehle für die Applikation und weiteren verbundenen Befehlen (siehe die Grafik unten). Der Dokumentenserver führt Teile der Anwendungsdialoge durch, indem er diese mit Hilfe des VoiceXML Markups bearbeitet und als Antwort zurückliefert. Der Auszeichnungsinterpreter (Markup Interpreter) rendert den VoiceXML Markup durch einen Kontex Interpreter, wo er manchmal den Kontext ändern und danach zur Ausführungsplattform verbindet.

Prozess Architektur

Das Bild unten zeigt alle notwendigen Komponenten für ein VoiceXML System. Wenn ein Anruf empfangen wird, muss dieser durch den Ausführungsserver (implementation platform) identifiziert. Danach sendet dieser Server eine Aufgabe an den Auszeichnungsinterpreter (Markup Interpreter), welcher den Kontext des Dokuments durch die URL initialisiert und bearbeitet. Der Interpreter schickt danach eine Anfrage zum VoiceXML Dokumentserver (Document server) für das initialisiert Dokument. Der Dokumentserver sendet dann das Dokument zurück zum Auszeichnungsinterpreter (Markup Interpreter) um den Ausführungsserver (Implementation Platform) die ersten Schritte im Namen des Anrufers zu beauftragen. Danach interpretiert der Auszeichnungsserver (Markup Interpreter) die Ergebnisse der Ausführung. Diese Ergebnisse können dazu führen, dass der Auszeichnungsserver weitere zusätzliche Anfragen an den Dokument Server (VoiceXML Document Server) zu senden.

System Architektur

Das Bild zeigt ebenfalls die Systemarchitektur eines Systems, wo ein OpenSpeech Browser PIK in eine SpeechWorks Erkennungs- und Text-zu-Sprache Technologie, Plattform-Überwachung, Administration sowie einer Telefonie Funktionalität integriert ist. Diese einheitliche Plattform erhält VoiceXML Dokumente von einem Dokumentenserver. Der Dokument Server (VoiceXML Document Server) besteht aus einem Web-Server, bestmöglich aus einem Applikationsframework und einer VoiceXML Anwendung. Diese VoiceXML Anwendung kann aus einer oder mehreren VoiceXML Dateien oder aus dynamisch generierten CGI Skripten oder anderen Berechnungen bestehen.

 

Die Speech Browser Plattform führt die VoiceXML Seiten durch, um die Sprach-Dienste dem Anrufer über das Telefonnetzwerk zur Verfügung zu stellen. Die Speech Browser Plattform besteht aus den vier logischen Bereichen:

  1. Hauptprozess und Operationen, Administration und das Wartungssystem: Eine Sammlung von Tools, die für die Systemverwaltung und Fehler Berichterstattung verantwortlich sind. Dieser wichtiger Bestandteil der Plattform ist ebenso dafür zuständig, dass der Speed Browser die Threads anfängt auszuführen.
  2. OpenVXI: Interpretiert die VoiceXML Markups und Anrufe in der Ausführungsplattform um die Markups zu rendern.
  3. OpenSpeech Browser PIK: bietet die High-Level-Dienste an, die für den Lauf des System unerlässlich sind. Diese sind unter anderem die Erkennungsengine, Eingabeaufforderung-Engine, Abruf der Internet Bibliothek und die ECMAScript Engine. OpenVXI hat Zugriff auf diese Komponenten durch die Schnittstellen, um problemlos arbeiten zu können.
  4. Telefonie und Basis Dienste: Betriebssystem- und Telefonie Dienste, die man zum Annehmen der Anrufe benötigt. Der OpenSpeech Browser PIK macht die Annahmen über die Betriebssystem- und Telefon Dienste.

OpenSpeech Browser PIK Komponenten

Das Bild oben zeigt, wie die OpenSpeech Browser PIK Architektur und die Bereiche der Komponenten aufgebaut sind und mit den SpeechWorks Produkten für die Sprach Erkennung und Text-zu-Sprache integriert ist. Alle Komponenten sind so strukturiert, dass diese versetzbar um Betriebssystem der Plattform sind. Der Speech Browser besteht aus:

  1. VXI

    Interpretiert alle VoiceXML Markups und dient als Hauptkontrollschleife. Der VXI beinhaltet alle benötigten Teile von den VoiceXML 1.0 Spezifikationen und den meisten optionalen Zusatzfunktionen.

  2. XML Parser Schnittstelle

    Stellt den Zugriff zu einem XML DOM Parser bereit, der zurzeit direct durch das Aufrufen des OpenSource Apache Xerces SAX und DOM Parser APIs gemacht wird.

  3. Internet Schnittstelle

    Erstellt Zugriff zu Applikationsdokumenten via HTTP:// und FILE://, genauso wie die Hilfe für das Senden der Dateien zurück zum Applikationsserver. Es wurde dabei die OpenSource W3C Libwww Bibliothek verwendet.

  4. ECMAScript (JavaScript) Schnittstelle

    Stellt den Zugriff zu den ECMAScript Diensten. Bei der Umsetzung wurde die OpenSource Mozilla SpiderMonkey engine verwendet.

  5. Logging Schnittstelle

    Wird benutzt um Fehlerberichte, Ereignisse und Diagnose Meldungen zum Systemadministrator zu senden.


Der Core-Browser ist auf eine Reihe von verschiedenen APIs aufgebaut. Diese beinhalten:

  1. Wiedererkennung Schnittstelle

    Stellt die grammatikalische Verwaltung und Wiedererkennungsdienste zur Verfügung, die von den VoiceXML Spezifikationen benötigt sind. Diese beinhalten unter anderem den dynamische grammatikalischen Aufbau. Der OpenSpeech Browser beinhaltet einen OpenSpeech Recognizer.

  2. Anweisungsinterface

    Beinhaltet komplette Anweisungsdienste, die zum Beispiel den "Füllsound" beim Abruf von Audiodateien integriert. Es wird möglich gemacht, dass aufgezeichnete Soundtöne (angegeben durch die URI) behandelt werden und dass die Text-zu-Sprach-Dienste korrekt zum Telefonie Server als Playback geliefert werden. Der OpenSpeech Browser PIK enthält eine Anweisungsimplementierung, welche auf einer umfangreichen Text-zu-Sprache Möglichkeit aufgebaut ist.

  3. Telefonie Schnittstelle

    Inkludiert die Anruf-Dienste wie zum Beispiel den Aufbau und Abbruch von Anrufen durch den Telefonie Server. Der OpenSpeech Browser PIK schließt eine Telefonie Implementierung ein, die mit der grundlegenden Telefonie-Entwendung der APIs aufeinander wirkt, um die Anruf-Kontrolldienste zur verfügung zu stellen.

  4. Objekt Interface

    Diese stellt die Verbindung zu den Objekten her, die für die VoiceXML "Sprache" benötigt werden. Objekte können leicht definiert werden, damit man weitere Verbindungen für die Plattform erstellen kann. Zum Beispiel um erweiterte Anrufe-Kontrolle, CTI screen pop oder andere Anforderungen zu erstellen. Der OpenSpeech Browser PIK inkludiert ein referenziertes Objekt Interface, welches eine C Funktion für die Ausführung der objektorientierten Objektnamen ausführt, die durch zwei simple Referenzobjekte bestehen: Ein um einen erweiterten Protokollzugriff zu ermöglichen und ein für die Ausgabe der Parameter zu einem Objekt um Applikationsdebugging zu ermöglichen.

OpenSpeech Browser PIK Schnittstellen

Die Interface Referenz beinhaltet die volle Dokumentation für alle Schnittstellen. Diese entsprechen:

·         Alle Schnittstellen sind ANSI/ISO C konform und objektorientiert strukturiert

·         Alle Schnittstellen sind so definiert, dass diese C Funktionen für jede Methode enthalten

·         Alle Schnittstellen verwenden ein Grundsystem, welches die auf den Grundlagen vo C basieren, um ein Betriebsystem unabhängiges Arbeiten zu ermöglichen.

·         Die Zeichen benutzen den ANSI/ISO C wchar_t Zeichentyp, welcher ein Betriebssystem abhängiger Zeichentyp ist. Dies erlaubt es, große Mengen an Daten (allgemein Unicode UCS-2) zu verwalten, welches eine einfachere Internatiolalisierung und Lokalisierung beinhaltet.

·         Die Fehlermeldung sind für jede Schnittstelle einzeln aufgeführt, wo die Fehler, die kleiner als null fatal, 0 immer erfolgreich und größer als null nicht-fatale Fehler sind.

·         Alle Methoden der Schnittstellen verfolgen diese Struktur:
VXI<Modulname>Ergebnis VXI<Modulname><Funktion> (Verwendung, die Variablen, eingehende/ausgehende Variablen, ausgehende Variablen)


Copyright (c) 2000-2009. SpeechWorks International, Inc. All rights reserved.

VoiceXML is a Trademark of the VoiceXML forum

Zurück zur OpenVXI Startseite gehen.