In dieser Anleitung erfahren Sie, wie Sie PersonaPlex Schritt für Schritt lokal installieren und ausführen können, um Echtzeit-Sprach-zu-Sprach-KI direkt auf Ihrem eigenen Computer zu erleben.
Verfasst von Abid Ali Awan, Assistant Editor, am 11. März 2026 im Bereich Künstliche Intelligenz.
Einführung
Bevor wir beginnen, möchte ich, dass Sie sich dieses Video ansehen:
Ihr Browser unterstützt das Video-Tag nicht.
Ist das nicht erstaunlich? Sie können jetzt ein vollständiges lokales Modell betreiben, mit dem Sie auf Ihrem eigenen Computer sprechen können, und es funktioniert sofort. Es fühlt sich an, als würden Sie mit einer echten Person sprechen, da das System gleichzeitig hören und sprechen kann, genau wie in einem natürlichen Gespräch.
Dies ist nicht das übliche Muster „Sie sprechen, dann wartet es, dann antwortet es“. PersonaPlex ist eine Echtzeit-Sprach-zu-Sprach-Konversations-KI, die Unterbrechungen, Überlappungen und natürliche Gesprächszeichen wie „ähm“ oder „richtig“ während des Sprechens verarbeitet.
PersonaPlex ist als voll-duplex konzipiert, sodass es gleichzeitig hören und Sprache erzeugen kann, ohne dass der Benutzer zuerst pausieren muss. Dies macht Gespräche viel flüssiger und menschlicher im Vergleich zu traditionellen Sprachassistenten.
In diesem Tutorial lernen wir, wie man die Linux-Umgebung einrichtet, PersonaPlex lokal installiert und dann den PersonaPlex-Webserver startet, damit Sie in Echtzeit mit der KI in Ihrem Browser interagieren können.
PersonaPlex lokal nutzen: Eine Schritt-für-Schritt-Anleitung
In diesem Abschnitt werden wir durch den Installationsprozess von PersonaPlex auf Linux gehen, die Echtzeit-Weboberfläche starten und mit einem voll-duplex Sprach-zu-Sprach-KI-Modell interagieren, das lokal auf unserem eigenen Computer läuft.
Schritt 1: Akzeptieren der Modellbedingungen und Generierung eines Tokens
Bevor Sie PersonaPlex herunterladen und ausführen können, müssen Sie die Nutzungsbedingungen für das Modell auf Hugging Face akzeptieren. Das Sprach-zu-Sprach-Modell PersonaPlex-7B-v1 von NVIDIA ist gesperrt, was bedeutet, dass Sie nicht auf die Gewichte zugreifen können, bis Sie den Lizenzbedingungen auf der Modellseite zustimmen.
Gehen Sie zur PersonaPlex-Modellseite auf Hugging Face und melden Sie sich an. Sie werden eine Mitteilung sehen, dass Sie zustimmen müssen, Ihre Kontaktdaten anzugeben und die Lizenzbedingungen zu akzeptieren, um auf die Dateien zugreifen zu können. Überprüfen Sie die NVIDIA Open Model License und akzeptieren Sie die Bedingungen, um das Repository freizuschalten.
Sobald der Zugriff gewährt ist, erstellen Sie ein Hugging Face-Zugriffstoken:
- Gehen Sie zu Einstellungen → Zugriffstoken
- Erstellen Sie ein neues Token mit Leserechten
- Kopieren Sie das generierte Token
Exportieren Sie es dann in Ihrem Terminal:
export HF_TOKEN=“YOUR_HF_TOKEN“
Dieses Token ermöglicht es Ihrem lokalen Computer, sich zu authentifizieren und das PersonaPlex-Modell herunterzuladen.
Schritt 2: Installation der Linux-Abhängigkeit
Bevor Sie PersonaPlex installieren, müssen Sie die Entwicklungsbibliothek des Opus-Audiocodecs installieren. PersonaPlex ist auf Opus angewiesen, um Echtzeit-Audio-Encoding und -Decoding zu verarbeiten, sodass diese Abhängigkeit auf Ihrem System verfügbar sein muss.
Führen Sie auf Ubuntu oder Debian-basierten Systemen Folgendes aus:
sudo apt update
sudo apt install -y libopus-dev
Schritt 3: PersonaPlex aus dem Quellcode erstellen
Nun werden wir das PersonaPlex-Repository klonen und das erforderliche Moshi-Paket aus dem Quellcode installieren.
Klonen Sie das offizielle NVIDIA-Repository:
git clone https://github.com/NVIDIA/personaplex.git
cd personaplex
Sobald Sie im Projektverzeichnis sind, installieren Sie Moshi:
pip install moshi/.
Dies wird die Komponenten von PersonaPlex zusammen mit allen erforderlichen Abhängigkeiten, einschließlich PyTorch, CUDA-Bibliotheken, NCCL und Audio-Tools, kompilieren und installieren.
Sie sollten sehen, dass Pakete wie torch, nvidia-cublas-cu12, nvidia-cudnn-cu12, sentencepiece und moshi-personaplex erfolgreich installiert werden.
Hinweis: Führen Sie dies in einer virtuellen Umgebung durch, wenn Sie auf Ihrem eigenen Computer arbeiten.
Schritt 4: Starten des WebUI-Servers
Bevor Sie den Server starten, installieren Sie den schnelleren Hugging Face-Downloader:
pip install hf_transfer
Starten Sie nun den PersonaPlex-Echtzeitserver:
python -m moshi.server –host 0.0.0.0 –port 8998
Der erste Start lädt das vollständige PersonaPlex-Modell herunter, das ungefähr 16,7 GB groß ist. Dies kann je nach Internetgeschwindigkeit einige Zeit in Anspruch nehmen.
Nachdem der Download abgeschlossen ist, wird das Modell in den Speicher geladen und der Server wird gestartet.
Schritt 5: Mit PersonaPlex im Browser sprechen
Jetzt, da der Server läuft, ist es an der Zeit, tatsächlich mit PersonaPlex zu sprechen.
Wenn Sie dies auf Ihrem lokalen Computer ausführen, kopieren Sie diesen Link und fügen Sie ihn in Ihren Browser ein: http://localhost:8998.
Dies lädt die WebUI-Oberfläche in Ihrem Browser.
Sobald die Seite geöffnet ist:
- Wählen Sie eine Stimme aus
- Klicken Sie auf Verbinden
- Erlauben Sie Mikrofonberechtigungen
- Beginnen Sie zu sprechen
Die Benutzeroberfläche enthält Gesprächsvorlagen. Für diese Demo haben wir die Vorlage Astronaut (Spaß) ausgewählt, um die Interaktion spielerischer zu gestalten. Sie können auch Ihre eigene Vorlage erstellen, indem Sie den ursprünglichen Systemaufforderungstext bearbeiten. Dies ermöglicht es Ihnen, die Persönlichkeit und das Verhalten der KI vollständig anzupassen.
Für die Stimmwahl haben wir von der Standardstimme gewechselt und Natural F3 gewählt, um etwas anderes auszuprobieren.
Und ehrlich gesagt, es fühlt sich überraschend natürlich an.
Sie können es unterbrechen, während es spricht.
Sie können Folgefragen stellen.
Sie können mitten im Satz das Thema wechseln.
Es verarbeitet den Gesprächsfluss reibungslos und antwortet intelligent in Echtzeit. Ich habe es sogar getestet, indem ich einen Anruf beim Kundenservice einer Bank simuliert habe, und die Erfahrung fühlte sich realistisch an.
PersonaPlex bietet mehrere Sprachvorgaben:
- Natürlich (weiblich): NATF0, NATF1, NATF2, NATF3
- Natürlich (männlich): NATM0, NATM1, NATM2, NATM3
- Vielfalt (weiblich): VARF0, VARF1, VARF2, VARF3, VARF4
- Vielfalt (männlich): VARM0, VARM1, VARM2, VARM3, VARM4
Sie können mit verschiedenen Stimmen experimentieren, um die Persönlichkeit zu finden, die Sie möchten. Einige wirken gesprächiger, andere ausdrucksvoller.
Schlussfolgerungen
Nachdem ich diesen gesamten Setup-Prozess durchlaufen und tatsächlich in Echtzeit mit PersonaPlex gesprochen habe, wird eines sehr deutlich.
Das fühlt sich anders an.
Wir sind an chatbasierte KI gewöhnt. Sie tippen. Es antwortet. Sie warten auf Ihren Turn. Es fühlt sich transaktional an.
Sprach-zu-Sprach verändert diese Dynamik vollständig.
Mit PersonaPlex, das lokal läuft, warten Sie nicht mehr auf Ihren Turn. Sie können es unterbrechen. Sie können mitten im Satz die Richtung ändern. Sie können natürlich Folgefragen stellen. Das Gespräch fließt. Es fühlt sich näher an, wie Menschen tatsächlich sprechen.
Und genau deshalb glaube ich aufrichtig, dass die Zukunft der KI Sprach-zu-Sprach ist.
Aber selbst das ist nur die halbe Geschichte.
Der wirkliche Wandel wird geschehen, wenn diese Echtzeit-Konversationssysteme tief mit Agenten und Werkzeugen verbunden sind. Stellen Sie sich vor, Sie sprechen mit Ihrer KI und sagen: „Buchen Sie mir ein Ticket für Freitagmorgen.“ Überprüfen Sie den Aktienkurs und tätigen Sie den Handel. Schreiben Sie diese E-Mail und senden Sie sie. Planen Sie das Meeting. Ziehen Sie den Bericht.
Kein Wechseln von Tabs. Kein Kopieren und Einfügen. Kein Eingeben von Befehlen.
Einfach reden.
PersonaPlex löst bereits eines der schwierigsten Probleme, nämlich natürliche, voll-duplex Konversation. Die nächste Ebene ist die Ausführung. Sobald Sprach-zu-Sprach-Systeme mit APIs, Automatisierungstools, Browsern, Handelsplattformen und Produktivitätsanwendungen verbunden sind, hören sie auf, Assistenten zu sein, und beginnen, Operatoren zu werden.
Kurz gesagt, es wird zu etwas wie OpenClaw auf Steroiden.
Ein System, das nicht nur wie ein Mensch spricht, sondern in Echtzeit in Ihrem Namen handelt.
Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der es liebt, Maschinenlernmodelle zu entwickeln. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben technischer Blogs über Technologien im Bereich Maschinenlernen und Datenwissenschaft. Abid hat einen Masterabschluss in Technologiemanagement und einen Bachelorabschluss in Telekommunikationsengineering. Seine Vision ist es, ein KI-Produkt zu entwickeln, das ein graphbasiertes neuronales Netzwerk für Schüler mit psychischen Problemen nutzt.
Erhalten Sie das kostenlose E-Book ‚KDnuggets Künstliche Intelligenz Taschenwörterbuch‘ zusammen mit dem führenden Newsletter zu Data Science, Maschinenlernen, KI und Analytik direkt in Ihr Postfach.
Durch das Abonnieren akzeptieren Sie die Datenschutzrichtlinie von KDnuggets.
© 2026 Guiding Tech Media | Über uns | Kontakt | Werbung | Datenschutz | Nutzungsbedingungen
Veröffentlicht am 11. März 2026
Für weitere Informationen über die lokale Ausführung von KI-Modellen, lesen Sie unseren Artikel über das Ausführen kleiner KI-Modelle lokal.
„`
Bildquelle: ai-generated-gemini