news-21112024-064510

Automatisierung im Browser: Top 3 Tools für effizienteres Arbeiten

Möchten Sie lästige Arbeiten im Web erledigen? Auch dabei kann Ihnen KI helfen. Hier sind drei Open-Source-Projekte, die genau das ermöglichen sollen.

Wenn Sie KI abseits vom Web-Interface von ChatGPT im Browser einsetzen wollen, haben Sie mittlerweile eine Reihe von Möglichkeiten. Opera hat entsprechende Features direkt in den Browser integriert und kann Ihnen auf Wunsch Inhalte zusammenfassen oder sogar einen Tweet verfassen. Mit einer entsprechenden KI-Erweiterung stehen Ihnen solche Funktionen auch in Chrome oder Firefox zur Verfügung.

Die Fähigkeiten von KI sind jedoch nicht auf simple Textgenerierung beschränkt. Moderne KI-Modelle können auch zeitaufwendige Arbeiten im Web übernehmen. Einige Open-Source-Projekte haben sich bereits diesem Problem verschrieben.

Skyvern-AI: Umfangreiche KI-Automation als Open-Source-Lösung und Cloud-Angebot

Eine ausgereifte Lösung zur Automation von Web-Arbeiten ist Skyvern-AI. Die Software steht unter der freien AGPL-3.0-Lizenz und unterstützt eine Reihe von KI-Modellen wie OpenAIs GPT-4o oder Anthropics Claude 3. In Zukunft soll Skyvern-AI durch die Integration des KI-Tools Ollama auch um selbstgehostete KI-Modelle erweitert werden können.

Die Installation erfolgt über einen Docker-Container. Die Entwickler von Skyvern bieten auch eine Cloud-Variante ihres Tools an, die 0,10 US-Dollar pro besuchter Website kostet. Diese Option erspart Ihnen den Verwaltungsaufwand. Interessanterweise kann Skyvern-AI sogar mit dem Passwortmanager Bitwarden umgehen und unterstützt verschiedene 2FA-Methoden, was die Interaktion mit Websites, die einen Login erfordern, ermöglicht.

Web-Automation mit Browser-Use

Ein neues Projekt zur Web-Automation per KI ist Browser-Use. Die Software wurde von den Entwicklern Magnus Müller und Gregor Žunič innerhalb von fünf Tagen entwickelt und unter der MIT-Lizenz auf GitHub veröffentlicht. Da Browser-Use auf dem KI-Toolkit Langchain basiert, können Sie das zugrundeliegende KI-Modell frei wählen. Browser-Use kann mit mehreren Tabs arbeiten und erkennt interaktive Elemente automatisch. Für komplexe Aufgaben können Sie mehrere KI-Agenten hintereinander schalten, die die gestellten Aufgaben nacheinander abarbeiten.

Cerebellum: Ein einfacher KI-Agent für das Web

Ein weiteres Beispiel für eine quelloffene KI-Lösung, die mit dem Web interagieren kann, ist Cerebellum. Die Software steht unter der MIT-Lizenz und wurde von Skyvern inspiriert. Der Funktionsumfang ist im Vergleich jedoch begrenzt. Derzeit unterstützt Cerebellum nur ein KI-Modell: Claude 3.5 Sonnet. Neben der Software benötigen Sie den Selenium Webdriver, der die Schnittstelle zu Ihrem Browser darstellt. Eine Installationsanleitung und ein Demo-Video finden Sie im GitHub-Repository des Projekts.