Die im Datensatz der Onlinedemo enthaltenen Dokumente wurden aus öffentlich verfügbaren Quellen gecrawlt. Die Dokumente sind inhaltlich gemischt, so dass zu jedem Thema Dokumente vorhanden sein sollten. Kritische Inhalte wurden vorab bestmöglich gefiltert.
Dateitypen
Da es am einfachsten ist, an PDF Dokumente heranzukommen, machen Sie den größten Teil des Datensatzes aus. Über die Filterfunktionen kann der Datensatz jedoch auch auf bestimmte Dateitypen reduziert werden.
Um ein Gefühl dafür zu bekommen, wie viele Dateitypen in der Demo liegen, anbei eine kleine Auflistung:
Dateityp | Menge |
>40.000 Dateien | |
Eingescannte PDF's | ~100 Dateien |
PowerPoint | ~150 Dateien |
Word | >11.500 Dateien |
Excel | >1.000 Dateien |
>2.000 Dateien | |
Bilder | >100.000 Dateien |
3D Modelle | >30.000 Dateien |
Tickets | >6.000 Dateien |
Der Datensatz besteht sowohl aus Deutschen als auch aus Englischen Dokumenten.
Datenquellen
In der Demo haben wir uns auf eine Auswahl unserer Konnektoren beschränkt. Dazu zählen u. A.:
- Netzwerklaufwerke
- SharePoint
- OneDrive
- Teams
- Outlook
- OneNote
- Jira
- Confluence
- D.velop
- Gitlab
Im realen Einsatz können wir jedoch deutlich mehr Systeme unterstützen.
Kommentare
0 Kommentare
Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.