Zur Navigation springen Zum Inhalt springen

Werkzeuge für BDCC/AI

Diese Seite repräsentiert Awesome Big Data und Cloud Computing für KI.

Hinweise:

  • Die Werkzeuge sind im Zweifelsfall für Studierende und private Nutzung, weniger für Unternehmen oder Freelancer (wegen der Lizenzbedingungen/EULA)
  • Die kostenlosen Werkzeuge sind nicht immer Best-in-Class im Vergleich zu kostenpflichtigen/„(€)” Alternativen, dennoch bleiben kostenpflichtige Angebote hier meist Out-of-Scope
  • Ein Windows-zentrischer Ersteindruck durch die Chocolatey-Referenzen kann leicht täuschen, denn die kostenlosen oder quelloffenen Tools gibt es i.d.R. auch für Linux oder MacOS mittels snap/flatpak/brew/etc.
  • Empfehlung zu Chocolatey: choco feature enable -n useRememberedArgumentsForUpgrades

Data Science

Datenbankwerkzeuge

Datenbanksysteme

  • EXASOL: In-Memory-basiertes MPP-fähiges ACID-konformes RDBMS für analytische Workloads
    • Als Community Edition kostenlos als VM Image für bis zu 200 GB Rohdaten, mit Default Port 8563
    • Als Docker Container, allerdings derzeit nur unter Linux
    • Exasol ist der langjährige Testsieger im TPC-H Benchmark für DWH-Systeme (suite of business oriented ad-hoc decision support queries and concurrent data modifications)
  • Elastic bzw. ELK-Stack [via Docker oder choco install elasticsearch sowie choco install kibana]: im Kern eine verteilte Volltext-Suchmaschine, basierend auf Lucene; aber auch als skalierbares NoSQL-System verwendbar
  • Klassische Open-Source RDBMS:
    • MySQL [choco install mysql sowie choco install mysql.workbench], mit Default Port 3306
    • MariaDB [docker run -d -p 3306:3306 -e MYSQL_ROOT_PASSWORD=geheim mariadb:latest]
    • PostgreSQL [choco install postgresql --params '"/Password:geheim /Port:5432"' --params-global]
    • SQLite [choco install sqlite sowie choco install sqlite.shell und ggf. choco install sqlite-studio.portable]
  • Klassische kommerzielle RDBMS:
  • Datenbanksysteme für PWAs: CouchDB (online) + PouchDB (offline+sync)
  • BaseX: XML DBMS und XQuery Engine
  • Neo4j [choco install neo4j-community]: ACID-fähige Graphdatenbank, basierend auf der Cypher Anfragesprache
  • RDF Databases / SPARQL-fähige Triple Stores? siehe unten im Abschnitt „Moderne Web-Anwendungsentwicklung” zu Semantic Web / Linked Open Data
  • DBaaS:
    • bit.io: kostenloses 10GB Postgres Datenbanksystem in der Cloud (Datensätze für Postgres bspw. von morenoh149)
    • db<>fiddle: Browser-basierter SQL-Datenbank-Playground (diverse Datenbanksysteme)
    • MongoDB Atlas: Cloud-Variante des klassischen NoSQL-Systems (The „M” in MEAN and MERN) – kostenlos für 512MB
    • CockroachDB SQL-Playground: Cloud-Variante des NewSQL-Datenbanksystems (s. unten)
  • RDBMS Research Prototypes:
    • LeanStore: high-performance OLTP storage engine optimized for many-core CPUs and NVMe SSDs (Prof. Viktor Leis)
    • HyPer: main-memory-based relational DBMS for mixed OLTP and OLAP workloads (aquired by Tableau)
    • Umbra: a disk-based system with in-memory performance

Big Data

  • Archetype Petabyte-scale Frameworks (insb. analytische Workloads): Apache Hadoop (Two-Phase MapReduce, batch mode, „active Archive”), inkl. dessen Erweiterung durch Apache Spark (RDD, iterative algorithms, In-Memory)
  • NoSQL: DB-Engines Rankings Key/Value-Stores | Document-Stores | Wide-Column-Stores
  • Scalable OLAP: EXASOL (→ s.oben!): Closed-Source MPP-fähiges und In-Memory-basiertes ACID-konformes RDBMS (MPP-DBMS; OLAP workloads); für analytische Anwendungen wie BI/DWH, DSS und Data Science; sehr hohe SQL-Standard-Kompatibilität und hohe Oracle-SQL-Dialekt-Kompatibilität
    • Alternative: (€) Snowflake als Cloud-native DWaaS
  • Scalable OLTP: CockroachDB [via Docker]: Open-Source NewSQL; PostgreSQL-compatible; built on a transactional and strongly-consistent key-value store
    • Alternative: YugabyteDB [via Docker]: Open-source NewSQL; PostgreSQL-compatible
  • Scalable HTAP: PingCAP TiDB: [via Quick Start Guide]: Open-source NewSQL (OLTP/HTAP workloads); MySQL-compatible; built on a transactional key-value store
  • λ/Lambda-Architektur (Nathan Marz) „separate batch vs. speed layer” : klassisch bspw. basierend auf Apache Hadoop + Apache Storm
  • ϰ/Kappa-Architektur (Jay Kreps) „unified batch-&speed-layer API”: bspw. basierend auf Apache Flink
  • Apache Druid: Time Series Database; real-time (i.e., sub-second) analytics database, with separation of ingest compute and query compute
    • Alternative: InfluxDB Open Source: Time Series Database; developed for operations monitoring and focuses on real-time (i.e., sub-second) analytics of IoT Data; core component of the TICK stack
  • GPU-Computing:
    • OpenCL (Open Computing Language): Standardschnittstelle für paralleles Rechnen mit aufgaben- und/oder datenbasierter Parallelität, als HW-Plattform-Abstraktion für CPUs, GPUs, DSPs, FGPAs, usw.
  • Weiterführende Quellen: Awesome Big Data | Hadoop Ecosystem Table

Moderne Web-Anwendungsentwicklung

Verteilte Systeme

Cloud Computing

DevOps / CI / CD / ITSM

  • Vergleiche u.a. in der Schwesterliste den Abschnitt git und bspw. die kostenlosen Alternativen für Atlassian
  • Build-Automatisierung
    • Java Builds
      • Als Bestandteil meines Dissertationsprojekt habe ich eine Java-Build-Referenz auf Basis von Maven geschaffen: cpnatwork/alphaflow_dev (mit einem *-buildhub-Modul für die Build-Komposition und mit *configbase-Modulen für Abhängigkeitskonsolidierung mittels Maven-POM-Vererbung)
    • C# Builds
  • Continuous Integration: Awesome CI
  • Sonatype Nexus (OSS-Version): Software-Artifact Repository [Web/Self-Hosted]
    • Alternative: Inedo ProGet (Free Version)
  • JFrog Artifactory (free: 2GB, 5 Users): Software-Artifact Repository [Cloud]
  • Graphviz dot [choco install graphviz]: graph description language
  • ITSM: (€:) ServiceNow
  • DevSecOps: vergleiche unten den Abschnitt zu „Security
  • Weiterführende Quellen: Awesome DevOps #1, Awesome DevOps #2

ML / AI

Low-Code / No-Code

Edge / Fog / IoT

dApps

Security

Privacy

Professionell:

Persönlich:

  • Have I been Pwned?: Check if your email or phone is in a data breach
  • Have I been Trained?: Check if a picture is in an AI model
  • privacy.sexy: (Personal) Windows Hardening
  • PrivaZer [choco install privazer.install]: Free PC cleaner & Privacy tool that cleans unwanted traces
  • eBlocker: (Personal) Web Privacy Protection
  • Tor Browser [choco install tor-browser]: explore the internet with privacy
  • Quad9: Log-free GDPR-compliant DNS
  • AdGuard DNS: Block Ads via DNS (z.B. in Smart TVs und IoT-Gerätern, immer dann wenn keine eBlocker Trusted Root-CA installierbar ist)
  • MetaGer: Suchmaschine
  • sdelete [choco install sdelete --version=1.61.0.20160210]: Sicheres Löschen von Dateien
    • (ich empfehle die Version 1.61; aber Obacht: die Parameter-Semantik hat sich zur 2.0 geändert, in 1.61 wird „-c” für „zero free space” verwendet bspw. „sdelete -c C: -nobanner”)
  • ExifTool [choco install exiftool]: reading, writing and editing meta information (many supported file types)
  • BatchPurifier: kostenpflichtiges aber wertvolles Werkzeug zur Metadaten-Tiefenreinigung („Sanitize”) von Büro- und Multimedia-Dateien
    • Auch für den persönlichen Gebrauch (~$19), ABER VORSICHT: "The number of computers on which you may activate this software may not exceed the number of computer licenses that you have purchased. Once a license is activated, it's tied to the specific computer and cannot be transferred to another. Regardless of the circumstances." (Also muss man bei einem Hardware-Wechsel seines PCs eine neue Lizenz kaufen; preislich auch privat machbar, aber seien Sie vorsensibilisiert, denn dieses Modell sind End-User nicht gewöhnt.)
  • Weiterführende Quellen: Privacy Tools | Awesome Privacy #1 | Awesome Privacy #2 | Awesome Privacy #3
Nach oben