Werkzeuge für BDCC/AI

Meine Awesome-Seiten befinden sich in Transition nach GitHub:


Diese Seite repräsentiert Awesome Big Data und Cloud Computing für KI.

Hinweise:

  • Die Werkzeuge sind im Zweifelsfall für Studierende und private Nutzung, weniger für Unternehmen oder Freelancer (wegen der Lizenzbedingungen/EULA)
  • Die kostenlosen Werkzeuge sind nicht immer Best-in-Class im Vergleich zu kostenpflichtigen/„(€)” Alternativen, dennoch bleiben kostenpflichtige Angebote hier meist Out-of-Scope
  • Ein Windows-zentrischer Ersteindruck durch die Chocolatey-Referenzen kann leicht täuschen, denn die kostenlosen oder quelloffenen Tools gibt es i.d.R. auch für Linux oder MacOS mittels snap/flatpak/brew/etc.
  • Empfehlung zu Chocolatey: choco feature enable -n useRememberedArgumentsForUpgrades

Data Science

Datenbankwerkzeuge

Datenbanksysteme

  • EXASOL: In-Memory-basiertes MPP-fähiges ACID-konformes RDBMS für analytische Workloads
    • Dialekt: Standardkonformes ISO SQL + hochgradig Oracle-kompatibel
    • Als Community Edition kostenlos als VM Image für bis zu 200 GB Rohdaten, mit Default Port 8563
    • Als Docker Container, allerdings derzeit nur unter Linux
    • Exasol ist der langjährige Testsieger im TPC-H Benchmark für DWH-Systeme (suite of business oriented ad-hoc decision support queries and concurrent data modifications)
  • DuckDB: “SQLite for analytics” / In-Memory-basiertes In-Process-fähiges ACID-konformes RDBMS für analytische Workloads
    • Dialekt: PostgreSQL
    • Technisch nicht auf Augenhöhe mit einer Single-Node EXASOL Community Edition
    • Sweet Spot: Embeddable in analytische Anwendungen („runs anywhere”), insb. für Python und Pandas
  • Volltextsuche
    • Elastic bzw. ELK-Stack [via Docker oder choco install elasticsearch sowie choco install kibana]: im Kern eine verteilte Volltext-Suchmaschine, basierend auf Lucene; aber auch als skalierbares NoSQL-System verwendbar
    • typesense: Typo-tolerante Suchmaschine, optimiert für niedrige Latenzzeiten und hohe Suchleistung
  • Klassische Open-Source RDBMS:
    • MySQL [choco install mysql sowie choco install mysql.workbench], mit Default Port 3306
    • MariaDB [docker run -d -p 3306:3306 -e MYSQL_ROOT_PASSWORD=geheim mariadb:latest] sowie Maria Galera = Multi-Master-Cluster
    • PostgreSQL [choco install postgresql --params '"/Password:geheim /Port:5432"' --params-global]
    • SQLite [choco install sqlite sowie choco install sqlite.shell und ggf. choco install sqlite-studio.portable]
  • Klassische kommerzielle RDBMS:
  • Datenbanksysteme für PWAs: CouchDB (online) + PouchDB (offline+sync)
  • BaseX: XML DBMS und XQuery Engine
  • Graph-Datenbanksysteme
  • RDF Databases / SPARQL-fähige Triple Stores? siehe unten im Abschnitt „Moderne Web-Anwendungsentwicklung” zu Semantic Web / Linked Open Data
  • DBaaS:
    • bit.io: kostenloses 10GB Postgres Datenbanksystem in der Cloud (Datensätze für Postgres bspw. von morenoh149)
    • OCI Cloud Free Tier: bis zu zwei kostenlose Oracle DB-Instanzen, je 20GB, verschieden Typen, bspw. Exadata oder NoSQL
    • dbfiddle: Browser-basierter SQL-Datenbank-Playground (diverse Datenbanksysteme)
    • MongoDB Atlas: Cloud-Variante des klassischen NoSQL-Systems (The „M” in MEAN and MERN) – kostenlos für 512MB
    • CockroachDB SQL-Playground: Cloud-Variante des NewSQL-Datenbanksystems (s. unten)
  • RDBMS Research Prototypes:
    • LeanStore: high-performance OLTP storage engine optimized for many-core CPUs and NVMe SSDs (Prof. Viktor Leis)
    • HyPer: main-memory-based relational DBMS for mixed OLTP and OLAP workloads (aquired by Tableau)
    • Umbra: a disk-based system with in-memory performance
    • Peloton: self-driving main-memory-based relational DBMS for mixed OLTP and OLAP workloads

Big Data

  • Archetype Petabyte-scale Frameworks (insb. analytische Workloads): Apache Hadoop (Two-Phase MapReduce, batch mode, „active Archive”), inkl. dessen Erweiterung durch Apache Spark (RDD, iterative algorithms, In-Memory)
  • NoSQL: DB-Engines Rankings Key/Value-Stores | Document-Stores | Wide-Column-Stores
  • Scalable OLAP: EXASOL (→ s.oben!): Closed-Source MPP-fähiges und In-Memory-basiertes ACID-konformes RDBMS (MPP-DBMS; OLAP workloads); für analytische Anwendungen wie BI/DWH, DSS und Data Science; sehr hohe SQL-Standard-Kompatibilität und hohe Oracle-SQL-Dialekt-Kompatibilität
    • Alternative: (€) Snowflake als Cloud-native DWaaS 
  • Scalable OLTP: CockroachDB [via Docker]: Open-Source NewSQL; PostgreSQL-compatible; built on a transactional and strongly-consistent key-value store
    • Alternative: YugabyteDB [via Docker]: Open-source NewSQL; PostgreSQL-compatible
  • Scalable HTAP: PingCAP TiDB: [via Quick Start Guide]: Open-source NewSQL (OLTP/HTAP workloads); MySQL-compatible; built on a transactional key-value store
  • λ/Lambda-Architektur (Nathan Marz) „separate batch vs. speed layer”: klassisch bspw. basierend auf Apache Hadoop + Apache Storm
  • ϰ/Kappa-Architektur (Jay Kreps) „unified batch-&speed-layer”: bspw. basierend auf Apache Flink 
  • Apache Druid: Time Series Database; real-time (i.e., sub-second) analytics database, with separation of ingest compute and query compute
    • Alternative: InfluxDB Open Source: Time Series Database; developed for operations monitoring and focuses on real-time (i.e., sub-second) analytics of IoT Data; core component of the TICK stack
  • SIEM:
    • Splunk Free (500MB pro Tag)
    • Cloud: Matano, eine „open source security lake platform for AWS”
  • Log-Analysen:
    • Elastic bzw. ELK-Stack, insbesondere L = Logstash [u.a. via Docker], Elastic ist im Kern eine verteilte Volltext-Suchmaschine, basierend auf Lucene
    • Cloud: logz.io (1GB pro Tag)
  • GPU-Computing:
    • OpenCL (Open Computing Language): Standardschnittstelle für paralleles Rechnen mit aufgaben- und/oder datenbasierter Parallelität, als HW-Plattform-Abstraktion für CPUs, GPUs, DSPs, FGPAs, usw.
  • Weiterführende Quellen: Awesome Big Data | Hadoop Ecosystem Table

Moderne Web-Anwendungsentwicklung

Mobile Apps

Semantic Web / Wissensrepräsentation

Verteilte Systeme

Cloud Computing

Operations Research (OR) / Optimization

ML / AI

Low-Code / No-Code

Edge / Fog / IoT

dApps

  • Substrate: Blockchain Framework, for multichains, designed to seamlessly connect to Polkadot
  • HardHat: Ethereum development environment  
  • LBRY: blockchain-based file-sharing, social networks and video platform („open, free, and fair network for digital content”)
  • DappRadar: Discover popular decentralized Apps
  • Weiterführende Quellen: Awesome dApps | Awesome web3

Security

Professionell:

Persönlich:

Privacy

Professionell:

Persönlich:

  • Open-Source Intelligence (OSINT): Awesome OSINT
  • privacy.sexy: (Personal) Windows Hardening
  • PrivaZer [choco install privazer.install]: Free PC cleaner & Privacy tool that cleans unwanted traces
  • eBlocker: (Personal) Web Privacy Protection
  • Tor Browser [choco install tor-browser]: explore the internet with privacy
  • Quad9: Log-free GDPR-compliant DNS
  • AdGuard DNS: Block Ads via DNS (z.B. in Smart TVs und IoT-Gerätern, immer dann wenn keine eBlocker Trusted Root-CA installierbar ist)
  • Alternativen:
  • Privacy Badger: browser extension to block invisible trackers
  • Checker:
  • E-Mail Accounts: Tutanota (aus Hannover, kostenlose 1GB), Proton (aus der Schweiz, kostenlose 1GB)
  • Auto-Unsubscribe Newsletter: unsubscribe-gmail, hatchet
    • (Im Kontext eines Gmail-Accounts benötigen praktisch alle Werkzeuge, außer unsubscribe-gmail, eine aktive 2FA des Gmail-Kontos)
    • Kostenbehaftete aber empfehlenswerte Alternative (€): Leave Me Alone
    • Kostenlose Alternativen, aber diese Werkzeuge selbst sind DSGVO-problematisch (Dienstleister kriegt Zugang zum Konto und erhebt Statistiken, welche vermarktet werden): Unroll.me, Cleanfox [Eigentlich ist nur deren Namen zu kennen wichtig, dadurch kann man per MetaGer-Suche nach ­­­Alternativen zu Unroll.me suchen und dann so etwas wie Leave Me Alone finden...]­
  • Data Privacy Management
    • Werkzeuge, welche Data Broker kontaktieren und ihnen Lösch-Aufforderungen schicken
    • (€) Anbieter: IncogniDeleteMeIDXKanary
  • sdelete [choco install sdelete --version=1.61.0.20160210]: Sicheres Löschen von Dateien
    • (ich empfehle die Version 1.61; aber Obacht: die Parameter-Semantik hat sich zur 2.0 geändert, in 1.61 wird „-c” für „zero free space” verwendet bspw. „sdelete -c C: -nobanner”)
  • ExifTool [choco install exiftool]: reading, writing and editing meta information (many supported file types)
  • BatchPurifier: kostenpflichtiges aber wertvolles Werkzeug zur Metadaten-Tiefenreinigung („Sanitize”) von Büro- und Multimedia-Dateien
    • Auch für den persönlichen Gebrauch (~$19), ABER VORSICHT: "The number of computers on which you may activate this software may not exceed the number of computer licenses that you have purchased. Once a license is activated, it's tied to the specific computer and cannot be transferred to another. Regardless of the circumstances." (Also muss man bei einem Hardware-Wechsel seines PCs eine neue Lizenz kaufen; preislich auch privat machbar, aber seien Sie vorsensibilisiert, denn dieses Modell sind End-User nicht gewöhnt.)
  • Weiterführende Quellen: Privacy Tools | Awesome Privacy #1 | Awesome Privacy #2 | Awesome Privacy #3