Weitere Posts

Datensätze für Machine Learning

Datensätze für Machine Learning

Selbst die tollste “Künstliche Intelligenz” oder das beste “Deep Learning” System bringt nichts, wenn man keine Daten hat. Irgend etwas muss da sein, um die System zu trainieren, um sie zu spezialisieren und je mehr echte Daten umso besser und genauer die Funktionsweise des Systems. Wenn man allerdings nicht gerade auf einem Big Data Schatz […]

Interactive Map for Architecting Big Data Pipelines

Interactive Map for Architecting Big Data Pipelines

Für wen HDFS, Spark, Hive, Storm oder RDS mehr oder weniger böhmische Dörfer sind, den kann ich die “Interactive Map for Architecting Big Data Pipelines” empfehlen. Man startet in einer Übersichtskarte gegliedert nach Extraktion, Transformation und Laden (ETL) anhand einer Big Data Architektur. Bei Absprung in einen Bereich sieht man die aktuellen Möglichkeiten, jede Möglichkeit […]

GreenPiThumb: Green IT mal anders gedacht

GreenPiThumb: Green IT mal anders gedacht

This is the story of GreenPiThumb: a gardening bot that automatically waters houseplants, but also sometimes kills them. Quelle: mtlynch.io Ich beschäftige mich seit einiger Zeit, wie so viele andere, mit eigenen Projekten, die ich auf einer Raspberry PI umsetzen kann. Inzwischen bin ich den nächsten Schritt gegangen und habe mir ein Breadborad und einiges Zubehör […]

Slate.js: …etwas mehr als nur Textarea

Slate.js: …etwas mehr als nur Textarea

This is editable rich text, much better than a <textarea>! Since it’s rich text, you can do things like turn a selection of text bold, or add a semantically rendered block quote in the middle of the page […] Quelle: Slate.js Erst gestern ging es um das Ersetzen von Disqus durch Github Kommentare und schon […]

Kommentare: Github statt Disqus

Kommentare: Github statt Disqus

After looking into Disqus load-time behaviour I was pretty shocked what I was forcing on people loading the site (although you really should be using the likes of Privacy Badger and uBlock Origin). Quelle: Gazoo.vrv Ein sehr schöner Blogbeitrag von Don Williamson. Es geht darum Disqus durch Github Kommentare zu ersetzen. Disqus bietet Kommentarfunktion as […]

Big Data: Deutscher Wetterdienst

Big Data: Deutscher Wetterdienst

Kostenfreie Grundversorgung “Globaler Datensatz” per FTP mit Wetterberichten, Wetterdaten und Grafiken. Quelle: Deutscher Wetterdienst Vor einiger Zeit begann der Deutsche Wetterdienst seine Wetterdaten kostenfrei zu Verfügung zu stellen. Wenn ihr also Big Data braucht, dann werdet ihr hier fündig. Für diesen Zug kassierte der Deutsche Wetterdienst vor einigen Wochen aber auch massiv Kritik. Einerseits von […]

Bonobo: ETL für Python 3.5+

Bonobo: ETL für Python 3.5+

Bonobo is a data-processing toolkit for python 3.5+ Quelle: Bonobo Project Seit einiger Zeit schreibe ich für meine private SAP HANA, express edition eigene Extraktoren, vorwiegend in Python. Dabei hatte ich zu Beginn hauptsächlich die Daten von A nach B geschoben und einen Großteil der Transformation in der SAP HANA ausgeführt. Allerdings kam es auch […]

PyTorch: Python Deep Learning Framework

PyTorch: Python Deep Learning Framework

Tensors and Dynamic neural networks in Python with strong GPU acceleration. Quelle: PyTorch.org Der Titel sagt schon alles. PyTorch ist ein Open Source Deep Learning Framework basierend auf Python. An der Entwicklung beteiligen sich namhafte Unternehmen wie Facebook, Twitter, Nvidia, aber auch die Standford University oder die University of Oxford. Wer sich darunter nicht so viel […]

Tabula: Tabellen aus PDF extrahieren

Tabula: Tabellen aus PDF extrahieren

Tabula helps you liberate data tables trapped inside PDF files. Quelle: Github Wer kennt es nicht: Tabellen in PDF. Sei es aus Studien, Geschäftsberichten oder einfach aus dem Export einer Webseite. Und wie oft habe ich schon probiert mit Kopieren und Einfügen, solche Daten in Excel zu bekommen – und jedes Mal ohne Format und […]

Big Data: 5 Millionen Datensätze pro Tag

Big Data: 5 Millionen Datensätze pro Tag

The project is mainly used for crawling PornHub, the largest adult site in the world. In doing so it retrieves video titles, duration, mp4 link, cover url and direct PornHub url. Quelle: Github Ich bin ja auch immer Suche nach Datensätzen. Meist zu Testzwecken, um die SAP HANA ein wenig zu fordern. Der hier präsentiert […]