Big Data: 5 Millionen Datensätze pro Tag

The project is mainly used for crawling PornHub, the largest adult site in the world. In doing so it retrieves video titles, duration, mp4 link, cover url and direct PornHub url.

Quelle: Github

Ich bin ja auch immer Suche nach Datensätzen. Meist zu Testzwecken, um die SAP HANA ein wenig zu fordern. Der hier präsentiert Ansatz an viele Daten zu kommen ist dagegen leicht abweichend von meinen Ansätzen. So fängt dieser Benutzer bei der weltweit größten Seite an und bastelt einen einfachen Scraper aus Python und dem Scrapy Framework in eine MongoDB, um PornHub zu scrapen – also strukturiert Titel, Video URL, etc. zu bekommen. Der Benutzer schreibt selbst für das Repository, dass es lediglich eine Studie ist… und man das Repository nicht für geschäftliche oder auch private Nutzung betreiben soll.

Ich habe mich eine Zeit lang auch mit dem Scrapen (Bots) beschäftigt und es bewegt sich, nach deutschen Recht, in einer Grauzone. Im Prinzip macht es jeder, aber niemand spricht darüber. Einer der größten Scraper ist Google selbst. Alternativ sollte man über offizielle APIs der Anbieter gehen, was ich auch empfehlen kann. Was man beachten sollte beim Scrapen

  • Generell gilt zunächst die robots.txt beim Scrapen zu respektieren. Ich habe bislang noch keine Seite erlebt, die keine robots.txt vorweisen. Dazu geht man auf die entsprechende Webseite und ruft die robots.txt mittels /robots.txt auf. Im Falle von PornHub, wäre die hier die Addresse. Hier findet man ein meist standardisiertes Regelwerk an Regeln, welche genau festlegen was man nicht scrapen darf (Disallow) oder was man darf (Allow) bzw. welche Bots erwünscht oder unerwünscht sind.
  • Die Häufigkeit berücksichtigen. Manchmal steht eine Zahl in der robots.txt die den Abstand zwischen dem Besuche eines Bots angibt. Generell verursacht jede Anfrage Traffic. Im Prinzip macht ein DDoS Angriff nichts anderes als zu viele Anfragen zu senden, so dass der Server nicht mehr reagieren kann. Richtig in das Geld kann es gehen, wenn jemand nach Traffic das Hosting bezahlt und somit quasi für jeden Zugriff eures Bots etwas mehr zahlen muss.

Verwandte Beiträge

Leave a comment

*