phpbar.de logo

Mailinglisten-Archive

AW: [php] OT: Inhalt aus dynamisch generierten Seiten extrahieren.

AW: [php] OT: Inhalt aus dynamisch generierten Seiten extrahieren.

Frank Liebelt php_(at)_phpcenter.de
Sat, 8 Jun 2002 21:50:04 +0200


Hallo,

>>Gibt es Programme, mit denen ich aus einem Diskussionsforum bei domeus
die Inhalte extrahieren und statische HTML-Seiten generieren kann? Hat
jemand sowas schon gemacht? Mit Web-Copier hatte ich keinen Erfolg.

Wie wäre es wenn Du das wie folgt machst.

<?
$webpage =
fread(fopen("http://die.url.com/und.seite.die.du.willst.html", "r"),
100000); // Was will ich denn haben ?

$von= strpos($fd, "<center>"); // Von wo aus soll geklaut werden ? Wenn
die ganze Seite dann halt <HTML>
$bis= strpos($fd, "</body>"); // Bis wohin soll geklaut werden ? Bis
</HTML>
$lang = $bis - $von; // Errechne wieviel Bytes das sind!
$source=substr($webpage, $von, $lang); // Seite vom Start bis x Bytes in
$source schreiben

$source = str_replace("CLASS=\"HELP\"","CLASS=\"TAB\"",$source); // Hier
kannst Du Passagen der Seite mit eigenen ersetzen.
$source = str_replace("face","color=\"#FFFFFF\" face",$source); // Und
noch einmal...

echo $source; // Zeige die nette Seite!
?>

Wenn Du die Seite bei Dir speichern möchtest kannst Du den Inhalt von
$source ja in eine Datei schreiben und schon ist alles da.
Es sollte noch beachtet werden, dass in den obigen Beispiel </body>
nicht mit gezogen wird. Wenn Du also </body> auch ziehen möchtest dann
solltest Du bei $bis den nächsten HTML-Tag nach Body verwenden.

Die Geschwindigkeit mit der der Code abgearbeitet wird liegt mit der
Zeit zusammen die benötigt wird um die $webpage einzulesen. Die
Abarbeitung geht auf meinen PII300 128MB Server weit unter 1 Sek. von
statten.

Ich hoffe, dass dies Dein Problem beseitigt oder zumindest einen Ansatz
liefert.

Mit freundlichen Grüßen
Frank Liebelt


php::bar PHP Wiki   -   Listenarchive