öncelikle \t ve \n 'ler tab ve enter'lar.
file_get_contents (ya da benzeri bir method) ile aldığın html sayfasını $sayfa diye bir string'e atıyorsun.
$sayfa = f_g_c(
bıdıbıdı.com/bıdı.html);
sonra
str_replace ile \t ve \n'leri siliyorsun;
$sayfa = str_replace("\t","",$sayfa);
$sayfa = str_replace("\n","",$sayfa);
Sonra regex komutları daha verimli çalışıyor.
Neyse, az önceki mesajımdan sonra şunu kullanmanı şiddetle öneriyorum;
Çok basit, ve regex'le filan uğraşmana gerek yok.
simplehtmldom.sourceforge.net