HTML Agility Pack

Cum fac simplu citirea de pagini de pe Web ? Prima varianta este sa incercati cu WebRequest , http://msdn.microsoft.com/en-us/library/system.net.webrequest.aspx . Dar ar trebui sa parsati HTML-ul care NU este XHTML … si imediat va ginditi ca mai sunt sute altii care au aceeasi problema. Asa ca am gasit HTML Agility Pack , http://www.codeplex.com/htmlagilitypack , care stie sa transforme un HTML in XHTML.

Codul pentru incarcarea unei pagini e ridicol de simplu :

HtmlWeb hw = new HtmlWeb();
hw.AutoDetectEncoding = true;
HtmlDocument  doc = hw.Load(Url);
HtmlNode NodeRoot = doc.DocumentNode;

Si de la NodeRoot puteti incepe XPATH cu SelectNodes

Leave a Reply

Your email address will not be published. Required fields are marked *