C#得到网页源码问题

weblogical 2008-12-22 10:49:35

public string getCode(string url)

        {

            if (!Regex.IsMatch(url, @"(http(s)?://)?([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?", RegexOptions.IgnoreCase))

            {

                throw new Exception("The url is invalid!");

            }

            try

            {

                //WebRequest mywebReq = WebRequest.Create(url);

                //WebResponse mywebRep = mywebReq.GetResponse();

                //Stream mystream = mywebRep.GetResponseStream();

                //StreamReader sr = new StreamReader(mystream, e);

                WebClient myWebClient = new WebClient();

                myWebClient.Credentials = CredentialCache.DefaultCredentials;

                byte[] myDataBuffer = myWebClient.DownloadData(url);



                string getValue = Encoding.Default.GetString(myDataBuffer);

                Match charSetMatch = Regex.Match(getValue, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);

                string webCharSet = charSetMatch.Groups[2].Value;

                if (webCharSet == null || webCharSet == "")

                {

                    webCharSet = "utf-8";

                }

                getValue = Encoding.GetEncoding(webCharSet).GetString(myDataBuffer);

                return getValue;

            }

            catch

            {

                throw new Exception("Request timed out!");

            }

        }

我打印了出来，发现源码比较少，比如百度可以完全打印出来；换一个比较长的就不行了，请问怎么回事？

...全文

115 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

jefflovejava 2008-12-22

打赏
举报

Match charSetMatch = Regex.Match(getValue, "<meta([^<]*)charset=([^<]*)\"", RegexOptions.IgnoreCase | RegexOptions.Multiline);
string webCharSet = charSetMatch.Groups[2].Value;
if (webCharSet == null || webCharSet == "")
{
webCharSet = "utf-8";
}
getValue = Encoding.GetEncoding(webCharSet).GetString(myDataBuffer);

不用这一段也不行么？

weblogical 2008-12-22