Back to Question Center
0

سیمالٹ ماہر کے ساتھ ویب سکریپنگ

1 answers:

ویب سکریپنگ، ویب کٹائی کے طور پر بھی جانا جاتا ہے، ویب سائٹس سے اعداد و شمار نکالیں. ویب کاشتکاری سافٹ ویئر HTTP یا ویب براؤزر کا استعمال کرکے براہ راست ویب تک رسائی حاصل کرسکتا ہے. جبکہ سافٹ ویئر صارف کے ذریعہ عمل کو دستی طور پر لاگو کیا جاسکتا ہے، عام طور پر یہ ٹیکنالوجی ایک ویب کرالر یا بوٹ کے ذریعہ ایک خودکار عمل میں لاگو ہوتا ہے.

ویب سکریپنگ ایک ایسا عمل ہے جب منظم ڈیٹا کو ویب سے کاپی رائٹ کے لۓ جائزے اور بازیابی کیلئے کاپی رائٹ میں نقل کیا جاتا ہے. اس میں ایک ویب صفحہ لانے اور اس کے مواد کو نکالنے میں شامل ہے. صفحے کی مواد کو پیش کیا جا سکتا ہے، تلاش کی، دوبارہ ترمیم اور اس کے اعداد و شمار کو مقامی اسٹوریج آلہ میں نقل کیا جاسکتا ہے.

ویب صفحات عام طور پر ٹیکسٹ پر مبنی مارک اپ زبانیں جیسے XHTML اور ایچ ٹی ایم ایل کی تعمیر کی جاتی ہیں، دونوں میں متن کے شکل میں مفید اعداد و شمار شامل ہیں. تاہم، ان میں سے بہت سے ویب سائٹس کو انسانی اختتام کے صارفین کے لئے ڈیزائن کیا گیا ہے اور نہ ہی خود کار استعمال کے لئے. اس وجہ سے سکریپنگ سوفٹ ویئر پیدا ہوا تھا.

بہت مؤثر طریقے سے ویب سکریپنگ کے لئے ملازم کیا جا سکتا ہے. ان میں سے کچھ ذیل میں وضاحت کی گئی ہے:

1. انسانی کاپی اور پیسٹ

وقت وقت سے، یہاں تک کہ سب سے بہتر ویب سکریپنگ کا آلہ انسان کی دستی کاپی اور پیسٹ کی درستگی اور کارکردگی..اس صورتحال میں یہ زیادہ تر لاگو ہوتا ہے جب ویب سائٹ کو خود کار طریقے سے مشین آٹومیشن کو روکنے کے لئے رکاوٹ قائم کی جاتی ہے.

2. متن پیٹرن ملاپنگ

یہ ویب صفحات سے اعداد و شمار کو نکالنے کے لئے استعمال کیا جاتا کافی سادہ لیکن طاقتور نقطہ نظر ہے. یہ UNIX کے grep کمان یا صرف دیئے گئے پروگرامنگ زبان کی ایک باقاعدگی سے اظہار سہولت کی بنیاد پر ہو سکتا ہے، مثال کے طور پر، پطرون یا پرل.

3. HTTP پروگرامنگ

HTTP پروگرامنگ دونوں جامد اور متحرک ویب صفحات کے لئے استعمال کیا جا سکتا ہے. ڈیٹا ساکٹ پروگرامنگ کے استعمال کرتے ہوئے HTTP درخواستوں کو دور دراز ویب سرور پر بھیجنے کے ذریعے نکالا جاتا ہے.

بہت سے ویب سائٹس میں صفحات کا وسیع مجموعہ ہے جس میں متحرک طور پر بنیادی ڈھانچہ ذریعہ جیسے ڈیٹا بیس کے ذریعہ پیدا ہوتا ہے. یہاں، اسی قسم کے زمرہ سے متعلق ڈیٹا اسی طرح کی صفحات میں انکوڈ ہے. ایچ ٹی ایم ایل کی پھانسی میں، ایک پروگرام عام طور پر معلومات کے کسی مخصوص ذریعہ میں اس سانچے کا پتہ لگاتا ہے، اس کے مواد کو دوبارہ حاصل کرتا ہے اور پھر اس سے ملحقہ شکل میں ترجمہ کرتا ہے، جس کا حوالہ دیا جاتا ہے.

5. ڈوم پھانسی

اس تخنیک میں، ایک پروگرام مکمل ویب براؤزر میں ملتا ہے جیسے موزیلا فاکس فاکس یا انٹرنیٹ ایکسپلورر کلائنٹ سائڈ سکرپٹ کی طرف سے پیدا متحرک مواد کو دوبارہ حاصل کرنے کے لئے. یہ براؤزر بھی ویب صفحات کو ڈوم کے درخت میں ایسے پروگراموں پر منحصر کرسکتے ہیں جو صفحات کے حصوں کو نکال سکتے ہیں.

6. سیمنٹیکل تشریح کی شناخت

آپ کو سکریپ کرنے کا ارادہ رکھنے والے صفحات میں سمارٹ مارک اپ اور تشریحات یا میٹا ڈیٹا، جو مخصوص اعداد و شمار کے ٹکڑوں کو تلاش کرنے کے لئے استعمال کیا جا سکتا ہے کو قبول کرسکتے ہیں. اگر صفحات میں ان تشریحات کو سراہا جاتا ہے تو، یہ تکنیک ڈوم پیسنے کے خصوصی کیس کے طور پر دیکھا جا سکتا ہے. ان تشریحات کو ایک مصنوعی پرت میں بھی منظم کیا جا سکتا ہے، اور پھر ویب صفحات سے الگ الگ محفوظ اور منظم کیا جا سکتا ہے. یہ سکریپرز کو ڈیٹا سکیما حاصل کرنے کے لۓ اس پرت سے بھی حکم دیتا ہے اس سے پہلے کہ اس صفحے کو سکیٹ کریں.

1 week ago
سیمالٹ ماہر کے ساتھ ویب سکریپنگ
Reply