و در حال حاضر نسخه که درست کردم به این صورت هستش که برای هر وب سایت یک فایل جدا داره
و الان میخوام کاری انجام بدم که فقط url های هر سایت رو داشته باشم و به روشی که نمیدونم چیه و الان دارم از شما دوستان میپرسم
به اسکریپت های خودم پاسش بدم
دقیقا مشکل من الان اینه که نمیدونم چطور اینو اجرا کنم که با داشتن ادرس سایت اونو به صورت زنجیره به اسکریپت های خودم بدم و خروجی هر اسکریپت رو به اسکریپت دیگه
بدون این که برای هر سایت فایل جداگانه ایجاد شده باشه
درست متوجه منظورتون نشدم.
منظور شما از «یه فایل جداگانه» چیه؟ یعنی یه اسکریپت پایتون جداگانه؟ یعنی برای هر وبسایت یک اسکریپت پایتون کاملا مستقل نوشتید که فقط برای crawl کردن همون وبسایته؟
تنها چیزی که به ذهنم میرسه اینه که برای هر دامنه، یه فایل کانفیگ داشته باشید و اسکریپت شما با استفاده از اون فایل (با خوندن قوانینی که توی اون فایل نوشته شده) بفهمه کدوم تگهای صفحه رو باید بخونه.
مثلا شما توی فایل کانفیگ مربوط به دامنهی devheroes.club که اسمش میتونه devheroes.club.conf باشه، بنویسید:
html>body>div.content>p
و نرمافزار شما میاد توی اون صفحه دنبال تگ html میگرده، داخلش دنبال body و داخلش دنبال div که کلاس content داشته باشه و تگهای p داخلش رو میخونه.
نمیدونم چطوری میشه توی پایتون پیادش کرد. نیاز هست که یه جور DSL ساخته بشه و مسلما باید خیلی خفنتر از مثالی که زدم باشه. یه کم سخته ولی میتونه خیلی متعطف باشه برای کاربر نهایی.
حتی میتونید یه نرمافزار gui طراحی کنید که کاربر داخل اون بتونه کدهای فایل کانفیگ رو بنویسه و در لحظه ببینه که نتیجهی این کانفیگی که نوشته چی میشه. چیزی شبیه این که برای تست regex ساخته شده.