تشخیص مقاله بودن یک صفحه وب

سلام دوستان من میخواستم یک اسکریپت بنویسم که تشخص بده که صفح وب یه مقاله هست یا خیر
روش های زیادی و قانون های زیادی به کار بردم ولی هر کدوم مشکل های خودشون رو داشتن میخواستم نظر شما رو هم بدونم که چه قوانینی بزارم

منظور از مقاله بودن دقیقا چیه و یک صفحه که مقاله هست چه خصوصیت هایی داره؟

1 Like

منظورم اینه که یه تبلیغ نباشه کلا یه محتوا برای کاربر باشه مثل یه مقاله برنامه نویسی یا یه خبر جدید و…

من با elastic search کار نکردم ولی یه مقدار درموردش تحقیق کردم که بدونم چیه و چطور کار میکنه.
یه چیزی داره به نام TF-IDF یعنی Term Frequency * Inverse Document Frequency که یعنی «تعداد تکرار یک کلمه ضربدر تعداد داکیومنتهایی که اون کلمه توش وجود داره»

مثلا کلمه‌ی «و» یا «هر» یا «یا» توی همه‌ی داکیومنتهای شما وجود داره. پس این کلمه مهم و کلیدی نیست. کلمه‌ی «مستأصل» احتمالا از هر ۵۰۰تا داکیومنت توی یکی وجود داره و قطعا توی تبلیغاتیها نیست.
این میتونه یکی از روشهای تشخیصتون باشه. اینکه ببینید داکیومنتهایی که کلمات کلیدی مشابه دارن رو توی یه دسته‌بندی قرار بدید و دسته بندی که کلمات خاص «برنده» و «خوش شانس» و «جایزه» داره رو به عنوان تبلیغات ببینید. (و خود elastic search هم میتونه گزینه‌ی خوبی برای نگهداری و پردازش متنهاتون باشه. مسلما بهتر از یه دیتابیس sql یا no-sql معمولی عمل میکنه)

البته بازم تقریبا غیر ممکنه.
حداقل چیزی که میشه یک ذره روش حساب باز کرد، یه سیستم natural language processor هست که خب پروژه‌ی بزرگی میشه ولی درعوض فعل و فاعل و وزن جمله (جمله‌ی دستوری، خبر خوب، خبر بد و…) رو هم تشخیص میده.

البته این چیزی بود که به ذهن من میرسید. ممکنه راههای خیلی بهتری هم وجود داشته باشه.

1 Like