سلام دوستان من میخواستم یک اسکریپت بنویسم که تشخص بده که صفح وب یه مقاله هست یا خیر
روش های زیادی و قانون های زیادی به کار بردم ولی هر کدوم مشکل های خودشون رو داشتن میخواستم نظر شما رو هم بدونم که چه قوانینی بزارم
منظور از مقاله بودن دقیقا چیه و یک صفحه که مقاله هست چه خصوصیت هایی داره؟
منظورم اینه که یه تبلیغ نباشه کلا یه محتوا برای کاربر باشه مثل یه مقاله برنامه نویسی یا یه خبر جدید و…
من با elastic search کار نکردم ولی یه مقدار درموردش تحقیق کردم که بدونم چیه و چطور کار میکنه.
یه چیزی داره به نام TF-IDF یعنی Term Frequency * Inverse Document Frequency که یعنی «تعداد تکرار یک کلمه ضربدر تعداد داکیومنتهایی که اون کلمه توش وجود داره»
مثلا کلمهی «و» یا «هر» یا «یا» توی همهی داکیومنتهای شما وجود داره. پس این کلمه مهم و کلیدی نیست. کلمهی «مستأصل» احتمالا از هر ۵۰۰تا داکیومنت توی یکی وجود داره و قطعا توی تبلیغاتیها نیست.
این میتونه یکی از روشهای تشخیصتون باشه. اینکه ببینید داکیومنتهایی که کلمات کلیدی مشابه دارن رو توی یه دستهبندی قرار بدید و دسته بندی که کلمات خاص «برنده» و «خوش شانس» و «جایزه» داره رو به عنوان تبلیغات ببینید. (و خود elastic search هم میتونه گزینهی خوبی برای نگهداری و پردازش متنهاتون باشه. مسلما بهتر از یه دیتابیس sql یا no-sql معمولی عمل میکنه)
البته بازم تقریبا غیر ممکنه.
حداقل چیزی که میشه یک ذره روش حساب باز کرد، یه سیستم natural language processor هست که خب پروژهی بزرگی میشه ولی درعوض فعل و فاعل و وزن جمله (جملهی دستوری، خبر خوب، خبر بد و…) رو هم تشخیص میده.
البته این چیزی بود که به ذهن من میرسید. ممکنه راههای خیلی بهتری هم وجود داشته باشه.