کتابخانه استخراج اطلاعات محصول از فروشگاه

سلام عزیزان بنده دنبال کتابخانه از پایتون هستم که بشه با دادن لینک صفحه محصول از یه فروشگاه اطلاعات اون محصول مثلاً قیمت و عنوان و … رو استخراج کنه بدون این که برای سایت مورد نظر قبلاً یه پترن آماده شده باشه

و اگه هم نیست ممنون میشم راهنمایی کنین از طریق یادگیری ماشین چطور میشه در مسیر ساخت همچین کتابخانه رفت
خلاصه یه مشاوره بده سپاس

همه چیز که با یه دونه import حل نمیشه! چیزی که شما میخواید توی هاگوارتز هم قفله.
و Machine Learning هم برای این کار مناسب نیست، اصلا روش کارش چیز دیگه‌ایه.

باید از لایبرریهای crawler و scraper موجود استفاده کنید و برای هر وبسایت پترن مخصوص بسازید.

1 Likes

باید خودت دستی crawl کنی و استخراج کنی. حالا کتابخانه هایی هستن که خودشون برن تقریبا همه‌ی محصولات رو پیدا کنند ولی اینکه چطور و چه اطلاعاتی استخراج بشه رو باید خودت تعیین کنی. چون سایت با سایت فرق داره و یک چیز استانداردی لزوماً نیست که برای همه سایت‌ها جواب بده.
اینم که میگی از طریق یادگیری ماشین، من تاحالا ندیدم ولی میتونی خودت یک مدلی بسازی که حدس بزنه مثلا کجا قیمت هست کجا عنوان هست و … همینو شاید بذاری توی گیتهاب کلی طرفدار پیدا کنه.

توی پایتون این برای crawl کردن معروفه

1 Likes

درسته الان هم کاری که انجام دادم همینه ولی مطمئن ا یه الگو کلی میشه پیدا کرد با تحلیل صفحه ها

درسته دارم ازش استفاده میکنم

توی دنیا و زمانی زندگی میکنیم که هنوز یه regex مطمئن و صددرصد درست، برای email وجود نداره.

2 Likes

خوب به نظر من این خودش میتونه یه دلیل باشه برای تولید یه مدل پیشرفته با AI

نیازی به مدل جدید نیست. با Expert Systems میشه اینو پیاده کرد.
ولی هزینه‌ی زیادی داره، زمان و نفرات زیادی هم نیاز داره.

1 Likes

ورودی این مدل AI چی قراره باشه؟ من انسان با دیدن صفحه وب و ساختار و محل نوشته‌ها و همچنین خود نوشته می‌تونم تشخیص بدم که عنوان کجاست، حالا شما به مدل چی قراره پاس بدین؟ اگر قرار باشه HTML رو پاس بدین، آیا اگه همین HTML خالی بدون CSS رو خودتون بخونید می‌تونید تشخیص بدین که عنوان محصول کجاست؟ اگر نه پس مدل هم نمی‌تونه، اگه قرار باشه هم HTML و هم CSS داده بشه مدل باید کلی train بشه تا بتونه رابطه بین HTML و CSS رو تشخیص بده تا بفهمه title معمولا چه جور CSS ای میگیره و …
راه منطقی‌تر شاید این باشه که تصویر اون سایت داده بشه و مدل محل عنوان رو حدس بزنه.
در هرصورت برای همه اینا شما نیاز به داده با label دارین، یعنی اینکه یه expert برای کلی نمونه محل عنوان رو مشخص کرده باشه.
البته همه اینا برای استفاده از الگوریتم‌های machine learning بود، شاید با روش‌های دیگه هم بشه به نتیجه رسید، مثلا با این روش که با یه سری الویت و and و or شروع کنه به گشتن دنبال عنوان و قیمت و …، مثلا اگه توی متن چیزی تحت عنوان “قیمت 2,000,000 ریال” وجود داره و فقط یه دونه از همین موجوده احتمال خیلی زیاد قیمت همینه، ولی در کل به این راحتی نیست که یه regex براش بنویسی و کار کنه، ممکنه به هزار شکل دیگه قیمت درج شده باشه.

3 Likes