پیام سپاهان - زومیت / بنیاد ویکیمدیا مجموعهای سفارشی و اختصاصی از دادههای ویکیپدیا را برای مقابله با رباتهای خزنده، در اختیار توسعهدهندگان قرار میدهد.
بنیاد ویکیمدیا برای مقابله با رباتهای خزنده از سوی توسعهدهندگان هوش مصنوعی، دیتاستهای اختصاصی منتشر کرده که برای آموزش مدلهای هوش مصنوعی بهینهسازی شده است.
ویکیمدیا میگوید با همکاری Kaggle (پلتفرم متعلق به گوگل برای جامعهی دادهکاوی) نسخهی آزمایشی مجموعهای از محتوای ساختاریافتهی ویکیپدیا به زبانهای انگلیسی و فرانسوی را منتشر کرده است.
بازار
![]()
به گفتهی بنیاد ویکیمدیا، دیتاست مذکور بهگونهای طراحی شده که با جریانهای کاری یادگیری ماشین سازگار باشد و دسترسی توسعهدهندگان به محتوای قابلخواندن توسط ماشین را برای اهدافی مانند مدلسازی، ریزتنظیم، ارزیابی، همراستاسازی و تحلیل آسانتر کند.
محتوای مورد بحث دارای مجوز آزاد است و شامل خلاصههای پژوهشی، توصیفهای کوتاه، پیوند به تصاویر، دادهها و بخشهای مختلف مقالهها میشود؛ بااینحال، منابع و عناصر غیرنوشتاری مانند فایلهای صوتی حذف شدهاند.
ویکیمدیا میگوید ارائهی محتوا در قالب فایلهای JSON ساختاریافته که جایگزینی مناسب و کمهزینهتر برای روشهای مرسوم استخراج یا پردازش متن خام مقالات است؛ فرایندهایی که باعث فشار سنگین روی سرورهای ویکیپدیا شدهاند چون رباتهای خزندهی هوش مصنوعی بهطور مداوم درحال مصرف پهنای باند این پلتفرم هستند.
درحالحاضر ویکیمدیا با شرکتهایی مانند گوگل و Internet Archive قرارداد اشتراکگذاری داده دارد؛ اما همکاری با Kaggle میتواند این اطلاعات را برای شرکتهای کوچکتر و دانشمندان مستقل دردسترس قرار دهد.
http://www.sepahannews.ir/fa/News/957822/دادههای-ویکیپدیا-در-اختیار-توسعهدهندگان-هوش-مصنوعی