Ajwa or Medjool: a binary balanced dataset to teach machine learning عجوة أو مجدول: مجموعة بيانات متوازنة الصنفين لتدريس تعلم الآلة‏

Saudi Arabia is one of the world's largest producers of dates. Moreover, Saudi Arabia has been ranked first worldwide in the government strategy index for Artificial Intelligence. Machine learning is also one of the most widespread topics of artificial intelligence and one of the emerging technologies with a potential future paving the way for the fourth industrial revolution. The Saudi government is giving a primary importance to machine-learning teaching to produce a generation capable of creative solutions. However, many of the teaching sources of this discipline are in English, with an apparent lack of Arabic sources. Thus, this paper seeks to bridge this gap by creating a dataset generated from our Saudi environment using two of the easiest data mining platforms: Orange and Teachable Machine and none of them requires programming. This study is the first work to establish a balanced dataset to classify two categories of organic Saudi dates. The dataset contains three subsets: 1) a dataset containing hand-crafted features to classify two types of organic dates (Ajwa or Medjool); 2) a dataset containing tabular data with features created automatically using deep learning to classify the two organic date types (Ajwa or Medjool), and 3) a dataset for images of Ajwa and Medjool dates. In addition, this study is considered the first work in Arabic using shallow machine learning and deep learning to create accurate models for classifying organic Saudi dates, which would enable scholars, researchers, and developers to create machine learning applications for classifying Saudi dates in various forms like websites, mobile apps, microcontrollers, tiny machine learning and internet of things applications. تعد المملكة العربية السعودية أحد أكبر منتجي التمور في العالم، وهي الدولة الأولى عالميّاً في مؤشر الإستراتيجية الحكومية للذكاء الاصطناعي، كما يعد تعلم الآلة واحداً من أكثر موضوعات الذكاء الاصطناعي انتشاراً وأهمية هذه الأيام، وهو أحد التقنيات الناشئة التي يُتوقع لها مستقبل باهر، خاصة في الثورة الصناعية الرابعة المرتكزة على الذكاء الاصطناعي وتطبيقاته التي تخدم البشرية في مجالات عديدة. ويوجد اهتمام حكومي في السعودية بتدريس الذكاء الاصطناعي وتعلم الآلة واستخدامهما لإنتاج جيل يبتكر حلولاً مبدعة. وكثير من مصادر هذا العلم إنجليزية، مع شح واضح في المصادر العربية؛ لذلك تسعى هذه الورقة لسد تلك الفجوة من خلال إنشاء مجموعة بيانات من بيئتنا السعودية باستخدام واحد من أسهل برامج تنقيب البيانات "أورانج" وموقع "تيتشابل مشين" اللذَّين لا يحتاجان إلى برمجة. وتتمثل أهمية الدراسة في التالي: أنه أول بحث ينشئ مجموعة بيانات متوازنة الصنفين لتصنيف التمور السعودية العضوية تتكون من ثلاث مجموعات فرعية: الأولى: تحوي البيانات المجدولة ذات الخصائص اليدوية لتصنيف التمور العضوية "عجوة أو مجدول"، والثانية: تجمع البيانات المجدولة ذات الخصائص المولدة أتوماتيكيّاً باستخدام التعلم العميق لتصنيف التمور العضوية "عجوة أو مجدول"، والثالثة: تجمع صوراً لتمور العجوة والمجدول، كما أنه أول بحث باللغة العربية يستخدم نماذج تعلم الآلة التقليدية والتعلم العميق لإنشاء نماذج ذات أداء عالٍ لتصنيف التمور السعودية العضوية بدون برمجة، مما يمكن الدارسين والباحثين والمطورين من تطوير تطبيقات تعلم آلة لتصنيف التمور السعودية بأشكال متنوعة في مواقع الإنترنت أو تطبيقات الجوالات أو في المتحكمات الدقيقة وتطبيقات إنترنت الأشياء وتعلم الآلات الصغيرة.

PDF Abstract

Datasets


Introduced in the Paper:

AjwaOrMedjool

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods