Arabic AskFM dataset

Categories Data Science

Arabic NLP is a competitive field with new breakthroughs everyday. The complexity of Arabic makes it hard to perform cognitive tasks without being lost in the details.

It is well known that the more data we have the better we can draw analytics from and the better models we can build. I’ve recently found many very active accounts in Ask.fm that provide knowledge to people for free, this website works by submitting a question to an author and having it displayed once they reply. I gathered a list of some of these accounts and gathered as many as possible of their questions/answers pairs. They’re all Islamic questions so with a single domain I guess the data is consistent and can be useful.

This dataset can be used as a base dataset for a more advanced question answering data set or it can just be used as a knowledge base where search algorithms are applied to extract useful information or even as the training data for a Chat bot.

An example of the data is:

In [4]: data['Question'].iloc[484]
Out[4]: 'المأموم يقرأ ولا لأ؟ان كان لا ..حتى في الصلوات الي ما فيهاش جهر؟؟'

In [5]: data['Answer'].iloc[484]
Out[5]: 'الصلوات السرية يقرأ فيها المأموم بلا خلاف معتبر. الجهرية فيها خلاف مشهور بين العلماء، وأكثر العلماء لا يوجبون على المأموم قراءة الفاتحة، وهذا هو الذي أختاره، لكن لو قرأها احتياطا وبخاصة إن كان الإمام يسكت فهو حسن'
In [6]: data['Question'].iloc[85332]
Out[6]: 'كنت عند عمتي ومريضه مرض جلدي عندها حاجه اسمها حزام ناري تقريبا المهم وكانت عاوزه تدهن مرهم ومفيش حد وانا اصريت ادهنلها بس قالتلي انه معدي المهم انا غسلت ايدي ب ديتول ومطهر بس خايفه اتعدي في حاجه ممكن اعملها عشان متعديش ؟؟'

In [7]: data['Answer'].iloc[85332]
Out[7]: 'لا خالص مفيش حاجة ممكن تتعمل،لو هتتعدي هتتعدي خلاص'
In [8]: data['Question'].iloc[43324]
Out[8]: 'شيخنا .. اذا لحقت بأخر ركعة في صلاة العصر فكيف اقضي باقي الركعات ؟؟انا اصلى ركعة بها الفاتحة وسورة قصيرة ثم اجلس للتشهد ثم ركعة بها الفاتحة وسورة ثم ركعة بها الفاتحة فقط .. هل هذا صحيح ؟ وإن كان خطأ فما هو الترتيب الصحيح ؟'

In [9]: data['Answer'].iloc[43324]
Out[9]: 'الحمد لله وحده. مذهب أصحابنا الشافعية أن ما صليته مع الإمام، هو أول صلاتك.  وعليه، فأنت صليت ركعتك الأولى مع الإمام، وقرأت فيها الفاتحة وسورة.  أكمل صلاتك بعد ذلك على ترتيب صلاتك كما لو كنت منفردا.'

The dataset contains 2 columns, Question and Answer.

It has 98k Questions with their answers.

In [10]: data.columns
Out[10]: Index(['Question', 'Answer'], dtype='object')

In [11]: data.shape
Out[11]: (98422, 2)

You can find it on my Github, I’ve put it in a repository of its own at: https://github.com/Omarito2412/ASKFM

Hopefully this would be of any use to you, if it happens that you used it I’d love to hear about your project.