Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language Dataset

Name:*

Full name (optional):

Description (Markdown and $\LaTeX$ enabled):*

The Vashantor dataset consists of 32,500 sentences from different regions, including Chittagong, Noakhali, Sylhet, Barishal, and Mymensingh. It is categorized into two language formats: "Bangla" and "Banglish." Each region and language combination has specified quantities for training, testing, and validation samples. The dataset details are as follows:

## Specifics of the Core Data:

|    Type    	| Bangla 	| Banglish 	| English 	|
|:----------:	|:------:	|:--------:	|:-------:	|
| Train      	|   1875 	|     1875 	|    1875 	|  
| Test       	|    375 	|      375 	|     375 	|  
| Validation 	|    250 	|      250 	|     250 	|

## Specifics of the Regional Data:

<table class="tg">
<thead>
  <tr>
    <th class="tg-c3ow">Region</th>
    <th class="tg-c3ow">Type</th>
    <th class="tg-c3ow">Train</th>
    <th class="tg-c3ow">Test</th>
    <th class="tg-c3ow">Validation</th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-c3ow" rowspan="2">Chittagong</td>
    <td class="tg-0pky">Bangla</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td> </td>
    <td class="tg-0pky">Banglish</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td class="tg-c3ow" rowspan="2">Noakhali</td>
    <td class="tg-0pky">Bangla</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td> </td>
    <td class="tg-0pky">Banglish</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td class="tg-c3ow" rowspan="2">Sylhet</td>
    <td class="tg-0pky">Bangla</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td> </td>
    <td class="tg-0pky">Banglish</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td class="tg-c3ow" rowspan="2">Barishal</td>
    <td class="tg-0pky">Bangla</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td> </td>
    <td class="tg-0pky">Banglish</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td class="tg-c3ow" rowspan="2">Mymensingh</td>
    <td class="tg-0pky">Bangla</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
  <tr>
    <td> </td>
    <td class="tg-0pky">Banglish</td>
    <td class="tg-dvpl">1875</td>
    <td class="tg-dvpl">375</td>
    <td class="tg-dvpl">250</td>
  </tr>
</tbody>
</table>

Homepage URL (optional):

Paper where the dataset was introduced:

Introduction date:

Dataset license:

URL to full license terms:

Image

---

Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

Specifics of the Core Data:

Specifics of the Regional Data:

Benchmarks

Add a new result Link an existing benchmark

Papers

Dataset Loaders

Add Remove

Tasks

Usage

License

Modalities

Languages

Region	Type	Train	Test	Validation
Chittagong	Bangla	1875	375	250
	Banglish	1875	375	250
Noakhali	Bangla	1875	375	250
	Banglish	1875	375	250
Sylhet	Bangla	1875	375	250
	Banglish	1875	375	250
Barishal	Bangla	1875	375	250
	Banglish	1875	375	250
Mymensingh	Bangla	1875	375	250
	Banglish	1875	375	250

Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

Specifics of the Core Data:

Specifics of the Regional Data:

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit