Quality Assessment in Crowdsourced Indigenous Language. Transcription. Ngoni Munyaradzi and Hussein Suleman
The digital Bleek and Lloyd Collecte on is a rare collection that contains artwork, notebooks and dictionaries of the indigenous people of Southern Africa. The notebooks, in particular, contain stories that encode the language, culture and beliefs of these people, handwritten in now-extinct languages with a specialised notation system. Previous attempts have been made to convert the approximately 20000 pages of text to a machine-readable form using machine learning algorithms but, due to the complexity of the text, the recognition accuracy was low. In this paper, a crowdsourcing method is proposed to transcribe the manuscripts, where non-expert volunteers transcribe pages of the notebooks using an online tool. Experiments were conducted to determine the quality and consistency of transcriptions. The results show that volunteeers are able to produce reliable transcriptions of high quality. The inter-transcriber agreement is 80% for |Xam text and 95% for English text. When the |Xam text transcriptions produced by the volunteers are compared with a gold standard, the volunteers achieve an average accuracy of 64.75%, which exceeded that in previous work. Finally, the degree of transcription agreement correlates with the degree of transcription accuracy. This suggests that the quality of unseen data can be assessed based on the degree of agreement among transcribers.
Spreker Hussein Suleman laat even een wereldkaart andersom zien dan we gewoon zijn, met Cape Town ‘at the top of the world’ .
Xam (Oorspronkelijke taal (talen) van Zuid Afrika) is dood, maar er is nog wel wat op schrift. En wat er is is buitengewoon belangrijk. Ze proberen dat te transcriberen. Standaard tools waren niet voldoende, omdat de tekens geen standaard Unicode waren.
Ze zagen ervan of om het automatisch te doen en lieten het mensen zelf transcriberen. Vrijwilligers deden het net zo goed als de bibliothecaresse, maar en als je ze laat samenwerken gaat het zelfs beter dan professionele mensen doen!
Het Seti project liet al zien dat ‘voluntary computing’ werkt: grote hoeveelheden kun je zo aan.
Volunteer thinking. Sommige dingen kun je een computer niet laten doen. Zo is er ook een project met melanomen : mensen zien sneller en beter wat het is dan een computer. Voor een computer is het ook moeilijk te zien of er mensen op een plaatje staan als er geen gezichten op staan. Mensen zien dat snel.
Pybossa.
Mechanical Turk is crowdsourcing? (klein mannetje in de machine verstopt)
Meerdere mensen hetzelfde laten transcriberen en kijken wat overeenkomt en dat stemde aardig overeen.
Hoe kom je aan die vrijwilligers?
Inspelen op verlangen van mensen ergens het beste in te zijn.
Een paar honderd mensen doen mee, is nog ongoing.
En zijn ze goed genoeg? slaan ze niet zomaar wat keys aan?
Je geeft ze een opening vraag als soort testje.