Quality Assessment in Crowdsourced Indigenous Language #TPDL2013

Laat een reactie achter

Quality Assessment in Crowdsourced Indigenous Language. Transcription. Ngoni Munyaradzi and Hussein Suleman

The digital Bleek and Lloyd Collecte on is a rare collection that contains artwork, notebooks and dictionaries of the indigenous people of Southern Africa. The notebooks, in particular, contain stories that encode the language, culture and beliefs of these people, handwritten in now-extinct languages with a specialised notation system. Previous attempts have been made to convert the approximately 20000 pages of text to a machine-readable form using machine learning algorithms but, due to the complexity of the text, the recognition accuracy was low. In this paper, a crowdsourcing method is proposed to transcribe the manuscripts, where non-expert volunteers transcribe pages of the notebooks using an online tool. Experiments were conducted to determine the quality and consistency of transcriptions. The results show that volunteeers are able to produce reliable transcriptions of high quality. The inter-transcriber agreement is 80% for |Xam text and 95% for English text. When the |Xam text transcriptions produced by the volunteers are compared with a gold standard, the volunteers achieve an average accuracy of 64.75%, which exceeded that in previous work. Finally, the degree of transcription agreement correlates with the degree of transcription accuracy. This suggests that the quality of unseen data can be assessed based on the degree of agreement among transcribers.

Spreker Hussein Suleman laat even een wereldkaart andersom zien dan we gewoon zijn, met Cape Town ‘at the top of the world’ .
Xam (Oorspronkelijke taal (talen) van Zuid Afrika) is dood, maar er is nog wel wat op schrift. En wat er is is buitengewoon belangrijk. Ze proberen dat te transcriberen. Standaard tools waren niet voldoende, omdat de tekens geen standaard Unicode waren.
Ze zagen ervan of om het automatisch te doen en lieten het mensen zelf transcriberen. Vrijwilligers deden het net zo goed als de bibliothecaresse, maar en als je ze laat samenwerken gaat het zelfs beter dan professionele mensen doen!
Het Seti project liet al zien dat ‘voluntary computing’ werkt: grote hoeveelheden kun je zo aan.
Volunteer thinking. Sommige dingen kun je een computer niet laten doen. Zo is er ook een project met melanomen : mensen zien sneller en beter wat het is dan een computer. Voor een computer is het ook moeilijk te zien of er mensen op een plaatje staan als er geen gezichten op staan. Mensen zien dat snel.
Pybossa.
Mechanical Turk is crowdsourcing? (klein mannetje in de machine verstopt)
Meerdere mensen hetzelfde laten transcriberen en kijken wat overeenkomt en dat stemde aardig overeen.
Hoe kom je aan die vrijwilligers?
Inspelen op verlangen van mensen ergens het beste in te zijn.
Een paar honderd mensen doen mee, is nog ongoing.
En zijn ze goed genoeg? slaan ze niet zomaar wat keys aan?
Je geeft ze een opening vraag als soort testje.

Digital Scholarship and Digital Libraries: Past, Present, and Future #TPDL2013

Laat een reactie achter

Maandag 09:30 – 10:30

Key Note “Digital Scholarship and Digital Libraries: Past, Present, and Future” by Christine L. Borgman.

In a few short decades, the practices of scholarship have been transformed by the use of digital resources, tools, and services. Some shifts are obvious, such as seeking, reading, and publishing research online, often to the exclusion of print. Other shifts are subtle, such as data being viewed as research products to be disseminated. Research objects are more atomized, yet aggregated in new ways. Digital technologies offer opportunities to innovate in scholarly practice, collaboration, and communication. Innovation in digital libraries is necessary to advance digital scholarship. The talk will present a set of challenges for 21st century research and practice drawn from Prof. Borgman’s forthcoming book, tentatively titled Big Data, Little Data, No Data.

Haar vorige boek: Scholarship in the Digital Age: Information, Infrastructure, and the Internet. Ze heeft meer dan 200 publicaties op haar naam staan.
(Ze vond de officiële opening erg goed en inhoudelijk.)

Haar recente onderzoek gaat over research data. Is groot topic.
Nadenken over nieuwe manieren van omgaan met techniek, onderwijs en bibliotheken.
We zijn op weg naar een echte cyberinfrastructure maar face to face blijft belangrijk.
Juist kleine landen zullen ervan profiteren als de toegang tot digitale info beter wordt.
Digital scholarship.
Neelie Kroes komt digitaal te langs, open access policies : verplichting tot publiceren. 50% is al open.
‘What to keep’ is echt een digitale bibliotheek issue.

Open scholarship was altijd al de norm, de formele en informele communicatie komen nu samen.
(Data kunnen ook de stenen zijn waarin hiërogliefen staan.)

Open access publiceren
Volledig OA of deels.
Open disseminatie neemt toe oa door repositories. Ze streeft ernaar alles van haarzelf daarin te stoppen.

Open Data en open ontologieen komen er nu aan.
Meer dan alleen research data: ook namen van organisaties ed.

Open Data collaboration.
Veel is mogelijk.
Interdisciplinair of per onderwerp.
Museum objecten.
Mini informatie publiceren, en micro distributie.

Maar lang niet iedereen doet er aan mee.
In openbaarheid werken is geavanceerde peer review.
Pro: Voorkomt fraude., vergroot snelheid en voorkomt ‘Free riders’.
Contra: Gevaar voor misbruik en verkeerde interpretatie. Soms terecht, soms onterecht.
Conflicten tussen publieke en private deelnemers (funding, partners,)
‘I don’t do data ‘ (dat is een argument dat niet meer opgaat)

Samenkomen formele en informele communicatie.
Publiceren duurt lang via formele weg. Informeel gaat veel sneller.
Maar dat is niet voor niets :
Papers zijn de culminatie van al het werk.
Daar hangen dan allerlei metingen aan:
Impact factors en h – indexen zijn altijd discutabel geweest.
En daar wordt veel te veel gewicht aan gehangen: wetenschap is veel meer dan dat Journal Article alleen. Er wordt veel meer dan alleen dat geproduceerd. Krijgt iedereen wel voldoende credit als je alleen eindproduct telt.
Hoe zit het met tweets? Mentions in tweets zijn ook citations. Worden die geteld? En in blogs?
Aantal downloads van het artikel, slideshare, talkshow, etc worden die wel meegeteld?
Citatie tellen is heel erg complex: ze hebben een rapport daarover geschreven.
Data citations and attributs Data science Journal 12, 13 september 2013. Rapport van paar honderd pagina’s

Big Data
Data kan op verschillende manieren Big zijn: Volume, aantal, varieteit.
Er is een Long tail of Data.
Ook verschillend per discipline.
Ook een klein beetje data dat heel complex is kan overweldigend zijn, terwijl heel veel goed gestructureerde veel hanteerbaarder kan zijn.

Wat is data eigenlijk?
Kan van alles zijn.
Marie Curie’s Notebook kan data zijn voor diverse soorten onderzoekers, maar voor anderen alleen noise. Ligt aan omstandigheden.
Data = Evidence
‘Industrial methods’ vs Artisanal methods’ van onderzoek : geeft andere data.

Data practices are local : interoperabiliteit is een heel groot vraagstuk om op te lossen.

Twitter API maken om data te hergebruiken.
Hoe je het ook bekijkt hergebruik is geenszins zo eenvoudig als het lijkt maar kan tot revolutionaire nieuwe methoden en uitkomsten leiden.
En je kunt ook uit voor jou niet leesbare talen data halen, zonder dat je zelf de talen spreekt.

Open access to data is a paradigma shift.

Sharing research data.
Op een manier dat ze door anderen te hergebruiken en interpreteren zijn is heel erg moeilijk te verwezenlijken.
Eigenlijk moet je dan ook het onderzoek zo opzetten dat het hergebruikt kan worden. De meesten doen dat niet.
Doel is dan de data, niet het artikel.
Meestal heeft data pas zin als je het uiteindelijke artikel erbij hebt.

Sharing data is a cultural issue

Er zijn veel soorten hergebruik.
Heel vaak gebruik je je eigen oude data ook niet meer.
Maar voor anderen is dat nog lastiger.
Data staat niet op zichzelf. Je hebt oa ook de modellen nodig.
(Wallis If we share data will any one use it? PloS one)
Je hebt een betrouwbare infrastructuur nodig om dat te stimuleren, waar digitale bibliotheken deel van uitmaken.
Nieuwe en moeilijke weg te gaan.

Goodman 10 simple rules for care and feeding scientific data (in review) PloS computational biology. (zie slide)

Love your data and let others love them too

What to keep.
– publications
– data: code documentatie provenance
– Links maken tussen allerlei zaken

Onderzoek opzetten met hergebruik in gedachten daarvoor heb je een data scientists / librarian / archivaris nodig. Maar we moeten wel beslissen wie wat doet, want dat is vaak een afschuiven: bepalen wat je wilt bewaren is dat een besluit vanuit de wetenschapper of vanuit de bibliothecaris?

Vraag:
Je moet het wel ergens kwijt kunnen, maar waar?
Kies een methode bijv Data verse

http://thedata.org/

Presentatie

Heterdaad RWS : Metadatering modellen #DIM13

Laat een reactie achter

Zie meer info op de site van de Digitale spin : Metadatamodellen

Vincent Teerling.

Metadata om
– objecten en onderdelen beschrijving (decompositie)
– documentaire informatie verrijken
– documenten informatie terug vindbaar en toegankelijk te maken

Langjarige fasen bezigheden
Verkenning planning realisatie beheer onderhoud
RWS heeft sterke ondersteuning nodig om die processen te ondersteunen.
In verleden veel verschillende systemen met andere invalshoeken om objecten te beschrijven.
Vaak waren ze ook relatief oud.

Daardoor gebrek aan volledigheid en operabiliteit.
Geen van de systemen is in staat volledig ontstaantscontext in kaart te brengen.

Ontwikkeling van Internationale standaarden voor metadata voor overheidssystemen.
En dat dan ook verplicht stellen.
Nen iso 23081 in 2006.
Mensen werken in processen en genereren daarin documenten.
Mandaat van die processen is bekend.
Bleef stil tot 2009 omdat t vrij Abstract was.
Later kwam er een Toepassingsprofiel voor ministeries.
Discussie generieke modellen die je dan weer specifiek maakt.
Voor deel is dat toegestaan.
RWS heeft eigen Toepassingsprofiel gemaakt.
Is excel lijst waarin staat wat er vastgelegd gaat worden, of t verplicht is of niet en hoe het erin komt.
(dat laatste bij voorkeur dus automatisch)
Bleek in praktijk niet fijn te werken.
Aanvankelijk 134 elementen waarvan 100 belangrijk en 80% kon automatisch gevuld, alleen waren die koppelingen er nog niet.
SP 2010 voldeed er ook niet aan. Bleek maar 35 velden en geen eigen RWS data.

Discrepantie filosofie SP en die van eigen Toepassingsprofiel.
Koppelingen met andere systemen zijn vereisten.

Nu
67 elementen waarvan 42 automatisch ingevuld kunnen worden. Incl specifieke RWS data

SP 2013 gaat anders om met metadata dam voorgangers.
Proof of Concept gebouwd waarin gekeken wordt of dit een intuïtief systeem oplevert.

Uitdagingen:
Adhoc toegang vs duurzame bewaring
Technische realisatie
Culturele acceptatie

Voor wie die je t eigenlijk?
Metadatamodellen toepassen op SP en op Trim (RMA)
In processystemen hoef je dat eigenlijk niet toe te passen.
In SP die processystemen benaderen.
Dat kun je doen als je die koppelingen goed legt.

DMS systemen slaan nu van alles op, bij opslag opruimen niet archiefwaardig stukken.
Als SP systeem goed werkt zou je die overdracht naar archief niet meer nodig zijn.

Ze zijn nog aan t experimenteren met het metadata systeem.
Er zitten meerdere Taxonomieen in.
Ook folksonomy: daarmee suggesties voor opname.

Presentatie: Metadata en Interoperabiliteit.pdf / Vincent Teerling

Heterdaad RWS : Content integratie + databases #DIM13

Laat een reactie achter

Zie meer info op de site van de Digitale Spin: Contentintegratie en databases.

Peter Nieuwenhuizen en Rita van Leeuwen.

Doel digitale informatie bronnen goed ontsluiten.
Goede search engines. (nu Fast van SP zou HP autonomy kunnen worden)


Digitale bibliotheek

Toegang via intranet.
Kennis en expertise is bibliotheek pagina
Nieuws, AZ lijst, links je naar bronnen.

Bronnen
– diversiteit
– Databases (nenconnect bv)
– full-text documenten
– portals (Kluwer)

Ebsco A-Z lijst
Titel. Vanaf wanneer, uitgever
Klik naar full-text.

Aansluiting bij beleving klant (google)
Probeer dat als norm te laten gelden.
Vooral niet zelf beheren, maar daar laten staan.

Kluwer is lastig, moet je jaar de site zelf.

LinkSource

Om artikelen vindbaar te maken. Via DOI.
Voorkeur Google Scholar en koppeling LinkSource.
Rechts links naar full-text, onder more zit ibl formulier naar Picarta.

EDS (discovery service)
1 zoekactie in meerdere bronnen.
Ranking inhoud. (kennisplein eerst)
Catalogus ontsloten, asfa (Proquest) , nieuws databases (AP, UPI) , Kluwer, picarta.
Plannen voor Ebsco : toevoegen Narcis, Academie, datasets Data Planet.
Plannen RWS: sdu, Kluwer, Yammer.

Lay-out kun je maken zoals jezelf wil.
Links en rechts clusteren.
Links:Vergroten of verkleinen bronnen, materiaal, taal, onderwerp
Rechts : Aanvullende bronnen bv Twitter. (In paar seconden wordt dat uitgevoerd) (leuk dat)

Grootste winst is je eigen rapporten en catalogus en de diverse betaalde zoeksystemen met eigen ingang samen te voegen in een zoekactie.
Aanpassen Ranking is wel te dien.
Ebsco loopt wat achter qua nederlaag bronnen dan C-content (?)

Vraag Ranken op aantal citationscitations?
kan niet.

—-

Presentatie: Content Integratie.pdf / Peter Nieuwenhuizen + Rita van Leeuwen

Heterdaad RWS : Sharepoint DMS + RMA TRIM #DIM13

Laat een reactie achter

Trim is het archief van RWS.
Begonnen in 2009 en is vrij goed product. Maar wel solitair systeem.
Dim was er tevreden over r, is robuust en digitale authenticiteit.
Maar Trim is nogal statistisch, je kunt de gebruikers niet zelf laten Metadateren. Voor gebruikers is Trim helemaal niet gebruiksvriendelijk.
HP leverancier ziet de functionaliteit beter door SP gedaan worden dus ze stoppen met verdere door ontwikkeling.

Gebruikerseisen:
Gemakkelijk beheer, overdracht naar archief automatisch, moet bedrijfsvoering ondersteunen, uitgaan van RWS medewerker = kenniswerker, state-of-art.
Alle medewerkers moeten bij alle kennis kunnen.
Er moet een duidelijk versie beheer zijn.
Alle informatie is openbaar tenzij.
Of iets openbaar is of niet ligt bij de proceseigenaar. Dim adviseert over hoe ze daarmee om moeten gaan.
Document life cycle als kapstok gebruikt voor ontwikkeling systeem.
90% gebruikerswensen konden door SP worden voldaan. Geen maatwerk, wr zijn niet zoveel anders dan andere organisaties.

Indeling : Afdeling / programma / project persoonlijk / team
Enige dat maatwerk is is afdeling.

Documentbeheer: werkwijze die net goedgekeurd was door bestuur, kon als linker navigatie fungeren.
Zo krijg je startpagina van project met alle stappen, centrale agenda, projectplandossier ed.
Rechts product link (presence, namen van mensen, chatfunctie ed)
Projectplandossier is een website (SP library) met daarin alle documenten.

Ene deelproces kan andere metadata hebben dan andere. Dan is t handig om dat afzonderlijk op te slaan.
Overerving : metadata van documenten wordt automatisch toegevoegd. Op een plek wordt die metadata onderhouden.
Wijzigingen in tags kan 2013 blijkbaar doorvoeren in documenten.
Verplaatsen van documenten naar ander dossier heeft consequenties voor metadata.
Ze gebruiken Docgen om documenten aan tw maken.
Als je sjablonen neerzet voor gebruiker moet je zorgen dat zoveel mogelijk metadata al ingevoerd is.

Per document ongeveer 30 velden metadata, 5-8 zelf in te vullen door gebruiker, als men tenminste via aanmaak documenten in de juiste site opent.

—–

Presentatie: SharePoint DMS en TRIM RMA.pdf / Ron Spierings + Robert-Jan van Leeuwen

Heterdaad Rijkswaterstaat opening DIM-visie #DIM13

Laat een reactie achter

Simon Been heet ons welkom en vertelt iets over Papieren Tijger. Meestal zijn hun sessies – onderwerp documentmanagement – niet gratis.

RWS is heel groot ca 9000 fte, maar ze gaan ateeds kleiner worden, maar met dezelfde taken. Documentatiemanagement valt onder Facilitaire Dienst.
Peter de Jong houdt inleiding.
Thema milieu is laatst ook bij RWS gekomen.
Informatie deling is cruciaal. States of the Art oplossingen. Ze willen af van diversiteit.

Anne van Veen programma manager DIM-visie. (herstructurering informatie management).
Informatievoorziening van alle bedrijfsprocessen.
Verantwoordelijkheid in de markt zetten, zelf regie voeren.
Uit goede informatievoorziening kun je veel financieel voordeel halen.
Je moet continue zorgen dat het op orde blijft : visie.
Ondernemingsplan heeft informatievoorziening als bindend element, strategische richting, (1 RWS), flexibel blijven, SharePoint 2013 incl DMS, Trim als RMA (record management systeem, niet als DMS). Koppeling processystemen, dus niet info uit SAP in SP halen, wil koppelen.
SP blijft gestandaardiseerd en uniform.
Keuze Trim is een politieke.
Vorige keren was een dergelijke project niet succesvol, nu gedragen door top management, zie t als verandertraject, niet puur als ict project.

Elke medewerker wordt verantwoordelijk voor op juiste manier toevoegen van eigen documenten.
Eenmalige opslag, meervoudig gebruik.
Metadata wordt zoveel mogelijk automatisch gedaan, maar deels moet men het zelf doen.
Informatie presenteren via views.
Informatie delen is meerwaarde, niet voor jezelf houden.
Andere systemen worden uitgefaseerd, ook ‘Mijn documenten’.

Streven: alles wordt gevonden in 60 seconden.

Meridian als zoekmachine /archief voor technische tekeningen.
SP 2013 heeft Fast geïntegreerd, SP 2010 niet.
Ze gebruiken veel Yammer, die wordt gekoppeld met SP.
Koppelingen gaan in release 2 komen.

Te bereiken door veel ‘omdenken’ : loslaten van traditionele denkpatronen, optimale gebruikersinbreng, Nieuwe werken, terugdenken vanuit samenwerking.

Per project wordt het transitie proces uitgevoerd.
Verandering in houding en werkwijze voor iedereen.

Vraag: kun je buiten SP nog documenten opslaan ?
Antwoord : nee.
Nuancering: In de mysite kun je wel documenten kwijt. Concepten bijv.

Vraag: gebruikersgroepen?
Antwoord: vanuit proces onderdelen samengesteld en mensen uitgenodigd.
Vaak in jaarbeurs oid. Opgezet door een extern bureau.
Terugkoppeling aan die groepen ook. Laten zien wat er gebeurd is en vragen naar meer input.
Heeft tot veel enthousiasme geleid.
Zo krijg je ambassadeurs.


Sheet komen op internet.

http://www.papierentijger.net/PTN/Welkom_op_de_Papieren_Tijger_Site.html

Presentatie

 

Zie ook

Hoe zoeken studenten #ebscodag

1 Reactie

3 IDM studenten van de Haagse Hogeschool vertellen hoe ze zoeken

ESA was opdrachtgever over project Deskresearch.
1 Oriënteren via Google en daarmee lijst termen genereren.
2 Google Scholar kijken welke tijdschriften en vind kernartikelen (veel geciteerd is dus belangrijker) en ze konden er meteen ft bij via linkresolver
3 Lezen artikelen en maak een lijst. Gericht Abstract, hele artikelen was wat veel. Daarmee basis database
4 Resultaat. Zijn dit goede artikelen? Zo nee opnieuw stap 2 etc.

Zo kwamen ze aan 30 artikelen

Deze manier van zoeken werd erg gestuurd door de docenten.

Nb kwam niet erg uit welke databases ze gebruikten naast Scholar :-)

(heb het in de pauze even aan ze gevraagd : via de school zoeken ze in aantal bestanden tegelijk. Zijn 1e jaars dus konden nog niet aangeven wat daar wel/niet handig aan is, alleen zagen ze t verschil qua onderwerp – medisch vs bouwkundig- wel)