Skip to content

Näin luot tekstivastineen puhetta sisältävälle äänitiedostolle


Avainsanat: , ,

Puhetta sisältävät äänitiedostot kuten esimerkiksi podcastit tarvitsevat rinnalleen tekstivastineen, eli tekstimuotoisen vaihtoehdon käyttäjille, jotka eivät voi syystä tai toisesta voi kuunnella tiedostoa. Verkossa saatavilla oleva tekstivastine parantaa äänitiedostossa olevan tiedon löytymistä, sillä hakukoneet pääsevät tekstivastineen kautta indeksoimaan myös puhesisältöjä. Esimerkiksi podcasteihin viittaaminen helpottuu, jos niille tarjotaan tekstivastineet, sillä tekstivastineeseen on helpompaa viitata kuin äänilähteeseen, ja lähteen tietojen tarkistaminen on helpompaa tekstivastineesta kuin äänitiedostosta.

Tekstivastineen tekemistä helpottaa, jos luot ensin raakaversion tekstisisällöstä puheentunnistuksen avulla: MS Office 365 -paketin Word selainversiossa on tähän näppärä työkalu.

Automaattisen tekstivastineen luominen ja korjailu Wordin selainversiossa

  1. Avaa uusi tyhjä tiedosto MS Wordin selainversiossa. (Se on käytössäsi Oulun yliopiston tai Oamkin tunnuksellasi.)
  2. Valitse Aloitus (Home) -valintanauhalta Litteroi (Transcribe).
    Sanele- eli Dictate-työkalun optiosta löytyy Litterointi, eli Transcribe-optio.
  3. Aseta kieli äänitiedoston kielen mukaan ja lataa äänitiedosto Wordiin esim. mp3-muodossa. Siirry lataukseen Upload audio -painikkeella.
    Transcribe-kohdassa on mahdollista ladata äänitiedosto wav-, mp4-, m4a- tai mp3-muodossa. Myös puheen äänittäminen on mahdolista start recording -painikkeella. Kielivalinta löytyy upload audio - ja start recording -painikkeiden jälkeen. Kuvassa kieleksi on asetettu suomi.
  4. Jos tiedostosi on pitkä, sen muuntaminen tekstiksi voi viedä useita minuutteja. Ohjelma ilmoittaa, että selainikkuna pitää jättää auki sen ajaksi.  Transcribe -näkymässä lukee "This may take a while. Leave this window open and check back in a bit."
  5. Kun työ on valmis, näet valmiit tekstit ruudussa. Siirrä ne nyt Word-tiedostoosi. Paina Add to document -nappia ja valitse haluamasi vaihtoehto: Jos puhujia on useita, valitse With speakers -vaihtoehto. (Jos aikaleimat ovat erityisestä syystä tarpeen, voit valita With speakers and timestamps -vaihtoehdon. Tyypillisesti aikaleimoja ei kuitenkaan laiteta, sillä ne ovat usein tarpeetonta tietoa, ja ne heikentävät ruudunlukijan käyttäjän käyttökokemusta.)
    Add to document -painikkeen optiot ovat Just text, With speakers, With timestamps ja With speakers and timestamps.
  6. Jos puhujia on useita, Word osaa erotella puhujat toisistaan varsin hyvin. Puhujat nimetään tiedostoon tyylillä Speaker 1, Speaker 2, jne. Voit korvata nuo puhujien nimillä käyttämällä Aloitus (Home) -valintanauhalta löytyvää Korvaa (Replace) -toimintoa.
    Haku eli Find-toiminnon optioissa on Korvaa eli Replace-toiminto.
  7. Korvaa Transcript-otsikko äänitiedostosi otsikolla ja muuta sitten puhujien nimet. Voit sen jälkeen yhdistellä saman puhujan kappaleet yhteen, eli poistaa ylimääräiset peräkkäiset maininnat: Riittää että puhujan nimi kerrotaan vasta kun puhuja vaihtuu.
    Korvaa- eli Replace-valinnassa haetaan korvattava teksti (tässä esimerkissä Speaker 1) ja samassa näkymässä annetaan myös nimi, jolla teksti korvataan (tässä esimerkissä korvaava teksti on Anna-Liisa). Vaihtoehtoina ovat Kovaa eli Replace ja Korvaa kaikki, eli Replace All.
  8. Lopuksi, käytä oikolukua apuna ja käy teksti läpi ja korjaa virheet.
    1. Automaattinen puheentunnistus ei ole täydellinen, ja mukaan tulee erityisesti yhdyssanavirheitä.
    2. Erisnimet tulevat tekstiin pienellä kirjoitettuna, eli korjaathan ne.
    3. Numeroita saattaa joutua kirjoittamaan uusiksi.
    4. Erilaiset lyhenteet ja vieraskieliset termit pitää usein korjata.
    5. Puhujasta riippuen, puheessa voi olla turhia täytesanoja tai hankalia lauserakenteita: tavanomaisessa podcastin tekstivastineessa nämä saa ja kannattaa korjata selkeämmäksi, eli ajatuksena on silloin pääviestin välittäminen selkeästi. (Sanatarkka litterointi sopii lähinnä esimerkiksi kielentutkimuksen tutkimusaineistoihin.)
    6. Jos äänitiedostossa on musiikkia tai muita ääniä, voit merkitä ne tiedostoon suluissa omassa kappaleessaan siinä välissä, missä ne kuuluvat: Jos podcastisi alkaa esimerkiksi musiikkipätkällä, voit merkitä sen näin:(musiikkia)
  9. Kun olet saanut tekstin valmiiksi, voit julkaista tekstivastineen linkkinä äänitiedostosi yhteydessä. Paras formaatti olisi verkkosivu: Julkaise tekstivastine verkossa jos voit. Jos se ei ole mahdollista, niin myös saavutettava tiedosto käy. (Huomaa kuitenkin, että henkilökohtainen OneDrive ei ole hyvä paikka pitkäaikaiseen käyttöön, sillä tilin ja sen tiedostojen säilyvyys riippuvat käyttäjätunnuksen voimassaolosta.)

« Takaisin

Tämä artikkeli julkaistiin kategorioissa Kaikki ohjeet, Oamk , Oamkin henkilöstölle, Oulun yliopiston henkilöstölle, saavutettava sisältö, UniOulu ja tageilla , , . Lisää permalink suosikkeihisi.