아프리카 언어가 디지털화되는 방법

차례:

아프리카 언어가 디지털화되는 방법
아프리카 언어가 디지털화되는 방법

비디오: 3 정보의 표현 2024, 할 수있다

비디오: 3 정보의 표현 2024, 할 수있다
Anonim

아프리카 언어를 디지털화하는 것은 복잡하지만 필요한 과정입니다. 현재 전 세계의 학술 및 정보 기술 회사는 새로운 언어를 다양한 형태의 소프트웨어 및 기술에 통합하기 위해 협력하고 있습니다.

전 세계에서 수천 개의 언어가 사용되지만 (아프리카에서만 대부분의 언어) 영어와 같은 몇 가지 언어는 여전히 보편적으로 사용됩니다. 특히 디지털 도구 및 기술과 관련해서는 더욱 그렇습니다. 최근까지 번역, 철자 및 문법 도구는 주로 주류 서구 언어에 맞게 조정되었습니다. 이 초점은 아프리카 언어를 더 디지털화하기 위해 느리지 만 변화하기 시작했습니다.

Image

인간 언어 기술의 개발

역사적으로 토착 아프리카 언어는 기술 통합과 관련하여 동일한 인식을 얻지 못했습니다. 그러나 기술이 새로운 아프리카 시장에 지속적으로 침투함에 따라 더 많은 기업들이 대륙에서 HLT (Human Language Technology)를 개선해야 할 필요성을 인식하고 있습니다. 이것은 지속적인 기술 개발과 디지털 시대의 문화 초석 보존에 모두 중요합니다.

애리조나 대학교에 따르면, 언어 및 정보 기술은 정기적으로 전 세계에서 만나므로 숙련 된 연구 및 개발이 필요합니다.“언어가 정보 기술과 접촉하거나 사람이 컴퓨터와 상호 작용해야하는 곳, 언어 요구 계산 수단에 의해 처리되고 처리 될 수 있도록 [조직화 됨]. 이를 위해서는 언어학 및 언어 작동 방식뿐만 아니라 컴퓨터 과학 및 관련 분야에 대한 광범위한 지식이 필요합니다.”

아프리카 언어에 투자하는 기술 대기업

그 결과 Facebook 및 Google과 같은 기술 대기업을 포함한 많은 대기업이 아프리카 언어에 대한 HLT에 투자하고 있습니다 (시장 도달 범위 및 수익을 높이기위한 경우에만). 처음 눈에 띄는 변화는 다양한 아프리카 언어로 Google을 사용할 수있는 기능의 형태로 이루어졌습니다. Microsoft와 같은 일부 회사는 아프리카 언어를 맞춤법 검사기 및 문법 도구에 통합하고 있습니다.

그러나 여전히 부족한 부분이 많으며 많은 작업을 수행해야합니다. 연구원 인 Maria Keet이 지적했듯이, 새로운 언어를 기술에 정확하고 의미있게 통합하는 것은 단순히 스위치를 돌리는 것 이상의 통합적인 접근 방식을 필요로합니다. isiXhosa에는 온라인 문서가 거의 없으며 검색 엔진 알고리즘은 어쨌든 단어를 제대로 처리 할 수 ​​없으므로 원하는 결과를 반환하지 않습니까?”

그것보다 더 복잡한

Keet은 학교 어린이부터 전문가에 이르기까지 모든 사람이 모국어로 종이, 문서, 메시지 및 이메일을 작성하도록 돕기 위해 이러한 언어를 맞춤법 검사기에 통합 할 수있는 워드 프로세싱 도구의 필요성을 강조합니다.

모든 언어의 디지털화는 복잡하며 자동 구현 단계에 도달하기 전에 광범위한 연구와 테스트가 필요합니다. 아프리카 언어도 영어보다 훨씬 더 많은 작업이 필요합니다.

기본 구문 규칙이 영어를 디지털화하는 데 사용되었지만 많은 아프리카 언어는 상황의 상황에 크게 의존하는 문장으로 구성되며 복잡한 동사 및 문장 구조가 있으므로 구조화 된 데이터를 사용하여 자동 도구에 쉽게 열리지 않습니다.

결과적으로 연구원들은 기본 문장을 생성하기 위해 문법 엔진을 구축해야합니다. 기존 텍스트를 사용하여 복잡한 알고리즘을 사용하면 다양한 추가 문제가 발생합니다.

가장 현대적인 언어 기술은 전통적인 텍스트를 사용합니다. © Glen Noble / Unsplash

Image

기존 텍스트 피드

모든 디지털 언어 학습의 핵심에는 기존 텍스트가 있으며 이러한 알고리즘이이를 활용합니다. 출판과 관련하여 서구 언어에 대한 역사적 편견을 감안할 때 이러한 텍스트를 찾아서 정리하는 것은 많은 아프리카 언어에서 어렵습니다.

어려움에도 불구하고, 대륙 주변의 조직들은 정확한 철자와 문법을 포함 할뿐만 아니라 오늘날 관련성있는 것으로 간주 될만큼 현대적인 고품질의 모국어 문서를 식별하고 정리하기 시작했습니다. 이러한 문화적 맥락이 없다면 소프트웨어 알고리즘은 부정확하고 민감하지 않을 수 있으며 최악의 경우에는 인종 차별주의의 위험이 있습니다.

24 시간 인기