Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A survey on Open-Domain Question Answering

A survey on Open-Domain Question Answering

Scatter Lab Inc.

June 26, 2019
Tweet

More Decks by Scatter Lab Inc.

Other Decks in Research

Transcript

  1. 발표 개요 • Open-Domain Question Answering (ODQA)이란? • ODQA 시스템의

    종류 • 각 ODQA 시스템의 도전 과제들 우리는 앞으로 어떻게 연구개발해나가는게 좋을까요?
  2. Open-Domain QA • ODQA(Open-Domain Question Answering)란? ◦ 폭 넓은 도메인의

    지식을 기반으로, 주어진 쿼리에 대해 적절한 응답을 하는 것 ◦ 일반적인 사실 (factoid) 혹은, 주어진 컨텍스트 상의 사실에 대한 질의응답에 초점을 맞춤 • 예시 ◦ Q: 라디오헤드의 보컬 이름은? A: Thom Yorke ◦ Q: 형태소란 무엇인가? A: 언어에서 의미를 갖는 최소 단위 ◦ Q: 왜 하늘은 푸른색일까? A: 파장이 짧은 파란색 빛이 더 크게 산란하기 때문 ◦ Q: 오늘 퇴근하면 뭐할거야? A: 잘거야 ◦ Q: 오늘 저녁 뭐 먹고 싶어? A: 평양냉면
  3. ODQA의 주요 수법 • IR-based QA (Information Retrieval) ◦ 문서

    집합으로부터 관련 문서 및 어절을 retrieval해서 문서 내에서 정답에 해당하는 범위 (spans)를 검출 • Knowledge Base QA ◦ 질문 문장을 논리적인 형태로 변환하여 구조화된 지식 베이스로부터 검색 ◦ 예: ‘When was Barack Obama born?’ → birth-year(‘Barack Obama’,?x) ◦ 정확도는 높으나, 오픈 도메인의 경우 매우 큰 지식 베이스가 필요하다는 단점이 존재 • Hybrid QA ◦ 위의 2가지 방법을 혼합하여 사용 ◦ IBM’s Watson의 DeepQA 시스템이 대표적인 예 ◦ 지식 베이스 및 IR-retrieval 각각을 통해 후보 응답들을 추출하고, 후보들을 리랭킹
  4. IR-based QA 시스템의 파이프라인 문서 집합 Q: 스캐터랩의 설립년도는? Question

    Processing Query Formulation Answer Type Detection A:2011 년 Passage Retrieval Document Retrieval 관련 문서 집합 Passage Retrieval 스캐터랩은 2011년에 설립된 스타트업으로... Answer Processing Reading Comprehension
  5. Question Processing • 질문 문장으로부터 쿼리를 추출하고 질문 타입을 결정하는

    과정 • query formulation: 더 정확한 정보를 인덱싱하기 위해 질문문을 쿼리로 변환 ◦ ‘경기도에서 어떤 도시의 인구가 제일 많나요?’ → ‘경기도에서 인구가 제일 많은 도시’ ◦ hand-written rules ▪ wh-word did A verb B?→A verb+ed B ◦ 번역과 유사한 형태의 Data-driven rewriting 등등 ... • answer type: 답변의 타입을 판별 ◦ (사람, 위치, 시간) 등과 같은 엔티티일 수도 있고, 정의 (definition), 이유 등의 타입이 될 수도 있음 ◦ answer type의 집합을 설정하고 hand-written rules나 machine learning-based 방법을 이용하여 쿼리에 대한 answer type을 판별 • 그 밖에도, question type 판별 및 focusing word 판별 등을 위한 다양한 서브 모듈이 추가될 수 있음
  6. Passage Retrieval • 쿼리와의 관련성을 토대로 문서 집합으로부터 관련 문서를

    검색 후, 관련 문서로부터 관련 passage를 검색하는 과정 • 문서가 passage 단위로 분할되어 있지 않은 문서라면 passage segmentation 알고리즘이 요구됨 • 룰 베이스 및 머신러닝 모델 등을 이용하여 필터링 ◦ 사용될 수 있는 features ▪ 답변 타입에 알맞는 named entities ▪ question keywords (focusing words)의 수 ▪ n-grams overlap ▪ pos ▪ tf-idf 등
  7. Answer Processing • 주로 passage 안에서 답변에 해당하는 텍스트의 span을

    찾는 방식으로 모델링 • 가장 심플한 베이스라인 수법은 후보 passages들에 NER을 돌려서 answer type과 일치하는 단어들을 추출하고 각종 프로세싱으로 후보들을 줄여나가는 방식 ◦ 그러나, 정의 질문 등과 같은 경우는 이러한 방법을 적용하기 어려움 • Feature-based 방식 ◦ 답변 타입 매치, 패턴 매치 등의 각종 피쳐를 이용하여 모델을 학습 • Neural Answer Extraction ◦ SQuAD로 대표되는 태스크 ◦ BERT, XL-net 등등…
  8. IR-based QA 시스템의 주요 과제들 • Question processing ◦ Query로

    변환하는게 룰베이스로는 한계가 있을 거고 ◦ answer type을 식별하려면 NER도 필요할거고, 질문의 Intent도 알아야 할거고… • Passage Retrieval ◦ Web처럼 매우 큰 문서 집합에서 빠른 검색을 하려면 효율적인 검색 방법이 필요할테고 ◦ 정확한 검색을 위해서는 리랭킹 같은 테크닉도 사용될테고 ◦ Passage Segmentation을 해야될 경우도 있을테고 • Answer Processing ◦ Passage의 의미를 파악하려면 충분히 긴 컨텍스트에 대한 Machine Comprehension 능력이 요구되겠지...
  9. Knowledge Base QA 시스템의 파이프라인 Knowledge Base Q: 버락 오바마

    딸들의 이름은? Query Mapping A: 말리아, 사샤 λx.parent(‘버락 오바마',x) Λ gender(x,female) Entity Linking
  10. Query Mapping • 자연 언어 텍스트를 논리적인 형태로 매핑하는 과정

    (Semantic Parsing이라고도 함) • SQL 및 SPARQL 등과 같은 쿼리 언어로 매핑 • 예시 ◦ When was Barack Obama born? → birth-year (Barack Obama, ?x) ◦ What is the largest state? → argmax(λx.state(x) Λ λx.size(x)) ◦ What states border Texas? → λx.state(x) Λ borders(x, Texas) Entity Linking • textual한 entity를 지식 베이스의 entity에 연결시키는 과정 • 예시 ◦ ‘Barack Obama’: Barack, Obama, the 44th president of the United States, 오바마 ... 등
  11. 지식 베이스 • 구조화되어 있는 데이터베이스 ◦ 기본은 RDF Knowledge

    Base ◦ (subject-predicate-object) 형태의 triples의 집합 ◦ node가 entity, edge가 predicate를 의미 • 대표적인 Knowledge Base로는 Google의 Freebase, Wikidata 등이 존재 버락 오바마에 관한 RDF knowledge base
  12. Knowledge Base QA 시스템의 주요 과제들 • Query Mapping ◦

    자연언어 형태의 문장은 한 가지 문장이 여러가지 쿼리로 변환될 수도 있고 여러 문장이 한 가지 쿼리로 변환되기도 함→ 따라서, many-to-many에 해당하는 태스크 ◦ 이걸 잘하려면, NER도 필요할거고, dependency parsing도 필요할거고… • Entity Linking ◦ 이 태스크 역시 many-to-many에 해당됨 ◦ (Michael Jordan, Michael, Jordan) ↔ (Michael J. Jordan (농구선수), Michael I. Jordan (정치가)) • Knowledge Base ◦ 복수 도메인의 지식 베이스를 혼합하여 사용한다거나 ◦ 지식이 생기면, Real-time으로 지식 베이스에 지식을 추가하여 지식 베이스를 확장한다거나
  13. 앞으로 우리는? • IR-based vs Knowledge Base? ◦ Knowledge Base

    방식이 일반적으로 Precision은 높은 편이지만, 오픈 도메인 지식 베이스가 구축되어야 하므로 개발 코스트가 큼 ◦ IR-based를 서비스에 사용하기 위해선 검색 코스트를 해결해야 함 • QA 시스템의 응용 ◦ factoid 질문에 대한 답변 ◦ 구체적인 답변 ◦ 상식을 담거나 이해하는 답변 • 요구되는 기술들 ◦ factoid 질문/일반 대화 판별 모듈 (IDOOD 비슷한 느낌의) ◦ retrieval된 지식을 핑퐁 답변에 녹여내기 위한 프로세싱 ◦ QA 시스템을 만들기 위해서는 Gunrock과 같은 대화 모델처럼 다양한 프로세싱이 전제되어야 하므로 각종 모듈들을 채워넣는 것이 우선이 아닐까?
  14. QA관련 오픈 데이터셋 • TriviaQA • WikiQA • SQuAD •

    QuAC • MCTest • AI2 Reasoning Challenge (ARC) • ComplexWebQuestions
  15. 참고하면 좋을 논문들 리스트 • IR-based ◦ Information Retrieval :

    Improving Question Answering Systems by Query Reformulation and Answer Validation (2008, World Academy of Science, Engineering and Technology) ◦ Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index (2019, ACL) • Knowledge Base ◦ A Joint Model for Question Answering over Multiple Knowledge Bases (2016, AAAI) ◦ Deep Learning Approaches for Question Answering on Knowledge Bases: an evaluation of architectural design choices (2018, arXiv) ◦ Modeling Semantics with Gated Graph Neural Networks for Knowledge Base Question Answering (2018, COLING) ◦ KBQA: Learning Question Answering over QA Corpora and Knowledge Bases (2019, VLDB) ◦ Knowledge Base Question Answering via Encoding of Complex Query Graphs (2018, EMNLP)