Upgrade to Pro — share decks privately, control downloads, hide ads and more …

iSchool, Data Science, and DaaS (Data as a Service)

LODAC
February 23, 2016

iSchool, Data Science, and DaaS (Data as a Service)

LODAC

February 23, 2016
Tweet

More Decks by LODAC

Other Decks in Technology

Transcript

  1. iSchool, Data Science and DaaS (Data as a Service) 오

    삼 균 성균관대학교, iSchool & Data Science 교수, 학술정보관장 iSchool Caucus Chair-Elect ISO/IEC JTC1/SC34(전자문서 및 처리언어) 국제의장 Dublin Core, Governing Board Member [email protected]
  2. •혁신적인 국제정보대학 협의회 – 엄격한 심사를 통해 회원교 선정 –

    현재 65개 회원 대학 – 아시아 11개 대학 (한국 3개 대학: 성대, 서울대, 연대) iSchool (국제정보대학협의회)
  3. iSchool Focus • 정보, 기술, 사람 간의 상호작용에 관한 연구

    • 모든 일에서 정보의 역할을 이해하고 습득하려는 노력 • 과학, 비즈니스, 교육 및 문화의 발전에 정보 전문성이 필수 • 정보기술과 응용, 정보이용 및 이용자에 대한 전문성
  4. iSchool Governance Structure • Currently Two Tier Structure –iCaucus member

    schools (currently 25): Due $5000 per year –iConsortium member schools (currently 40): Due $500 per year –Elected iCaucus member schools (currently 4) • Trying to change –Tier 1($5000), Tier 2($1000), Tier 3($500), Associates($300) –Cooporates (Affiliate, Associate, and Sponsor) • iSchool Executive Committee Members –Ron Larson (iCaucus Chair), University of Pittsburgh, USA –Sam Oh (iCaucus Chair-Elect), Sungkyunkwan University (SKKU) Korea –Michael Seadle (iCaucus Past-Chair), Humbolt University, Germany –Tom Finholt (Treasurer), University of Michigan, USA –Gobinda Choudhury (Elected), Northumbria Universtiy, UK
  5. iCaucus Member Schools (US:20, EU:3, Asia:2 = 25) • University

    of California, Berkeley, School of Information • University of California, Irvine, Donald Bren School of Information and Computer Sciences • University of California, Los Angeles, Graduate School of Education and Information Studies • Carnegie Mellon University, School of Information Systems and Management, Heinz College • Drexel University, College of Information Science and Technology • Florida State University, College of Communication and Information • Georgia Institute of Technology, College of Computing • Humboldt-Universitat zu Berlin, School of Library and Information Science (Europe) • University of Illinois, Graduate School of Library and Information Science • Indiana University, School of Informatics and Computing • University of Maryland, College of Information Studies • University of Sheffield: Information School (Europe) • University of Michigan, School of Information • University of North Carolina, of Information and Library Science • The Pennsylvania State University, College of Information Sciences and Technology • University of Pittsburgh, School of Information Sciences • University of Copenhagen, Royal School of Library and Information Science (Europe) • Rutgers, the State University of New Jersey, School of Communication and Information • Singapore Management University, School of Information Systems (Asia) • Syracuse University, School of Information Studies • University of North Texas, College of Information • University of Texas, Austin, School of Information • University of Toronto, Faculty of Information • University of Washington, Information School • Wuhan University, School of Information Management (Asia)
  6. 선출된 iCaucus 회원교 (유럽:3개교, 아시아:1개교) • 성균관대학교 (SKKU) 문헌정보학과 iSchool,

    한국 • Northumbria University iSchool, UK • University of Tampere iSchool, Finland • Univeristy of College iSchool, Ireland
  7. iConsortium Member Schools (40) • Charles Sturt University: School of

    Information Studies • Michigan State University: Department of Media and Information • Nanjing University: School of Information Management • Northumbria University • NOVA University of Lisbon: School of Statistics and Information Management • Open University of Catalonia: Information and Communications Science Studies • Polytechnic University of Valencia: School of Informatics • Seoul National University, Korea: School of Convergence Science and Technology • Sungkyunkwan University, Seoul, Korea: LIS & Data Science • Sun Yat-sen University, China. School of Information Management (2014) • TélécomBretagne: Department of Logic Uses, Social Sciences and Information • University College Dublin: School of Information and Library Studies • University College London: Department of Information Studies • University of Amsterdam: Graduate School of Humanities, Archives and Information Studies • University of Boras: The Swedish School of Library and Information Science • University of British Columbia: School of Library, Archival and Information Studies • University College: Oslo and Akershus: Department of Archivistics, Library and Information Science • University of Glasgow: Humanities Advanced Technology and Information Institute • University of Kentucky: College of Communications and Information Studies • University of Maryland, Baltimore County: Department of Information Systems • University of Melbourne: Melbourne School of Information • University of Missouri: School of Information Science and Learning Technologies • University of North Texas: College of Information • University of Porto: Faculty of Engineering in cooperation with the Faculty of Arts • University of Siegen: Institute for Media Research • University of South Australia: School of Computer and Information Science • University of Strathclyde: Department of Computer and Information Science • University of Tampere: School of Information Sciences • University of Tennessee, Knoxville: School of Information Sciences • University of Tsukuba: Graduate School of Library, Information and Media Studies • University of Wisconsin, Madison: School of Library and Information Studies • University of Wisconsin, Milwaukee: School of Information Studies • Yonsei University, Seoul, Korea, LIS (2014)
  8. Annual iConference • 매년 2– 3월에 열림 ü주로 미국에서 개최되었고,

    2014년도 처음으로 독일 Berlin 소재 Humboldt University iSchool에서 개최됨 ü매년 iConference 기간 중에 열리는 iCaucus 회의에 모든 iSchool 학장의 참여 의무적, 대리참석 불가. • 차기 회의 일정 ü2016 3/20-3/23 Drexel University, Philadelphia, USA. ü2017 Wuhan/SKKU 공동주최 확정 (Venue: Wuhan): 아시아 최초
  9. • What is the official name of the “school” (unit)

    and the university? • Who is the head of the school? • What is the title of the person who heads the unit? • To whom does that person report? • How many permanent professors does the school have? • How many other teaching staff does the school have on the regular payroll? • How many adjuncts (i.e., lecturers paid per class)? • How many external professors are actively involved with the school? • How large is the bachelors program (if any)? • How large is the maters program? Q1. Administrative Information
  10. • When was the Ph.D. program established? –How many students

    have received Ph.D. in the last 3 years (by year)? –Please list 5 top student projects from your school within the last few years (recently completed or in process) • How much research money has the school received in the last 3 years (by year)? –Where does funding typically come from? • Please list 5 significant research areas in your school with 2-3 sentences to describe each. • Where do faculty typically publish? (3 or 4 examples) • Please list five conferences that your faculty or doctoral students attend regularly. Q2. Research Information
  11. •Please describe briefly why you want to join the iSchoolsand

    what you feel your institution can contribute towards establishing and advancing the identity of iSchoolsand their distinction from other professional disciplines. Q3. Profile
  12. •A success story of iSchool program in USA – UW

    iSchool iAffiliate Program – Membership fee: $2,500, $5,000, or $10,000 per year – Membership benefit: privilege to interview graduates one month before other companies or organizations iAffiliate Program: UW iSchool
  13. What is Data Science? • A discipline that incorporates statistics,

    data visualization, computer programming, data mining, machine learning and database engineering to solve complex problems Ø 데이터과학은 통계, 데이터시각화, 컴퓨터 프로그래밍, 기계학습, 데이터공학을 활용하여 복잡한 문제를 해결하는 학문 (Source: Data Scientist - The definitive guide to becoming a data scientist) • Data science is the extraction of knowledge from data Ø 데이터과학은 데이터에서 지식을 추출하는 것에 관한 학문 (Source: Wikipedia)
  14. •SKKU received 5 years of government funding for BS in

    Data Science starting Spring 2015. – 성균관대학교 문헌정보학과는 CK사업에 선정되어 2015년 봄학기부터 데이터과학 학부 전공을 시작하였음. Funding for Data Science
  15. • iSchool –Dr. Young Man Ko (Research Data Analytics) –Dr.

    Sam Gyun Oh (Data Modeling & Data Analytics) –Dr. Wonsik Jeff Shim (Data Visualization) –Dr. Yongjung Lee (Health Informatics) –Currently searching for Data Science faculty • Computer Education –Dr. Sungjin Ahn & Dr. Jaehyun Kim (Computer Network & Security) • Statistics –Dr. Byungtae Seo & Jongsun Hong (Statistical Modeling) • Consumer Economics –Dr. Sungrim Lee (Consumer Pattern Analytics) • Linguistics –Dr. Myungwon Choe (Linguistics) & Dr. Moonpyo Hong (Computational Linguistics) • Business –Dr. Sangman Han (Business Analytics) and Jongwook Kim (MIS) • Other partners will be added as needed SKKU DS Faculty
  16. • DS Core (Choose 5) –Introduction to Data Science –Programming

    in Python and JavaScript –Programming in R –Data Visualization –Data Modeling –Statistical Data Mining –Business Intelligence –Visual Programming –Data Curation • DS Lab (Choose 4) –Research Data Analytics –Social Data Analytics –Big Data Analytics –Health Data Analytics –Data Mining –Machine Learning Data Science @ SKKU iSchool • DS General (Choose 3) • Digital Humanities • Semantic System • Statistical Modeling • Information Security and Ethics • Information Networks • Computer Graphics • Multivariate Analytics
  17. DaaS (Data as a Service)의 개념 “클라우드 컴퓨팅(Cloud Computing) 환경을

    기반으로 / 범용의 웹기술을 활용하여 / 데이터를 활용하고자 하는 이용자 또는 기관에게 / 서비스로서(as a Service) 데이 터를 제공하는 것” (과금 또는 비과금 방식)
  18. DaaS가 중요해지는 환경적 요인 구분 내용 Quantification • 막대한 양의

    데이터 생성 • IoT(Internet of Things)를 통한 빅데이터의 생성과 분석 기술의 발전으로 데이터의 가치발굴을 통한 수익 창출의 기 회가 확대되고 있음 Appification • 정보요구의 즉시적 만족을 요구하는 이용자가 증가하는 추세 (인터넷, 모바일 및 앱 이용자 증가) • 정보제공자는 정보의 수집, 가공, 제공의 전반적인 프로세스 에 대한 패러다임 전환이 필요 Cloudification • 데이터를 유지하고 서비스하기 위한 인프라 비용의 증가 • 비용절감과 서비스 유연화를 위해 비즈니스 환경에서 클라우 드 인프라를 채택하는 비율 증가 * 출처: Data as a Service: A Framework for Providing Reusable Enterprise Data Service, Pushpak Sarkar, John Wiley& Sons, 2015
  19. DaaS의 강점과 약점 구분 내용 강점 Agility 신속한 데이터 접근을

    가능케 하며 다양한 데이터 분석을 빠른 속도록 구현 High Quality Data 전문적인 데이터 사업자에 의한 집중적 관리로 데이터 품질 향상 Cost Effectiveness 데이터 처리를 위한 컴퓨팅 자원 유지 불필요로 인한 비용 감소 약점 Privacy 서비스로 제공되는 데이터의 프라이버시 관련 복잡한 문제 Security 용이한 접근으로 인한 취약한 보안성 Data Governance Issues 효과적인 데이터 통합 및 품질 유지의 어려움 * 출처: dataversity.net
  20. BDaaS (Big Data as a Service) • 빅데이터의 유통, 데이터

    분석 및 컨설팅 등 빅데이터 서비스의 주요 기 능이 클라우드 컴퓨팅(Cloud Computing) 환경을 기반으로 제공 강점 약점 • Rapid provisioning • Elastic scalability • Higher availability and efficiency • Relevant real-time analysis • Lower up-front costs • Outages • Costs of data migration and integration • Lack of best practices • Potentially higher costs * 출처: itproportal.com
  21. as-a-Service의 유형 Amazon Web Services, Windows Azure, Google Compute Engine

    Engine Yard, RedHat Openshift, Heroku Akamai, salesforce, Cloud9 * 이미지 출처: 마이크로소프트 Technet
  22. 클라우드 환경에서 DaaS의 위치 DaaS in the as-a-service stack *

    이미지 출처: the Next Step in the As-a-service Journey,2014, Ovum
  23. DaaS의 이용자 * 이미지 출처: Data as a Service: A

    Framework for Providing Reusable Enterprise Data Service, Pushpak Sarkar, John Wiley& Sons, 2015
  24. DaaS 서비스 제공자 유형 유형 내용 주요 제공자 대규모 IT

    기업 데이터 관리와 비즈니스 어플리케이션 관련 기술 및 노하우를 바탕으로 DaaS 플랫폼 또는 솔루션 제공 IBM, Microsoft, Oracle, SAP 종합광고대행사 디지털 비즈니스 경험과 데이터처리 관 련 노하우를 바탕으로 한 DaaS 서비스 제공 Dentsu/Aegis Media, Havas, Interpublic(IPG), PublicisOminicom, WPP 시스템 통합/비즈니 스 서비스 제공자 기술기반 비즈니스 컨설팅 노하우를 바 탕으로 DaaS 서비스 제공 Accenture Interactive, Deloitte Digital 데이터 사업자 보유하고 있는 데이터처리 기술과 솔루 션을 바탕으로 DaaS 서비스 제공 Axciom, Experian, Neustar * 출처: Data-as-a-service: the Next Step in the As-a-service Journey, 2014, Tom Pringle, Ovum
  25. DaaS를 구성하는 데이터 유형 Foundational: Build a Better Long Term

    Target Data Set Onboarded: Connect Offline and Online IDs Fast: Target the Right In Market Customers and Prospects 1st party data combined with 3rd party and Hard-to-Find Data(HTFD). These specialty HTFD sets have been aggregated from hundreds of Big Data sources and go well beyond third party lists. Offline data transformed into addressable online identities. Onboarding provides new opportunities to reach customers and prospects in the digital universe. Real-time behavioral data. Fast Data aggregates event and behavioral- driven data to determine purchase intent as it occurs * 이미지 출처: datamentors.com
  26. 주요 DaaS 사례 • KT API Store • IBM Analytics

    for Twitter • Oracle Data as a Service • Hoovers.com • Treasure Data • UN Data
  27. 주요 DaaS 사례 1 • KT API Store • 플랫폼을

    통해 국내외 다양한 데이터 API를 소개하는 서비스 (과금 /비과금 방식 제공)
  28. 주요 DaaS 사례 2 • IBM Analytics for Twitter •

    매일 5억건의 트위터데이터 분석정보를 기업에게 제공 (유료구독)
  29. 주요 DaaS 사례 3 • Oracle Data as a Service

    • RDBMS 시장의 1위 사업자 Oracle에 의해 제공되는 DaaS 서비스 ( 라이선스 구매) * 이미지 출처: constellationr.com
  30. 주요 DaaS 사례 4 • Hoovers.com • 산업정보, 회사주요정보, 인명정보

    등 비즈니스 특화 정보를 제공 하는 DaaS 서비스 (유료구독)
  31. 주요 DaaS 사례 5 • Treasure Data • 클라우드 기반

    환경에서 빅데이터의 저장, 통합 및 반출 기능을 제공 하는 DaaS 서비스 (유료구독)
  32. 주요 DaaS 사례 6 • UN Data • UN이 보유한

    전세계의 핵심 통계 데이터를 자체 플랫폼을 통해 제 공하는 DaaS 서비스
  33. 5★ Linked Data ★ 오픈 라이선스에 따라 (포맷과 관계없이) 웹을

    통해 정보를 접근 가능하도록 함 ★★ 구조화된 데이터의 형태(예를 들어 이미지보다는 Excel)로 정보를 접근 가능하 도록 함 ★★★ 비독점적인 포맷(예를 들어 Excel 보다는 CSV)으로 정보를 접근 가능하도록 함 ★★★★ 모든 개체에 URI를 할당하여 식별 가능하도록 함 ★★★★★ 다른 정보와의 연결 정보를 포함하도록 함 * 출처: 5stardata.info
  34. Linked Data의 강점과 약점 강점 약점 • 수많은 기관의 참여(LOD

    Cloud) • RDF, JSON과 같은 범용 표준포맷 으로데이터 제공 • 재사용 가능한 어휘에 기반 • 단일 쿼리언어(SPARQL)를 활용 다중의 엔드포인트(Endpoint)로 데 이터 조회 • 엔드포인트의 불안정성 • SPARQL 쿼리의 높은 비용 • Federated Query 결과 통합의 어려 움과 성능 이슈
  35. Linked Data as a Service • DataGraft • 링크드 데이터의

    생성, 활용, 재사용 절차를 단순화하고, 처리속도 를 높이기 위해 개발된 LDaaS 서비스
  36. Linked Data as a Service • LOD Laundromat • 전세계에

    존재하는 LOD를 수집하고 정제하여 하나의 LOD 저장 소로 통합하여 제공하는 LDaaS
  37. Linked Data as a Service • DYDRA • RDF 데이터의

    저장과 배포, SPARQL 쿼리를 지원하는 LDaaS
  38. Paradigm Shift • 연구 최종결과물의 관리를 넘어, 연구과정에서 생성되는 연구데이터

    관리까지로 범위 확장되는 추세 • 국제적 우수한 대학교 및 연구소들이 연구데이터 관리서비스에 적극 참여 (특히, 미국, 영국, 호주 대학 및 정부가 RDM 서비스 개발 및 시행)
  39. What is Research Data? Proposal Planning Writing Project Start Up

    Data Collection Data Analysis Data Sharing End of Project Data Discovery Data Archiving/ Curation Re-use Deposit Re-Purpose Data Life Cycle • 연구가 시작되어 연구가 끝나는 과정까지 생산되는 모든 데이터
  40. What is Research Data? • 연구 데이터의 형태 – 수치

    (numerical) – 공간 (spatial) – 도표 (graphical) – 문서 (text) • 데이터 수집 방법 – 관측 (Observation): 망원경, 전자현미경, 인공위성 – 감시 (Monitoring): 센서 – 조사 (Investigation): 설문조사, 기술 및 시장조사, 기술가치평가 – 실험 (Experiment): 가속기, 화학, 바이오 실험장비 – 연구 분석 (Research analysis): 분석 도구 – 계산 (Computation): 슈퍼컴퓨터
  41. Why RDM? • 다양한 방법으로 수집된 연구데이터는 프로젝트가 끝난 후

    연구자가 개별관리하고 그 이후의 활용여부는 알 수 없는 상황 • 연구 과정에서 생성된 데이터의 재활용성을 높이고, 새로운 발견으로 이어질 가능성이 높은 데이터의 체계적인 관리
  42. Why RDM? • 효율적인 연구수행 뿐 아니라, 연구결과의 신뢰성을 높여주며,

    연구결과 조 작을 미연에 방지 • 황우석의 줄기세포 조작 사태는 윤리의식 결여에 따른 결과이며, 연구데이 터 관리의 중요성을 인식케 한 사례
  43. Why RDM? Nature의 데이터 요구사항 • 논문제출자는 Nature Editor가 요청한

    기한 내에 규정에 따라 연구에 사용된 데이터셋 업로드 및 리포트를 제출해야 함 • 생명 과학 분야 예시 Reporting Requirements - 실험에 사용된 분석 설계 요소에 대한 세부사항을 평가자에게 제출 ex) 실험 연구 설계: Sample size, Randomization, Blinding, Replication 통계 연구: 사용된 통계방법론 및 분석 데이터 상세 정보 상세히 기술 시약 연구: 항체, 셀 정렬 등 policy: http://www.nature.com/authors/policies/reporting.pdf - 동료 평가가 진행되는 동안 체크리스트를 작성해서 제출 ex) 샘플 사이즈는 각 그룹별, 상황별로 어떠한가? 샘플은 독자가 이해할 수 있게 대표성을 띠는가? 체크리스트: http://www.nature.com/authors/policies/checklist.pdf 데이터셋 제출 - 기한 내에 공공 리포지토리인 Figshare, Dryad에 데이터셋을 제출해야 하며, 제출된 데이터는 발행 이전에는 동료평가자만 접근가능하도록 설정되어 있음. 추가 정보: http://www.nature.com/authors/policies/availability.html
  44. Value of RDM • 데이터 관리 및 분석 시간 감소

    • 데이터 손실의 위험에 서 해방 • 데이터 재활용성 상승 • 지적재산권 명확화 • 연구자 간 네트워크 활성화 • 체계적인 연구결과물 관리 및 데이터 망실 위험 감소 • 연구데이터 관리 및 활용 으로 관리물의 양적 증대 및 인용과 재사용의 횟수 증가 • 새로운 연구자 네트워트 발굴, 협력관계 확대, 연구 플랫폼 활용확대 • 연구결과물 + 원천 데이터 • 연구결과물 신뢰 이용자 기관 및 정보관리소 연구자
  45. Research Data Alliance • Research Data Alliance (연구데이터 연합체) –RDA는

    데이터 공유 및 교환 장벽을 제거하거나 줄이는 데 초점을 둔 데 이터 기반의 글로벌 혁신을 가속화하기 위한 커뮤니티 활동 –호주, 미국, 영국의 펀딩 기관의 지원 하에 2012년 정식 출범됨 –100개 국가, 3,200명 이상의 멤버를 보유하고 있으며, 학문 분야에 제한 이 없이 Data Management 전문가로 구성되어 있음
  46. Preparing RDM 데이터 관리의 목표 수립 데이터 선정 메타데이터 데이터의

    저장, 백업, 보안 법적, 윤리적 고려사항: 지적재산권 데이터 공유와 재사용 데이터 아카이빙
  47. Concluding Remarks • iSchool Movement ü Information, Technology, People의 삼각관계를

    동시에 연구하는 신 학문분야로 정착 ü 대부분 외국의 Data Science 전공도 iSchool 안에 개설되는 추세 • DaaS ü Data-as-a-Service(DaaS), Big Data-as-a-Service (BDaaS)는 비즈니스 환경에서 이미 큰 흐름을 형성하고 있음 ü DaaS의 강점은 이용자가 데이터 유지관리 업무를 최소화 할 수 있고, 데이터 기반의 제품과 콘텐츠 개발에 집중할 수 있도록 함 ü DaaS 개념을 적용한 링크드 데이터 서비스는 기존에 링크드 데이 터가 지닌 단점들을 극복할 수 있는 대안으로의 가능성이 높음
  48. Concluding Remarks • Data Management ü 데이터 관리 및 서비스는

    새로운 영역으로 새로운 관점에서의 사 고가 필요함 ü 학술도서관의 역할에 대한 새로운 기회 ü 도서관 및 연구소가 데이터가 중요한 자원이라는 새로운 인식이 필요함