Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
找人
Search
uictechparty
August 04, 2012
Programming
3
440
找人
By Entity Search Engine team, 3n TechParty@UIC
uictechparty
August 04, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
180
香港研究生申请经验分享
uictechparty
0
400
css.pdf
uictechparty
1
180
Introduction to Design Patterns
uictechparty
2
140
编写高质量Java代码的7个建议
uictechparty
2
170
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
90
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
200
Introduction to Hadoop
uictechparty
3
220
Other Decks in Programming
See All in Programming
Azure OpenAI Serviceのプロンプトエンジニアリング入門
tomokusaba
3
860
大規模Reactアプリのリアーキテクチャ~8万行のTanStack Query移行の軌跡~
kj455
4
1k
単体テストを書かない技術 #phpcon_odawara
o0h
PRO
27
8.5k
MicrosoftのPlatform Engineeringガイドを読んで実際になにかやってみた
ymd65536
1
500
Ruby Function Composition
bkuhlmann
1
340
StoreKit2によるiOSのアプリ内課金のリニューアル
kangnux
0
120
AWS CDKコントリビュートTIPS / aws-cdk-contribution-tips
gotok365
4
330
GraphQLサーバの構成要素を整理する #ハッカー鮨 #tsukijigraphql / graphql server technology selection
izumin5210
4
900
Java 22 Overview
kishida
1
190
敵対的ポイフル
futabato
0
130
dbtのドメイン分割による データ基盤の改善とDigdagとの連携
sakama
0
440
try! Swift Tokyo 初参加報告LT
hinakko2
0
230
Featured
See All Featured
Making Projects Easy
brettharned
109
5.5k
Fireside Chat
paigeccino
22
2.6k
Adopting Sorbet at Scale
ufuk
69
8.6k
The Straight Up "How To Draw Better" Workshop
denniskardys
228
130k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
46k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
A Tale of Four Properties
chriscoyier
152
22k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
242
1.2M
Building Adaptive Systems
keathley
32
1.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
21
6.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.1k
Web Components: a chance to create the future
zenorocha
306
41k
Transcript
找人 中文数据抓取、存储、处理及展示解决方案 TechParty@UIC Entity Search Engine team
项目的目标、目前进度及未来方向 目标:通过中文信息抽取的方法从人物的描述性文本中抽取 出该人物的社交图谱、人-机构关系及简历数据,以供检 索。 进度:1. 完成百度百科、互动百科、新浪微博、腾讯微 博、和讯网、CEO网等部分数据的抓取(约1个月) 2. web搜索框架基本完成 3.
命名实体识别(NER,准确率未统计) 4. 实体关系识别(ERR,准确率未统计)
项目的目标、目前进度及未来方向 方向:人肉搜索?人才搜索?
整体架构 Web HtmlUnit 火车头 cnpameng XML Mongodb ICTCLAS NER(PLY) ERR(Regx)
Cosin Simi Mongodb Mongodb Redis CodeIgniter JQuery + D3.js
数据抓取 面临问题:数据结构繁杂、帐号ip可能被封、页面Ajax调 用 使用工具: 1. 火车头:通过编写规则抓取数据 2. HtmlUnit:灵活度高 3. cnpameng:众包形式的数据采集共享
HtmlUnit
数据存储 1. 文件系统? —— FileIO操作,线程锁麻烦不安全 2. 关系型数据库? —— 对非结构化的原始数据不合适 ——
对分布式存储支持不友好 3. Not Only SQL? —— Mongodb, Redis
MongoDB MongoDB (from "humongous") is a scalable, high- performance, open
source NoSQL database. Written in C++ 1. 文档型数据库:类JSON格式的键值对集合 2. 索引:支持对有重复值的key建立索引 3. 全文检索 3. MapReduce
MongoDB
Redis Redis is an open source, advanced key-value store. It
is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis> set k hello OK redis> append k ,world (integer) 11 redis> get k "hello,world"
数据处理 面临问题:无训练用标注语料、中文NLP开源工具缺乏、文 本数据来源繁多
中文自然语言处理 分词:ICTCLAS(中科院),基于HMM 收集词典(HTMLUnit + 火车头) 编译Python接口(工具自带C/C++, Java, C#)
中文自然语言处理 个人/n/O 简介/n/O :/wp/O 马欣川/nr/PER ,/wd/O 男 /nse/SEX 。/wj/O 资深职业顾问/np/POS
、/wn/O 心理学/nm/MAJ 博士 /nde/DEG 、/wn/O 人才测评/nm/MAJ 博士后/nde/DEG 、 /wn/O 原/b/O 华南师范大学/nte/EDU 人力资源研究所 /ntr/LAB 副所长/np/POS 、/wn/O 国内/s/O 最/d/O 具 /vg/O 实战/n/O 经验/n/O 的/ude1/O 人才测评/nm/MAJ 专 家/n/O 之一/rz/O 。/wj/O
信息抽取 命名实体识别: 基于统计:CRF?—— 缺乏训练语料,近似黑盒 基于规则:CFG -> Bison/Flex -> PLY(LALR)
信息抽取 实体关系识别: 基于规则:使用正则文法对分词后的句子进行反复匹 配。 马欣川 Education: major 人才测评/nm/MAJ degree 博士后/nde/DEG
-------------------------------------------------------------- Work: organization 华南师范大学/nte/EDU 人力资源研究所/ntr/LAB position 副所长/np/POS
单个文档内的合并数据 为何要合并? 余弦相似性:通过测量两个向量之间的角的余弦值来度量 它们之间的相似性。0度角的余弦值是1,而其他任何角度的 余弦值都不大于1;并且其最小值是-1。从而两个向量之间的 角度的余弦值确定两个向量是否大致指向相同的方向。
多个文档间的数据合并 ?
数据展示 CodeIgniter:PHP框架,中文文档齐全,轻量级 SCWS:PHP中文分词框架 D3.js:数据可视化jS框架
D3.js 1 使用的json格式 2 效果 3 API https://github.com/mbostock/d3/wiki/API- Reference